Codex Just Became THE BEST Long Running Agentic Harness

🖼️ 인포그래픽

Codex Just Became THE BEST Long Running Agentic Harness 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 결론

Codex의 goals 기능은 장시간 실행되는 agentic harness를 내부 오케스트레이션으로 흡수해, 목표·상태·예산·검증을 이어가며 복잡한 작업을 자동 확장하는 방향을 보여준다.

📌 핵심 요점

Codex goals는 사용자가 목표를 제시하면 별도 RALF loop나 외부 오케스트레이션 없이 장시간 자율 코딩 작업을 이어가는 실험적 기능으로 소개된다.
기존 Ralph Loop는 prompt.md와 state.md를 기반으로 반복 실행과 상태 추적을 구현하지만, 예산 관리·크래시 복구·종료 검증 같은 운영 기능은 제한적이다.
Codex Goals는 continuation, budget limit 같은 내부 파일 흐름을 통해 토큰 한도에 가까워질 때 현재 결과와 재개 정보를 정리하는 방식으로 더 안정적인 장기 실행을 지향한다.
데모에서는 2D 전투 게임 Rift Salvage를 목표로 삼아 에셋 생성, 캔버스 게임 구현, 자동 검증, 전투 시스템, 보스전 확장까지 두 차례 goal 실행으로 발전시키는 과정을 보여준다.
영상의 핵심 메시지는 “장시간 에이전트 실행의 성패는 도구 자체뿐 아니라 명확한 North Star, 수량화된 완료 기준, 빌드·Playwright·UI 검증 같은 구체적 성공 조건에 달려 있다”는 점이다.

🧩 배경과 문제 정의

Codex의 실험적 goals 기능은 별도의 오케스트레이션 레이어 없이 장시간 자율 코딩 작업을 이어가도록 설계된 기능이다.
기존에는 RALF loop처럼 상태 파일을 남기고 다음 실행이 이를 이어받는 반복 구조가 필요했지만, Codex는 이 흐름을 내부 기능으로 흡수하려는 방향을 보여준다.
핵심 문제는 사용자가 계속 개입하지 않아도 복잡한 코딩 목표를 몇십 분에서 몇 시간 단위로 안정적으로 진행할 수 있는가에 있다.
영상은 2D 전투 게임 Rift Salvage 제작을 예시로 삼아, goals가 프로젝트 생성, 에셋 제작, 반복 구현, 검증, 추가 목표 실행까지 처리하는 과정을 보여준다.
결론적으로 goals는 Codex를 단순 질의응답형 코딩 도구가 아니라, 장시간 실행 가능한 에이전트형 개발 하네스로 확장하려는 실험으로 제시된다.

🕒 시간순 섹션별 상세정리

1. Codex goals의 장시간 자율 코딩 기능 소개 [00:00]

Codex의 goals 기능은 큰 목표를 입력하면 Codex가 장시간 자율적으로 작업을 이어가도록 설계된 실험 기능이다
영상은 이 기능이 별도 오케스트레이션 없이 몇 시간 규모의 코딩 작업을 처리할 수 있는지 보여주는 데 초점을 둔다
발표자는 Codex가 이제 “최고의 long-running agentic harness” 수준에 가까워졌다고 평가한다
데모는 이미지 에셋과 게임 로직을 포함한 2D 전투 게임 제작을 목표로 진행된다
goals는 기본으로 켜져 있지 않으며, 설정에서 직접 활성화해야 하는 실험 기능이다
config.toml에 features 항목을 추가하고 goals = true를 설정하면 사용할 수 있다
데스크톱 앱과 CLI에서는 /goal 명령으로 목표 기반 실행을 시작할 수 있다
다만 초기 실행 피드백이나 알림이 충분히 명확하지 않아, 아직 실험 기능다운 거친 사용감이 남아 있다

2. 기존 RALF loop 방식과 비교 배경 [02:20]

발표자는 과거에 RALF loop라는 자체 반복 실행 구조를 사용했다고 보여준다
이 방식은 상태 파일을 남기고, 다음 실행이 그 파일을 읽어 남은 작업을 이어받는 구조다
첫 번째 턴은 일부 작업을 수행한 뒤, 상태 파일에 완료 여부와 다음에 해야 할 일을 기록한다
다음 턴은 해당 파일을 읽고 아직 끝나지 않은 작업을 새 목표로 삼아 계속 진행한다

3. 실패 기록과 이어받기 방식 [04:35]

실패한 실행도 어떤 시도를 했고 무엇이 남았는지 파일에 기록한다
다음 실행은 그 기록을 바탕으로 같은 문제를 다시 시도하거나 다른 해결 방식을 선택한다
Codex Goals도 내부적으로 파일을 갱신하며 진행 상황을 유지한다는 점에서 Ralph Loop와 닮아 있다
차이는 사용자가 반복 실행 구조를 직접 만들거나 관리하지 않아도 된다는 데 있다

4. continuation과 budget limit 파일의 역할 [05:55]

Codex Goals는 continuation과 budget limit 파일을 활용해 실행을 계속할지, 정리 단계로 넘어갈지 판단한다
남은 작업과 예산이 충분하면 진행을 이어가고, 한도에 가까워지면 다음 실행을 위한 정리 모드로 전환한다
토큰 예산이 부족해지면 budget limit.md가 주입되어 현재까지의 진행 상황을 압축 정리한다
이때 재개에 필요한 맥락과 남은 작업을 남겨, 다음 실행이 자연스럽게 이어받을 수 있게 한다

5. 장시간 실행에서 명확한 목표의 중요성 [08:01]

발표자는 복잡한 목표일수록 산출물과 검증 조건을 구체적으로 지정해야 한다고 강조한다
“게임을 만들어줘”처럼 넓은 요청보다 적, 보스, 에너지 코어, 위험 요소, UI, 배경 등 구현 요소를 명확히 적는 방식이 필요하다
예시 프로젝트는 2D 전투 게임 Rift Salvage로 설정된다
목표에는 적 캐릭터, 보스, 수집 요소, 위험 요소, 배경, 배지, UI 풍미 자산 등이 포함된다

6. plan mode를 통한 목표 구체화 [09:10]

복잡한 프롬프트는 먼저 plan mode에서 실행 가능한 계획으로 압축된다
이 단계에서는 모호한 아이디어를 실제 구현 항목으로 압축하고, 작업 순서를 잡는 것이 핵심으로 다뤄진다
발표자는 계획을 곧바로 승인하기보다 /goal을 사용해 해당 계획을 장시간 실행 목표로 전환한다
이 흐름은 단발성 구현보다 목표를 유지하며 이어가는 장기 작업에 더 적합한 방식으로 드러난다

7. goal 실행 중 데스크톱 앱 UI 경험 [10:35]

실행 중에는 goal 배지가 표시되어 목표 기반 실행 상태를 확인할 수 있다
다만 명령 표시가 충분히 명확하지 않고, plan mode에 남아 있는 듯 보이는 UI 혼란도 함께 나온다
첫 번째 실행 결과로 기본 게임 빌드와 여러 이미지 에셋이 생성된다
결과물에는 비트맵 에셋, 알파 컷아웃, 자동 플레이 검증기, 생성된 구성물 목록 등이 포함된다

8. 브라우저에서 첫 게임 빌드 검증 [12:40]

발표자는 실제 브라우저에서 게임을 열어 작동 여부를 확인한다
로딩 화면, 우주선, 수집 대상, 추격하는 적 등 기본 플레이 루프가 구현되어 있다
게임은 작동하지만 시각적 대비가 낮아 일부 요소가 배경에 묻힌다
기본 구조는 완성됐지만 전투감과 가독성은 추가 개선이 필요한 상태다

9. 두 번째 goal을 통한 개선 목표 설정 [14:00]

발표자는 첫 결과물을 확인한 뒤, 전투와 보스전 요소를 강화하기 위한 두 번째 목표를 설정한다
기존 결과를 기반으로 다음 개발 목표를 이어 붙이는 방식으로 Codex Goals를 활용한다
약 15분 후 두 번째 goal 실행이 완료된다
두 번의 goal 실행을 합친 전체 작업 시간은 약 45분 정도로 나온다

10. 전투 시스템과 UI 확장 결과 [15:00]

새 버전에는 상단 UI 위젯, 타깃 콤보, 보스 신호 같은 요소가 추가된다
플레이어의 사격, 적의 반격, 체력 개념이 포함되면서 전투 시스템이 더 구체화된다
두 번째 결과물은 단순 수집 게임에서 전투 중심 게임에 가까운 형태로 발전해진다
발표자는 짧은 시간 안에 여러 핵심 게임 요소가 구현된 점을 강조한다

11. Codex 내장형 오케스트레이션의 장점 [16:01]

Codex는 GSD나 Superpowers 같은 외부 오케스트레이션 레이어 없이도 장기 실행 흐름을 처리할 수 있다
스캐폴딩, 계획 수립, 구현, 작업 이어받기까지 Codex 내부에서 자연스럽게 연결되는 구조로 드러난다
Cloud Code로도 비슷한 작업은 가능하지만, 경우에 따라 별도 도구 연결이 필요할 수 있다
특히 이미지 생성을 위해 Higgsfield CLI나 Higgsfield MCP 같은 외부 도구를 붙이는 방식이 예시로 나온다

12. Codex와 Cloud Code의 결합 가능성 [16:29]

발표자는 Codex Goals가 단독으로도 유용하지만, 다른 개발 에이전트와 함께 사용할 때 더 강력해질 수 있다고 본다
Cloud Code가 계획을 만들고 Codex Goals가 실행한 뒤, 다시 Cloud Code가 결과를 검토하는 왕복 구조가 가능하다고 보여준다
Codex Goals는 장시간 자율 코딩 작업을 더 쉽게 맡길 수 있는 내장형 하네스로 평가된다
아직 실험 기능이기 때문에 UI와 피드백 측면에서 다듬을 부분은 있지만, 장기 실행 에이전트 개발 흐름에서는 실용적 가능성이 크다는 결론으로 마무리된다

🧾 결론

이 영상은 Codex goals를 단순한 명령 기능이 아니라, 장시간 agentic harness를 제품 내부로 끌어들인 실험적 오케스트레이션 구조로 다룬다.
Rift Salvage 데모는 목표가 명확하면 Codex가 프로젝트 생성, 이미지 에셋 제작, 게임 로직 구현, 브라우저 검증까지 상당 부분을 자동으로 이어갈 수 있음을 보여주는 사례다.
다만 영상 기준으로도 goals는 실험 기능이며, UI 피드백이 불명확하거나 기존 목표 스레드에서 연속 실행이 매끄럽지 않은 부분 등 거친 지점이 언급된다.
영상 속 주장은 Codex Goals가 기존 Ralph Loop나 GSD류 도구의 일부 역할을 대체할 수 있다는 방향이지만, 실제 안정성·재현성·대규모 프로젝트 적용성은 별도 검증이 필요하다.

📈 투자·시사 포인트

AI 코딩 도구의 경쟁 축이 “짧은 프롬프트 응답”에서 “목표 기반 장시간 실행·복구·검증”으로 이동하고 있음을 시사한다.
Codex처럼 장기 실행 harness를 제품 내부에 통합하는 흐름은 외부 오케스트레이션 도구, 에이전트 런타임, 자동 검증 플랫폼의 가치 평가에도 영향을 줄 수 있다.
영상에서 강조된 성공 조건은 투자 관점에서도 중요하다. 단순 모델 성능보다 상태 관리, 예산 제어, 재개 가능성, 검증 자동화, 산출물 감사가 실사용 채택의 핵심 지표가 될 가능성이 있다.
이미지 생성과 코딩 에이전트가 결합된 Rift Salvage 사례는 게임 프로토타이핑, 인터랙티브 콘텐츠 제작, 내부 툴 제작 영역에서 에이전트형 개발 워크플로우가 확장될 수 있음을 보여준다.
단, 본 입력만으로는 Codex Goals의 실제 출시 상태, 비용 구조, 보안·권한 모델, 기업 환경 안정성은 확인되지 않으므로 투자 판단에는 공식 문서와 별도 실사용 검증이 필요하다.

⚠️ 불확실하거나 확인이 필요한 부분

Codex goals 기능이 실제로 현재 공개 버전에서 어떤 범위까지 지원되는지는 영상 내용만으로는 확정할 수 없습니다. 특히 continuation, budget limit.md, /goal 또는 /go 명령의 정확한 명칭과 동작 방식은 공식 문서 확인이 필요하다.
영상에서는 goals 기능이 실험적 기능으로 언급되며, UI 피드백 부족이나 plan mode에 남는 듯한 현상이 나온다고 정리되어 있습니다. 다만 이것이 일반적인 버그인지, 특정 환경의 문제인지는 별도 검증이 필요하다.
Claude Code 재시작이 필요하다는 흐름이 포함되어 있지만, Codex 설정 변경과 Claude Code 재시작의 관계는 맥락상 혼재되어 보인다. 실제 설정 대상 도구와 재시작 대상은 확인이 필요하다.
자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.

✅ 액션 아이템

Codex goals 기능의 공식 문서나 릴리스 노트를 확인해 /goal, /go, goals = true 설정 방식이 실제로 유효한지 검증한다.
영상에서 언급된 continuation, budget limit.md, 상태 파일 업데이트 방식이 Codex의 공식 기능인지, 사용자 환경에서 생성된 내부 파일인지 구분한다.
장시간 에이전트 실행을 테스트할 때는 목표, 완료 기준, 검증 명령, 실패 시 재개 조건을 사전에 명확히 작성한다.
게임 제작 같은 복합 작업에는 npm run build, 로컬 실행, Playwright 검증, 핵심 상호작용 확인 등 구체적인 성공 기준을 포함한다.

❓ 열린 질문

Codex goals 기능은 현재 어떤 버전, 어떤 앱 또는 CLI 환경에서 사용할 수 있으며, 실험 기능 플래그가 필요한가?
영상에서 언급된 /goal과 /go는 같은 기능을 가리키는 표현인지, 아니면 서로 다른 명령인지?
budget limit.md와 continuation 파일은 사용자가 볼 수 있는 산출물인지, 내부 구현 설명인지, 또는 데모 환경의 커스텀 파일인지?