Pi Coding Agent Observability: HTML Specs with Gemini 3.5 Flash and GPT Image 2
Quick Summary
Pi Coding Agent Observability는 HTML Specs와 GPT Image 2 기반 시각 스펙이 에이전트 작업을 더 잘 돕는지, Gemini 3.5 Flash의 실행 로그로 성능·속도·비용을 함께 검증하려는 실험이다.
영상 보기
클릭 전까지는 가벼운 미리보기만 먼저 불러옵니다.
🖼️ 인포그래픽
🖼️ 4컷 인포그래픽
💡 한 줄 결론
Pi Coding Agent Observability는 HTML Specs와 GPT Image 2 기반 시각 스펙이 에이전트 작업을 더 잘 돕는지, Gemini 3.5 Flash의 실행 로그로 성능·속도·비용을 함께 검증하려는 실험이다.
📌 핵심 요점
- 영상의 중심 질문은 마크다운 스펙, HTML 스펙, 이미지가 포함된 VSpec 중 어떤 형식이 코딩 에이전트에게 더 “유용한 토큰”을 제공하느냐이다.
- 관찰 가능성은 에이전트의 이벤트, 턴, 도구 호출, 토큰 사용량, 비용, 산출물을 기록해 작업 결과뿐 아니라 결과에 도달한 과정을 비교하게 만든다.
- 실험에서는 마크다운, HTML, 강화 HTML/VSpec 계열의 차이가 토큰 사용량·턴 수·이벤트 수로 나타났지만, 단일 실행만으로 우열을 단정하기는 어렵고 반복 eval이 필요하다고 설명한다.
- HTML 스펙과 visual spec은 UI 컴포넌트, 레이아웃, 인터랙션 의도를 더 구체적으로 보여줄 수 있어 planning과 reviewing 병목을 줄일 가능성이 있다.
- 제품형 에이전트에서는 좋은 결과를 내는지만큼이나 얼마나 빠르고 저렴하게, 그리고 도구 호출을 얼마나 정확하게 수행하는지가 중요하며, observability가 그 판단의 기반이 된다.
🧩 배경과 문제 정의
- 영상의 핵심 문제는 새 기능을 만들 때 에이전트에게 어떤 형태의 스펙을 주는 것이 더 효과적인지 비교하는 것이다. 마크다운 스펙, HTML 스펙, 이미지가 포함된 시각적 스펙은 각각 에이전트의 이해도, 작업 속도, 비용에 다른 영향을 줄 수 있다.
- 발표자는 단순히 더 많은 토큰을 넣는 것보다 “유용한 토큰”을 제공하는 것이 중요하다고 본다. 따라서 스펙 형식은 에이전트 성능뿐 아니라 실행 속도와 비용까지 함께 판단해야 하는 운영 변수로 다뤄진다.
- 에이전트가 엔지니어링 작업과 제품 내부 기능으로 확대될수록, 최종 결과만 보는 방식으로는 개선이 어렵다. 각 턴, 도구 호출, 토큰 사용량, 비용, 생성된 artifact를 관찰해야 프롬프트와 모델 선택을 개선할 수 있다.
- 제품용 에이전트는 대규모 반복 실행을 전제로 하기 때문에, 고성능 모델만이 아니라 저렴하고 빠른 모델이 충분한 품질과 정확한 도구 호출을 제공하는지도 검증해야 한다.
- 검증이 필요한 부분은 모델별 우위와 비용 효율에 대한 일반화다. 영상에서는 Gemini 3.5 Flash, Deepseek V4 Pro, GPT Image 2 등을 사례로 언급하지만, 실제 제품 적용 여부는 각 작업의 품질 기준, 도구 호출 정확도, 비용 구조를 별도로 측정해야 한다.
🕒 시간순 섹션별 상세정리
1. 스펙 형식 선택과 실험 기준
- 새 기능을 만들 때 첫 판단 지점은 어떤 스펙을 에이전트에게 줄 것인지이며, 영상은 마크다운 스펙, HTML 스펙, 기타 시각적 형식이 실제 작업 품질에 어떤 차이를 만드는지 비교하려 한다 [00:26]
- 발표자는 토큰을 많이 쓰는 것 자체가 목표가 아니라, 에이전트가 실제로 작업에 활용할 수 있는 “유용한 토큰”을 제공하는 것이 중요하다고 보여준다 [00:41]
- 에이전트 솔루션은 결과 품질만으로 평가하기 어렵고, 성능, 속도, 비용 사이의 trade-off를 함께 봐야 한다는 기준이 드러난다 [00:56]
2. 관찰 가능성이 만드는 개선 루프
- 모든 이벤트, 턴, 도구 호출이 에이전트별로 수집되면, 개발자는 에이전트가 실제로 무엇을 했는지 과정을 볼 수 있다 [01:13]
- 측정 가능한 실행 흐름은 개선 가능한 흐름이 되며, 이는 프롬프트, 모델, 도구 사용 방식을 조정하는 근거가 된다 [01:28]
- 에이전트 관찰 가능성은 중앙 서버로 이벤트를 스트리밍하고, UI가 이를 읽어 실행 내역을 보여주는 구조로 드러난다 [01:46]
- 발표자는 이런 관찰 데이터를 기반으로 폐쇄형 개선 루프를 만들 수 있다고 본다 [02:01]
3. 스펙별 토큰·턴 차이와 Steelman 제품 에이전트
- 마크다운 에이전트는 HTML 에이전트보다 더 많은 토큰을 사용한 것으로 나타났고, HTML 에이전트는 더 많은 컨텍스트를 사용한 사례로 드러난다 [02:25]
- 다만 이 차이는 모델의 변동성, 스펙 작성 방식, 실행 조건의 차이에서 비롯될 수 있으므로 단순히 한 형식이 항상 우월하다고 단정하기는 어렵다 [02:40]
- 턴 수는 HTML 계획 에이전트 17턴, 다른 HTML 계열 에이전트 25턴, 마크다운 에이전트 29턴으로 갈렸다고 드러난다 [02:58]
- 발표자는 실제 작업 과정을 관찰하지 않으면 프롬프트별 차이나 에이전트별 행동 차이를 알기 어렵다고 강조한다 [03:13]
4. Apple 사례와 생성형 UI 컴포넌트의 역할
- Steelman 에이전트는 Apple이 AI distribution winner라는 주장에 대해 약세 논리를 구성하는 제품 에이전트 사례로 등장한다 [04:17]
- 이 에이전트는 executive summary와 생성형 UI 컴포넌트를 함께 구성해, 단순 텍스트 답변을 넘어 제품 화면에 들어갈 수 있는 결과물을 만든다 [04:32]
- 엔지니어링 에이전트들은 quote, catalyst timeline, valuation gauge 같은 세 가지 생성형 AI 컴포넌트를 추가한다 [04:47]
- 이 컴포넌트들은 제품 에이전트가 임의의 리서치 결과나 분석 내용을 UI 형태로 채워 넣을 수 있게 하는 기반으로 드러난다 [05:02]
5. 모델 선택을 위한 실행 로그·비용·속도 분석
- Steelman 제품 에이전트의 실행 내역에서는 swim lane과 single view를 통해 연구 단계, 시작과 종료, 생성된 artifact를 확인할 수 있다 [06:11]
- 도구 호출의 인자와 결과까지 볼 수 있기 때문에, 최종 답변뿐 아니라 에이전트가 어떤 과정을 거쳐 결과를 만들었는지 추적할 수 있다 [06:26]
- Gemini 3.5 Flash는 tokens per second, 비용, 컨텍스트 측면에서 제품용 에이전트 후보로 나온다 [06:41]
- 모델 선택은 단순한 품질 비교가 아니라 성능, 속도, 비용의 균형을 기준으로 판단해야 한다는 관점이 드러난다 [06:56]
6. 운영 규모에서 필요한 관찰 UI와 시스템 프롬프트 검증
- 제품 에이전트가 하루나 일주일 단위로 수천 번, 수만 번, 수십만 번 실행될 수 있다면, 모델 비용과 실행 속도는 핵심 운영 문제가 된다 [08:24]
- 발표자는 Deepseek V4 Pro나 Gemini 3.5 Flash 같은 더 저렴한 모델이 충분한 결과와 정확한 도구 호출을 낼 수 있는지 확인해야 한다고 보여준다 [08:39]
- 관찰 시스템은 이벤트를 서버로 스트리밍하고 DB에 저장해, 새로고침 후에도 실행 기록을 복원할 수 있는 구조로 드러난다 [09:00]
- 같은 실행 데이터는 function mode, form mode, single lane, race mode 등 여러 방식으로 볼 수 있으며, 이는 에이전트 행동을 비교하고 디버깅하는 데 쓰인다 [09:15]
7. Apple 매출 분석 예시와 반대 관점 에이전트의 가치
- Apple 구매 판단을 위해 Mac Mini 매출과 다른 제품군 매출을 시각적으로 비교하려는 질문이 들어간다 [12:05]
- 이 질문은 Apple에 대한 베어 thesis를 뒷받침할 수 있는 정량 근거가 필요한 상황으로 드러난다 [12:20]
- 에이전트는 제품 내부 도구를 호출하고 토큰을 사용해 리서치를 수행한다 [12:23]
- 이후 Apple 제품군별 매출을 파이 차트 형태의 artifact로 만들어, 분석 결과를 시각적으로 제시한다 [12:38]
8. 관측성 지표와 HTML·이미지 스펙 실험의 출발점
- Pi coding agent observability는 에이전트 실행 중 tokens per second를 추적하는 지표를 보여준다 [13:29]
- Gemini Flash는 빠른 처리 속도를 보이는 사례로 언급되지만, 현재 계산식은 일부 추론에 의존한다고 드러난다 [13:44]
- GPT Image 2.0과 HTML 스펙 활용이 추가 도구로 등장하며, 스펙을 더 시각적으로 만들 수 있는 가능성이 드러난다 [13:50]
- 핵심 전제는 에이전트에게 더 많은 “유용한 토큰”을 제공하면 작업 성능이 좋아질 수 있다는 것이다 [14:05]
9. HTML 스펙의 시각적 표현력과 토큰 사용 비교
- HTML 버전은 과도한 태그 사용 없이도 UI를 더 풍부하게 보여주는 형식으로 묶인다 [14:53]
- quote component, timeline component, valuation gauge 같은 구성요소가 마크다운보다 더 시각적으로 드러난다는 점이 중요하다 [15:08]
- HTML 스펙은 같은 마크다운 내용을 기반으로 하면서도 정보를 더 정확하게 전달할 수 있는 형식으로 드러난다 [15:33]
- 다만 HTML은 구조와 표현을 더 많이 담는 만큼 토큰 비용이 늘어날 수 있으며, 이 비용이 실제 성능 향상으로 이어지는지는 작업별로 확인해야 한다 [15:48]
10. 이미지가 포함된 VSpec과 멀티모달 계획 방식
- HTML VSpec에는 이미지가 임베드되어 있고, GPT Image 2를 통해 계획 문서 안에 시각 자료를 넣는 방식이 묶인다 [16:41]
- 이런 이미지는 에이전트뿐 아니라 사람도 계획을 더 쉽게 이해하게 만드는 보조 정보로 드러난다 [16:56]
- build prompt는 plan 안의 이미지를 반드시 읽도록 바뀌며, 텍스트뿐 아니라 이미지 정보를 작업 지시의 일부로 사용하게 된다 [16:58]
- 이미지 토큰은 Gemini 3.5 Flash 같은 강력한 멀티모달 모델에서 특히 유용할 수 있다고 설명되지만, 실제 효과는 작업별 검증이 필요하다 [17:13]
11. HTML 프로토타입과 계획·검토·비용 트레이드오프
- HTML 스펙은 free-form breakdown과 함께 quote, timeline, valuation marker 같은 컴포넌트의 모습을 더 구체적으로 만든다 [18:24]
- 일부 동적 동작까지 확인할 수 있기 때문에, 단순 요구사항 문서보다 프로토타입에 가까운 계획 문서 역할을 할 수 있다 [18:39]
- 발표자는 HTML 스펙이 프론트엔드 작업에서 특히 강하다고 보여준다 [18:44]
- 동시에 백엔드, DevOps, 제품 작업에서도 특정 작업의 데모 proof of concept를 계획 안에 렌더링할 수 있다는 장점이 나온다 [18:59]
12. Pi observability extension과 토큰 경제학의 가치사슬
- Pi observability extension 하나와 단일 UI를 통해 실행되는 모든 에이전트의 이벤트를 캡처할 수 있다고 드러난다 [20:32]
- Pi coding agent의 확장 가능한 구조는 custom agent harness를 가능하게 하는 기반으로 드러난다 [20:47]
- tokconomics의 첫 단계는 더 많은 토큰을 쓰는 것이며, 이는 모델과 에이전트가 더 많은 정보를 처리하게 만드는 단계로 드러난다 [21:06]
- 다음 단계는 생성된 토큰에서 실제 가치를 만들고, 마지막 단계는 그 가치에서 수익을 회수하는 것이라고 압축된다 [21:21]
13. 멀티모달 스펙과 모델별 전문화
- 발표자는 스펙이 텍스트 중심 계획을 넘어 이미지, 오디오, 비디오까지 포함하는 멀티모달 형태로 확장될수록 에이전트 작업에서 더 큰 가치가 생길 수 있다고 본다 [24:03]
- 이는 에이전트가 단순 문장뿐 아니라 시각적 맥락과 다른 미디어 정보를 함께 활용하는 방향으로 발전할 수 있다는 주장이다 [24:18]
- Gemini 모델은 YouTube 같은 대규모 멀티모달 학습 기반을 가진 덕분에 멀티모달 영역에서 강점을 유지할 가능성이 있다고 발표자는 보여준다 [24:33]
- 다만 이 부분은 모델별 실제 성능 비교와 적용 환경에 따라 달라질 수 있으므로, 일반화하려면 별도 검증이 필요하다 [24:48]
14. 에이전트 제품화를 위한 측정과 비용 효율
- 모델과 에이전트 아이디어는 개인, 팀, 회사, 고객의 실제 업무 안에 녹아들 때 의미가 있다고 압축된다 [24:55]
- 단순한 기술 실험이나 데모만으로는 충분하지 않으며, 실제 업무 흐름에서 반복적으로 쓰일 수 있어야 한다는 관점이 드러난다 [25:10]
- 에이전트를 제품에 넣고 경쟁력을 만들려면 성능, 속도, 비용의 균형을 측정해야 한다 [25:25]
- 발표자는 이 세 요소가 제품화의 핵심 제약으로 작동하며, 관찰 가능성은 그 균형을 판단하기 위한 필수 기반이라고 마무리한다 [25:40]
🧾 결론
- 이 영상은 “더 많은 토큰”보다 “더 쓸모 있는 토큰”이 중요하다는 관점에서, 스펙 형식과 모델 선택을 관찰 데이터로 비교하려는 시도에 가깝다.
- HTML 스펙은 텍스트 스펙보다 시각적 맥락을 더 잘 전달할 수 있지만, 토큰 비용 증가와 실제 품질 개선 사이의 균형은 반복 실행과 평균 성능 측정으로 확인해야 한다.
- GPT Image 2를 활용한 VSpec은 사람과 에이전트가 같은 시각적 목표를 공유하게 만드는 장점이 있지만, 이미지 생성 비용이 observability 계산에 완전히 반영되지 않았다는 한계가 언급된다.
- Gemini 3.5 Flash는 영상에서 빠른 처리 속도와 제품용 에이전트 후보로 다뤄지지만, 최종 판단은 cost per token이 아니라 cost per intelligence 관점에서 봐야 한다.
- 검증이 필요한 부분은 각 스펙 형식의 실제 우열, Gemini 3.5 Flash의 장기적 비용 효율, 이미지 스펙이 품질을 얼마나 안정적으로 개선하는지이며, 영상 자체도 반복 eval의 필요성을 강조한다.
📈 투자·시사 포인트
- 에이전트가 실제 제품에 들어가려면 모델 성능만이 아니라 실행 비용, 속도, 도구 호출 정확도, 관찰 가능한 로그 체계가 함께 경쟁력이 된다.
- Steelman 예시처럼 투자 thesis의 반대 논리를 생성하는 에이전트는 사용자의 확증편향이나 sycophancy 리스크를 줄이는 도구로 활용될 수 있다.
- Apple 사례에서는 Mac Mini와 로컬 AI 수요가 긍정적 내러티브를 만들 수 있지만, 영상은 전체 매출 기여도가 제한적일 수 있다는 반대 관점 검토의 필요성을 보여준다.
- 생성형 UI 컴포넌트, 리서치 artifact, reference 기반 분석은 단순 챗봇형 답변보다 투자 판단을 구조화하는 데 더 유용한 제품 형태로 발전할 가능성이 있다.
- 투자 관점에서 주목할 점은 특정 모델명이 아니라, 기업이나 팀이 에이전트의 성능·속도·비용을 측정하고 개선하는 운영 루프를 갖추고 있는지다.
- 검증 필요: 영상에 언급된 Apple 매출 비중, 모델 가격, tokens per second 계산식, 이미지 생성 비용 추정치는 별도 원자료와 실제 실행 데이터로 확인해야 한다.
⚠️ 불확실하거나 확인이 필요한 부분
- 마크다운 스펙, HTML 스펙, 이미지 포함 VSpec 사이의 토큰·턴·이벤트 차이는 단일 실행 결과만으로 일반화하기 어렵다. 영상에서도 모델 변동성, 스펙 작성 방식, 계획 집중도 차이 등이 원인일 수 있다고 언급되므로 반복 eval이 필요하다.
- HTML 스펙이 더 “유용한 토큰”을 제공해 성능을 높인다는 가설은 설득력 있지만, 작업 유형별 평균 품질·속도·비용 데이터를 통해 별도로 검증해야 한다.
- Gemini 3.5 Flash의 tokens per second 지표는 일부 추론에 의존한다고 언급되므로, 실제 측정식과 로그 수집 방식의 정확성을 확인해야 한다.
- 자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
- 영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
- 검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.
✅ 액션 아이템
- 동일한 기능 구현 과제를 마크다운 스펙, HTML 스펙, 이미지 포함 VSpec으로 여러 번 반복 실행해 평균 토큰 사용량, 턴 수, 이벤트 수, 실행 시간, 결과 품질을 비교한다.
- Pi observability 또는 유사 관찰 시스템에서 에이전트 이벤트, 도구 호출, artifact 생성, 시스템 프롬프트, 로드된 skill 목록을 실행 단위로 저장·조회할 수 있게 구성한다.
- 제품형 에이전트 평가 기준을 단순 품질이 아니라 성능, 속도, 비용, 도구 호출 정확도, 재현성 중심으로 정리한다.
- HTML 스펙과 VSpec을 사용할 때 이미지 생성 비용, 이미지 토큰 비용, 프롬프트 확장 비용을 별도 항목으로 추적한다.
❓ 열린 질문
- 어떤 작업 유형에서는 마크다운 스펙이 더 효율적이고, 어떤 작업 유형에서는 HTML 스펙이나 이미지 포함 VSpec이 더 나은가?
- HTML 스펙이 이벤트 수와 턴 수를 줄인 것이 실제 품질 개선 때문인지, 단일 실행의 분산 때문인지 어떻게 구분할 수 있는가?
- 이미지 포함 VSpec의 추가 비용은 어느 수준의 품질 향상이나 리뷰 시간 단축이 있을 때 정당화되는가?