Pi Coding Agent Observability: HTML Specs with Gemini 3.5 Flash and GPT Image 2

🖼️ 인포그래픽

Pi Coding Agent Observability: HTML Specs with Gemini 3.5 Flash and GPT Image 2 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 결론

Pi Coding Agent Observability는 HTML Specs와 GPT Image 2 기반 시각 스펙이 에이전트 작업을 더 잘 돕는지, Gemini 3.5 Flash의 실행 로그로 성능·속도·비용을 함께 검증하려는 실험이다.

📌 핵심 요점

영상의 중심 질문은 마크다운 스펙, HTML 스펙, 이미지가 포함된 VSpec 중 어떤 형식이 코딩 에이전트에게 더 “유용한 토큰”을 제공하느냐이다.
관찰 가능성은 에이전트의 이벤트, 턴, 도구 호출, 토큰 사용량, 비용, 산출물을 기록해 작업 결과뿐 아니라 결과에 도달한 과정을 비교하게 만든다.
실험에서는 마크다운, HTML, 강화 HTML/VSpec 계열의 차이가 토큰 사용량·턴 수·이벤트 수로 나타났지만, 단일 실행만으로 우열을 단정하기는 어렵고 반복 eval이 필요하다고 설명한다.
HTML 스펙과 visual spec은 UI 컴포넌트, 레이아웃, 인터랙션 의도를 더 구체적으로 보여줄 수 있어 planning과 reviewing 병목을 줄일 가능성이 있다.
제품형 에이전트에서는 좋은 결과를 내는지만큼이나 얼마나 빠르고 저렴하게, 그리고 도구 호출을 얼마나 정확하게 수행하는지가 중요하며, observability가 그 판단의 기반이 된다.

🧩 배경과 문제 정의

영상의 핵심 문제는 새 기능을 만들 때 에이전트에게 어떤 형태의 스펙을 주는 것이 더 효과적인지 비교하는 것이다. 마크다운 스펙, HTML 스펙, 이미지가 포함된 시각적 스펙은 각각 에이전트의 이해도, 작업 속도, 비용에 다른 영향을 줄 수 있다.
발표자는 단순히 더 많은 토큰을 넣는 것보다 “유용한 토큰”을 제공하는 것이 중요하다고 본다. 따라서 스펙 형식은 에이전트 성능뿐 아니라 실행 속도와 비용까지 함께 판단해야 하는 운영 변수로 다뤄진다.
에이전트가 엔지니어링 작업과 제품 내부 기능으로 확대될수록, 최종 결과만 보는 방식으로는 개선이 어렵다. 각 턴, 도구 호출, 토큰 사용량, 비용, 생성된 artifact를 관찰해야 프롬프트와 모델 선택을 개선할 수 있다.
제품용 에이전트는 대규모 반복 실행을 전제로 하기 때문에, 고성능 모델만이 아니라 저렴하고 빠른 모델이 충분한 품질과 정확한 도구 호출을 제공하는지도 검증해야 한다.
검증이 필요한 부분은 모델별 우위와 비용 효율에 대한 일반화다. 영상에서는 Gemini 3.5 Flash, Deepseek V4 Pro, GPT Image 2 등을 사례로 언급하지만, 실제 제품 적용 여부는 각 작업의 품질 기준, 도구 호출 정확도, 비용 구조를 별도로 측정해야 한다.

🕒 시간순 섹션별 상세정리

1. 스펙 형식 선택과 실험 기준

새 기능을 만들 때 첫 판단 지점은 어떤 스펙을 에이전트에게 줄 것인지이며, 영상은 마크다운 스펙, HTML 스펙, 기타 시각적 형식이 실제 작업 품질에 어떤 차이를 만드는지 비교하려 한다 [00:26]
발표자는 토큰을 많이 쓰는 것 자체가 목표가 아니라, 에이전트가 실제로 작업에 활용할 수 있는 “유용한 토큰”을 제공하는 것이 중요하다고 보여준다 [00:41]
에이전트 솔루션은 결과 품질만으로 평가하기 어렵고, 성능, 속도, 비용 사이의 trade-off를 함께 봐야 한다는 기준이 드러난다 [00:56]

2. 관찰 가능성이 만드는 개선 루프

모든 이벤트, 턴, 도구 호출이 에이전트별로 수집되면, 개발자는 에이전트가 실제로 무엇을 했는지 과정을 볼 수 있다 [01:13]
측정 가능한 실행 흐름은 개선 가능한 흐름이 되며, 이는 프롬프트, 모델, 도구 사용 방식을 조정하는 근거가 된다 [01:28]
에이전트 관찰 가능성은 중앙 서버로 이벤트를 스트리밍하고, UI가 이를 읽어 실행 내역을 보여주는 구조로 드러난다 [01:46]
발표자는 이런 관찰 데이터를 기반으로 폐쇄형 개선 루프를 만들 수 있다고 본다 [02:01]

3. 스펙별 토큰·턴 차이와 Steelman 제품 에이전트

마크다운 에이전트는 HTML 에이전트보다 더 많은 토큰을 사용한 것으로 나타났고, HTML 에이전트는 더 많은 컨텍스트를 사용한 사례로 드러난다 [02:25]
다만 이 차이는 모델의 변동성, 스펙 작성 방식, 실행 조건의 차이에서 비롯될 수 있으므로 단순히 한 형식이 항상 우월하다고 단정하기는 어렵다 [02:40]
턴 수는 HTML 계획 에이전트 17턴, 다른 HTML 계열 에이전트 25턴, 마크다운 에이전트 29턴으로 갈렸다고 드러난다 [02:58]
발표자는 실제 작업 과정을 관찰하지 않으면 프롬프트별 차이나 에이전트별 행동 차이를 알기 어렵다고 강조한다 [03:13]

4. Apple 사례와 생성형 UI 컴포넌트의 역할

Steelman 에이전트는 Apple이 AI distribution winner라는 주장에 대해 약세 논리를 구성하는 제품 에이전트 사례로 등장한다 [04:17]
이 에이전트는 executive summary와 생성형 UI 컴포넌트를 함께 구성해, 단순 텍스트 답변을 넘어 제품 화면에 들어갈 수 있는 결과물을 만든다 [04:32]
엔지니어링 에이전트들은 quote, catalyst timeline, valuation gauge 같은 세 가지 생성형 AI 컴포넌트를 추가한다 [04:47]
이 컴포넌트들은 제품 에이전트가 임의의 리서치 결과나 분석 내용을 UI 형태로 채워 넣을 수 있게 하는 기반으로 드러난다 [05:02]

5. 모델 선택을 위한 실행 로그·비용·속도 분석

Steelman 제품 에이전트의 실행 내역에서는 swim lane과 single view를 통해 연구 단계, 시작과 종료, 생성된 artifact를 확인할 수 있다 [06:11]
도구 호출의 인자와 결과까지 볼 수 있기 때문에, 최종 답변뿐 아니라 에이전트가 어떤 과정을 거쳐 결과를 만들었는지 추적할 수 있다 [06:26]
Gemini 3.5 Flash는 tokens per second, 비용, 컨텍스트 측면에서 제품용 에이전트 후보로 나온다 [06:41]
모델 선택은 단순한 품질 비교가 아니라 성능, 속도, 비용의 균형을 기준으로 판단해야 한다는 관점이 드러난다 [06:56]

6. 운영 규모에서 필요한 관찰 UI와 시스템 프롬프트 검증

제품 에이전트가 하루나 일주일 단위로 수천 번, 수만 번, 수십만 번 실행될 수 있다면, 모델 비용과 실행 속도는 핵심 운영 문제가 된다 [08:24]
발표자는 Deepseek V4 Pro나 Gemini 3.5 Flash 같은 더 저렴한 모델이 충분한 결과와 정확한 도구 호출을 낼 수 있는지 확인해야 한다고 보여준다 [08:39]
관찰 시스템은 이벤트를 서버로 스트리밍하고 DB에 저장해, 새로고침 후에도 실행 기록을 복원할 수 있는 구조로 드러난다 [09:00]
같은 실행 데이터는 function mode, form mode, single lane, race mode 등 여러 방식으로 볼 수 있으며, 이는 에이전트 행동을 비교하고 디버깅하는 데 쓰인다 [09:15]

7. Apple 매출 분석 예시와 반대 관점 에이전트의 가치

Apple 구매 판단을 위해 Mac Mini 매출과 다른 제품군 매출을 시각적으로 비교하려는 질문이 들어간다 [12:05]
이 질문은 Apple에 대한 베어 thesis를 뒷받침할 수 있는 정량 근거가 필요한 상황으로 드러난다 [12:20]
에이전트는 제품 내부 도구를 호출하고 토큰을 사용해 리서치를 수행한다 [12:23]
이후 Apple 제품군별 매출을 파이 차트 형태의 artifact로 만들어, 분석 결과를 시각적으로 제시한다 [12:38]

8. 관측성 지표와 HTML·이미지 스펙 실험의 출발점

Pi coding agent observability는 에이전트 실행 중 tokens per second를 추적하는 지표를 보여준다 [13:29]
Gemini Flash는 빠른 처리 속도를 보이는 사례로 언급되지만, 현재 계산식은 일부 추론에 의존한다고 드러난다 [13:44]
GPT Image 2.0과 HTML 스펙 활용이 추가 도구로 등장하며, 스펙을 더 시각적으로 만들 수 있는 가능성이 드러난다 [13:50]
핵심 전제는 에이전트에게 더 많은 “유용한 토큰”을 제공하면 작업 성능이 좋아질 수 있다는 것이다 [14:05]

9. HTML 스펙의 시각적 표현력과 토큰 사용 비교

HTML 버전은 과도한 태그 사용 없이도 UI를 더 풍부하게 보여주는 형식으로 묶인다 [14:53]
quote component, timeline component, valuation gauge 같은 구성요소가 마크다운보다 더 시각적으로 드러난다는 점이 중요하다 [15:08]
HTML 스펙은 같은 마크다운 내용을 기반으로 하면서도 정보를 더 정확하게 전달할 수 있는 형식으로 드러난다 [15:33]
다만 HTML은 구조와 표현을 더 많이 담는 만큼 토큰 비용이 늘어날 수 있으며, 이 비용이 실제 성능 향상으로 이어지는지는 작업별로 확인해야 한다 [15:48]

10. 이미지가 포함된 VSpec과 멀티모달 계획 방식

HTML VSpec에는 이미지가 임베드되어 있고, GPT Image 2를 통해 계획 문서 안에 시각 자료를 넣는 방식이 묶인다 [16:41]
이런 이미지는 에이전트뿐 아니라 사람도 계획을 더 쉽게 이해하게 만드는 보조 정보로 드러난다 [16:56]
build prompt는 plan 안의 이미지를 반드시 읽도록 바뀌며, 텍스트뿐 아니라 이미지 정보를 작업 지시의 일부로 사용하게 된다 [16:58]
이미지 토큰은 Gemini 3.5 Flash 같은 강력한 멀티모달 모델에서 특히 유용할 수 있다고 설명되지만, 실제 효과는 작업별 검증이 필요하다 [17:13]

11. HTML 프로토타입과 계획·검토·비용 트레이드오프

HTML 스펙은 free-form breakdown과 함께 quote, timeline, valuation marker 같은 컴포넌트의 모습을 더 구체적으로 만든다 [18:24]
일부 동적 동작까지 확인할 수 있기 때문에, 단순 요구사항 문서보다 프로토타입에 가까운 계획 문서 역할을 할 수 있다 [18:39]
발표자는 HTML 스펙이 프론트엔드 작업에서 특히 강하다고 보여준다 [18:44]
동시에 백엔드, DevOps, 제품 작업에서도 특정 작업의 데모 proof of concept를 계획 안에 렌더링할 수 있다는 장점이 나온다 [18:59]

12. Pi observability extension과 토큰 경제학의 가치사슬

Pi observability extension 하나와 단일 UI를 통해 실행되는 모든 에이전트의 이벤트를 캡처할 수 있다고 드러난다 [20:32]
Pi coding agent의 확장 가능한 구조는 custom agent harness를 가능하게 하는 기반으로 드러난다 [20:47]
tokconomics의 첫 단계는 더 많은 토큰을 쓰는 것이며, 이는 모델과 에이전트가 더 많은 정보를 처리하게 만드는 단계로 드러난다 [21:06]
다음 단계는 생성된 토큰에서 실제 가치를 만들고, 마지막 단계는 그 가치에서 수익을 회수하는 것이라고 압축된다 [21:21]

13. 멀티모달 스펙과 모델별 전문화

발표자는 스펙이 텍스트 중심 계획을 넘어 이미지, 오디오, 비디오까지 포함하는 멀티모달 형태로 확장될수록 에이전트 작업에서 더 큰 가치가 생길 수 있다고 본다 [24:03]
이는 에이전트가 단순 문장뿐 아니라 시각적 맥락과 다른 미디어 정보를 함께 활용하는 방향으로 발전할 수 있다는 주장이다 [24:18]
Gemini 모델은 YouTube 같은 대규모 멀티모달 학습 기반을 가진 덕분에 멀티모달 영역에서 강점을 유지할 가능성이 있다고 발표자는 보여준다 [24:33]
다만 이 부분은 모델별 실제 성능 비교와 적용 환경에 따라 달라질 수 있으므로, 일반화하려면 별도 검증이 필요하다 [24:48]

14. 에이전트 제품화를 위한 측정과 비용 효율

모델과 에이전트 아이디어는 개인, 팀, 회사, 고객의 실제 업무 안에 녹아들 때 의미가 있다고 압축된다 [24:55]
단순한 기술 실험이나 데모만으로는 충분하지 않으며, 실제 업무 흐름에서 반복적으로 쓰일 수 있어야 한다는 관점이 드러난다 [25:10]
에이전트를 제품에 넣고 경쟁력을 만들려면 성능, 속도, 비용의 균형을 측정해야 한다 [25:25]
발표자는 이 세 요소가 제품화의 핵심 제약으로 작동하며, 관찰 가능성은 그 균형을 판단하기 위한 필수 기반이라고 마무리한다 [25:40]

🧾 결론

이 영상은 “더 많은 토큰”보다 “더 쓸모 있는 토큰”이 중요하다는 관점에서, 스펙 형식과 모델 선택을 관찰 데이터로 비교하려는 시도에 가깝다.
HTML 스펙은 텍스트 스펙보다 시각적 맥락을 더 잘 전달할 수 있지만, 토큰 비용 증가와 실제 품질 개선 사이의 균형은 반복 실행과 평균 성능 측정으로 확인해야 한다.
GPT Image 2를 활용한 VSpec은 사람과 에이전트가 같은 시각적 목표를 공유하게 만드는 장점이 있지만, 이미지 생성 비용이 observability 계산에 완전히 반영되지 않았다는 한계가 언급된다.
Gemini 3.5 Flash는 영상에서 빠른 처리 속도와 제품용 에이전트 후보로 다뤄지지만, 최종 판단은 cost per token이 아니라 cost per intelligence 관점에서 봐야 한다.
검증이 필요한 부분은 각 스펙 형식의 실제 우열, Gemini 3.5 Flash의 장기적 비용 효율, 이미지 스펙이 품질을 얼마나 안정적으로 개선하는지이며, 영상 자체도 반복 eval의 필요성을 강조한다.

📈 투자·시사 포인트

에이전트가 실제 제품에 들어가려면 모델 성능만이 아니라 실행 비용, 속도, 도구 호출 정확도, 관찰 가능한 로그 체계가 함께 경쟁력이 된다.
Steelman 예시처럼 투자 thesis의 반대 논리를 생성하는 에이전트는 사용자의 확증편향이나 sycophancy 리스크를 줄이는 도구로 활용될 수 있다.
Apple 사례에서는 Mac Mini와 로컬 AI 수요가 긍정적 내러티브를 만들 수 있지만, 영상은 전체 매출 기여도가 제한적일 수 있다는 반대 관점 검토의 필요성을 보여준다.
생성형 UI 컴포넌트, 리서치 artifact, reference 기반 분석은 단순 챗봇형 답변보다 투자 판단을 구조화하는 데 더 유용한 제품 형태로 발전할 가능성이 있다.
투자 관점에서 주목할 점은 특정 모델명이 아니라, 기업이나 팀이 에이전트의 성능·속도·비용을 측정하고 개선하는 운영 루프를 갖추고 있는지다.
검증 필요: 영상에 언급된 Apple 매출 비중, 모델 가격, tokens per second 계산식, 이미지 생성 비용 추정치는 별도 원자료와 실제 실행 데이터로 확인해야 한다.

⚠️ 불확실하거나 확인이 필요한 부분

마크다운 스펙, HTML 스펙, 이미지 포함 VSpec 사이의 토큰·턴·이벤트 차이는 단일 실행 결과만으로 일반화하기 어렵다. 영상에서도 모델 변동성, 스펙 작성 방식, 계획 집중도 차이 등이 원인일 수 있다고 언급되므로 반복 eval이 필요하다.
HTML 스펙이 더 “유용한 토큰”을 제공해 성능을 높인다는 가설은 설득력 있지만, 작업 유형별 평균 품질·속도·비용 데이터를 통해 별도로 검증해야 한다.
Gemini 3.5 Flash의 tokens per second 지표는 일부 추론에 의존한다고 언급되므로, 실제 측정식과 로그 수집 방식의 정확성을 확인해야 한다.
자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.

✅ 액션 아이템

동일한 기능 구현 과제를 마크다운 스펙, HTML 스펙, 이미지 포함 VSpec으로 여러 번 반복 실행해 평균 토큰 사용량, 턴 수, 이벤트 수, 실행 시간, 결과 품질을 비교한다.
Pi observability 또는 유사 관찰 시스템에서 에이전트 이벤트, 도구 호출, artifact 생성, 시스템 프롬프트, 로드된 skill 목록을 실행 단위로 저장·조회할 수 있게 구성한다.
제품형 에이전트 평가 기준을 단순 품질이 아니라 성능, 속도, 비용, 도구 호출 정확도, 재현성 중심으로 정리한다.
HTML 스펙과 VSpec을 사용할 때 이미지 생성 비용, 이미지 토큰 비용, 프롬프트 확장 비용을 별도 항목으로 추적한다.

❓ 열린 질문

어떤 작업 유형에서는 마크다운 스펙이 더 효율적이고, 어떤 작업 유형에서는 HTML 스펙이나 이미지 포함 VSpec이 더 나은가?
HTML 스펙이 이벤트 수와 턴 수를 줄인 것이 실제 품질 개선 때문인지, 단일 실행의 분산 때문인지 어떻게 구분할 수 있는가?
이미지 포함 VSpec의 추가 비용은 어느 수준의 품질 향상이나 리뷰 시간 단축이 있을 때 정당화되는가?

🖼️ 인포그래픽

🖼️ 4컷 인포그래픽

💡 한 줄 결론

📌 핵심 요점

🧩 배경과 문제 정의

🕒 시간순 섹션별 상세정리

1. 스펙 형식 선택과 실험 기준

2. 관찰 가능성이 만드는 개선 루프

3. 스펙별 토큰·턴 차이와 Steelman 제품 에이전트

4. Apple 사례와 생성형 UI 컴포넌트의 역할

5. 모델 선택을 위한 실행 로그·비용·속도 분석

6. 운영 규모에서 필요한 관찰 UI와 시스템 프롬프트 검증

7. Apple 매출 분석 예시와 반대 관점 에이전트의 가치

8. 관측성 지표와 HTML·이미지 스펙 실험의 출발점

9. HTML 스펙의 시각적 표현력과 토큰 사용 비교

10. 이미지가 포함된 VSpec과 멀티모달 계획 방식

11. HTML 프로토타입과 계획·검토·비용 트레이드오프

12. Pi observability extension과 토큰 경제학의 가치사슬

13. 멀티모달 스펙과 모델별 전문화

14. 에이전트 제품화를 위한 측정과 비용 효율

🧾 결론

📈 투자·시사 포인트

⚠️ 불확실하거나 확인이 필요한 부분

✅ 액션 아이템

❓ 열린 질문

공통 태그

함께 탐색할 태그

관련 문서

Lovable signs multiyear deal with Google Cloud to up usage 5x, source says

앤트로픽 클로드의 최상위 모델 Fable, 탈옥 논란으로 막히다

[예스24X골든래빗] 챗GPT + 덕테이프 + 코덱스 앱 입문 가이드

Google DeepMind is worried about what happens when millions of agents start to interact

30명 개발사 대표가 알려주는 Hermes 실전 운영법 (똑똑한개발자 서장원 대표님)

The hidden pattern behind successful products