🖼️ 인포그래픽

Standard Intelligence: Training General Intelligence in Pixel Space 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

📰 Standard Intelligence: Training General Intelligence in Pixel Space

💡 한 줄 요약

Standard Intelligence는 텍스트 중심의 에이전트 개발 대신 컴퓨터 사용 영상을 대규모로 사전학습해 일반 컴퓨터 에이전트를 만들겠다는 비디오 우선 접근을 제시한다.

📌 핵심 요약

현재 언어모델과 코딩 에이전트 경쟁은 매우 치열하지만, Standard Intelligence는 일반 컴퓨터 에이전트의 유망한 경로가 텍스트·스크린샷·도구 호출이 아니라 원시 비디오 확장에 있다고 본다.
이 회사의 핵심 가설은 컴퓨터 사용 전체를 영상으로 사전학습해야 행동 데이터를 진정으로 확장할 수 있으며, 모델이 화면 픽셀을 보고 다음 마우스 이동, 클릭, 키 입력을 예측하도록 학습해야 한다는 것이다.
이 접근은 수작업 워크플로 설계나 언어모델 래핑보다 원시 컴퓨터 사용 스트림을 대규모로 투입해 일반성이 데이터에서 emergent하게 나오도록 하는, Tesla FSD식이자 ‘bitter lesson’에 가까운 베팅으로 묘사된다.
비디오는 계산·비용·기술 측면에서 다루기 어렵지만, Standard Intelligence는 1,100만 시간 규모의 컴퓨터 행동 데이터셋, 높은 토큰 효율의 비디오 인코더, 저비용 대규모 스토리지 클러스터 등으로 문제를 정면 돌파하고 있다.
첫 모델 FDM-1은 Blender에서 CAD 기어를 만들고, 짧은 파인튜닝 뒤 자동차를 주행시키며, 소프트웨어 상태 공간을 탐색해 버그를 찾는 등 비디오 기반 컴퓨터 사용 모델의 가능성을 보여주는 초기 사례로 제시된다.

🧩 주요 포인트

현재 언어모델과 코딩 에이전트 경쟁은 매우 치열하지만, Standard Intelligence는 일반 컴퓨터 에이전트의 유망한 경로가 텍스트·스크린샷·도구 호출이 아니라 원시 비디오 확장에 있다고 본다.
이 회사의 핵심 가설은 컴퓨터 사용 전체를 영상으로 사전학습해야 행동 데이터를 진정으로 확장할 수 있으며, 모델이 화면 픽셀을 보고 다음 마우스 이동, 클릭, 키 입력을 예측하도록 학습해야 한다는 것이다.
이 접근은 수작업 워크플로 설계나 언어모델 래핑보다 원시 컴퓨터 사용 스트림을 대규모로 투입해 일반성이 데이터에서 emergent하게 나오도록 하는, Tesla FSD식이자 ‘bitter lesson’에 가까운 베팅으로 묘사된다.
비디오는 계산·비용·기술 측면에서 다루기 어렵지만, Standard Intelligence는 1,100만 시간 규모의 컴퓨터 행동 데이터셋, 높은 토큰 효율의 비디오 인코더, 저비용 대규모 스토리지 클러스터 등으로 문제를 정면 돌파하고 있다.
첫 모델 FDM-1은 Blender에서 CAD 기어를 만들고, 짧은 파인튜닝 뒤 자동차를 주행시키며, 소프트웨어 상태 공간을 탐색해 버그를 찾는 등 비디오 기반 컴퓨터 사용 모델의 가능성을 보여주는 초기 사례로 제시된다.

🧠 상세 정리

1. 텍스트 중심 에이전트 경쟁에 대한 다른 베팅

원문은 유용한 에이전트의 미래가 텍스트가 아니라 픽셀에서 시작될 수 있다는 문제 제기로 출발한다. 현재 언어모델 확장 경쟁과 그 주변의 에이전트 생태계는 매우 뜨겁고, 코딩 에이전트는 문제를 추론하고 코드를 작성하는 방식으로 이미 큰 진전을 만들었다. 그러나 Standard Intelligence는 일반 컴퓨터 에이전트를 만드는 가장 유망한 길이 언어, 스크린샷, 도구 호출을 조합하는 방식이 아닐 수 있다고 본다. 이 팀은 원시 비디오를 대규모로 확장하는 것이 더 근본적인 경로일 수 있다는 반대 방향의 가설을 세운다.

2. 컴퓨터 사용 영상을 통한 행동 데이터 확장

Standard Intelligence의 핵심 논지는 컴퓨터 사용 전체를 비디오로 사전학습하는 것이 일반 에이전트를 만드는 최선의 방법이라는 것이다. 이유는 이 방식만이 행동 데이터를 진정으로 확장할 수 있다고 보기 때문이다. 모델은 텍스트 토큰을 예측하는 대신, 눈앞의 화면 픽셀을 바탕으로 다음 마우스 이동, 클릭, 키 입력을 예측하도록 학습한다. 원문은 이를 지식 노동이 이루어지는 컴퓨터 화면에 Tesla FSD식 접근을 적용한 것이라고 설명한다.

3. 수작업 설계 대신 원시 데이터 확장에 거는 승부

이 접근은 매우 반직관적이면서도 ‘bitter lesson’에 깊이 기대는 전략으로 제시된다. Standard Intelligence는 사람이 워크플로를 세밀하게 설계하거나 언어모델을 점점 더 복잡한 하네스로 감싸는 방향을 택하지 않는다. 대신 컴퓨터 사용의 원시 스트림을 모델에 투입하고, 이를 공격적으로 확장하며, 데이터 규모에서 일반성이 나타나기를 기대한다. 원문은 이 점을 새로운 사전학습 패러다임으로 강조하며, 기존 에이전트 구축 방식과의 차이를 분명히 한다.

4. 비디오 확장의 난점과 팀의 실행력

원문은 비디오가 다루기 어려운 매체라는 점도 분명히 짚는다. 비디오는 계산적으로 비싸고, 경제적으로도 부담이 크며, 기술적으로도 관용적이지 않다. 과거에도 비디오를 AGI 방향으로 확장하려는 시도들이 있었지만 많은 경우 성과를 내지 못했다. Standard Intelligence 팀은 스스로를 오랜 비디오 전문가가 아니라고 말하지만, 오히려 기존 가정에 묶이지 않고 각 문제를 원점에서 다시 생각해 왔다. 원문은 이들이 낙관성, 창의성, 끈질긴 실행력으로 난제를 풀어가고 있다고 평가한다.

🧾 핵심 주장 / 시사점

이 글의 핵심은 ‘더 정교한 에이전트 래퍼’가 아니라 ‘더 원초적인 행동 데이터의 대규모 학습’이 일반 컴퓨터 에이전트의 병목을 풀 수 있다는 관점이다.
Standard Intelligence의 차별점은 비디오라는 어려운 매체 자체보다, 행동 데이터를 픽셀 수준에서 대규모로 축적·압축·저장·학습 가능하게 만드는 인프라적 실행력에 있다.
FDM-1 사례들은 아직 최종 결론이라기보다 패러다임의 가능성을 보여주는 초기 신호로 읽어야 하며, 원문은 투자 발표 성격을 띠면서도 비디오 우선 사전학습이 지식 작업 에이전트의 중요한 대안이 될 수 있다고 주장한다.

✅ 액션 아이템

원문에서 강조한 핵심 변화와 이해관계자를 기준으로 Standard Intelligence: Training General Intelligence in Pixel Space의 영향을 정리한다.
다음 의사결정이나 제품/정책 판단에 연결될 수 있는 근거를 원문 문장과 함께 기록한다.
기사에서 제시한 수치·사례·제약 조건을 분리해 과장 없이 검토한다.
후속 모니터링이 필요한 발표·제품·정책 변화가 있는지 출처 링크를 기준으로 추적한다.

❓ 열린 질문

Jensen Huang says he pays Nvidia staff 'as much as possible' in bid to share the wealth from AI boom Fortune]]" "246. 이 변화가 실제 사용자나 조직의 선택 기준을 어떻게 바꿀까?
The latest AI news we announced in May 2026" "114. 이 근거가 다른 산업이나 지역에서도 동일하게 적용될 수 있을까?
Claude Code vs Codex Which AI Coding Agent Should You Use in 2026" "235. 기사에서 아직 검증되지 않은 전제나 리스크는 무엇일까?
LeRobot Humanoid An Open, Low Cost, 3D Printed Humanoid for Robot Learning" "[[231. 후속 발표나 데이터가 나오면 어떤 지표를 먼저 비교해야 할까?