AI 만드는 사람들조차 AGI 앞에서 갈리는 이유

🖼️ 인포그래픽

AI 만드는 사람들조차 AGI 앞에서 갈리는 이유 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 결론

AI 만드는 사람들조차 AGI 앞에서 갈리는 이유는, LLM 스케일링이 언어 지능에서는 강력하지만 세계 이해·기억·계획·물리 직관까지 충분히 설명하는지에 대한 합의가 없기 때문이다.

📌 핵심 요점

AGI 도래 시점은 1~5년 안팎으로 앞당겨졌지만, 현재 트랜스포머 기반 LLM을 더 키우면 AGI에 닿을 수 있는지에 대해서는 핵심 인물들 사이에서도 판단이 갈린다.
최신 LLM은 단순 챗봇을 넘어 목표 분해, 도구 사용, 코드 작성·수정, 장시간 자율 작업까지 수행하는 에이전트로 발전했고, 이 변화가 스케일링 낙관론을 강화했다.
샘 알트먼과 다리오 아모데이는 더 큰 모델, 더 많은 데이터, 에이전트 능력의 확장이 초지능 또는 노벨상급 강력한 AI로 이어질 수 있다고 보는 쪽에 가깝다.
데미스 하사비스와 얀 르쿤은 현재 LLM 경로에 계속 학습, 장기 기억, 계획, 창의성, 물리 세계 이해가 부족하다고 보고, 월드 모델이나 새로운 아키텍처가 필요하다고 본다.
LLM은 인간 언어 처리와 강하게 맞물리는 성과를 보이지만, 시각·공간·물리 이해에서는 모델을 키워도 인간 뇌처럼 보는 능력이 일정 수준에서 막히는 한계가 제기된다.

🧩 배경과 문제 정의

AGI가 언제 도달할지에 대한 전망은 몇 년 단위로 좁혀졌지만, 정작 AI를 직접 만드는 핵심 인물들 사이에서도 현재 LLM 기반 접근이 충분한지에 대한 판단은 크게 갈린다.
최신 LLM은 단순히 대화를 이어가는 챗봇을 넘어, 목표를 받으면 단계를 나누고 도구를 사용하며 코드를 작성·수정하는 장시간 자율 작업 에이전트로 발전했다.
핵심 쟁점은 트랜스포머 기반 LLM을 계속 스케일링하면 AGI에 도달할 수 있는지, 아니면 언어 모델만으로는 세계 이해·장기 기억·계획·창의성의 한계를 넘을 수 없는지에 있다.
영상은 알트먼·아모데이처럼 스케일링과 에이전트화의 연장선에서 AGI 또는 그 이후를 보는 입장과, 하사비스·르쿤처럼 현재 LLM 경로의 구조적 결핍을 더 크게 보는 입장을 대비한다.
특히 언어 지능에서는 LLM과 인간 뇌 반응의 정렬이 강하게 나타나지만, 시각·공간·물리 세계 이해에서는 모델을 키우는 것만으로 해결되지 않는 벽이 드러난다는 점이 문제의 중심으로 제시된다.

🕒 시간순 섹션별 상세정리

AGI 전망은 빨라졌지만 내부 진단은 갈라진다

AGI가 곧 온다는 전망은 2년, 5년, 빠르면 내년까지 좁혀졌고, 같은 기술을 두고도 “거의 도달했다”는 쪽과 “지금 방식으로는 불가능하다”는 쪽이 충돌한다 [00:41]
현재 논점은 지금 쓰는 트랜스포머 기반 LLM이 데이터를 더 먹고 규모를 키우면 인간 수준의 범용 지능으로 이어질 수 있는가에 놓여 있다 [00:56]

LLM은 챗봇에서 장시간 자율 작업 에이전트로 바뀌었다

최신 프론티어 모델은 목표를 받으면 단계를 쪼개고, 도구를 쓰고, 코드를 작성·수정하며, 결과까지 정리하는 방식으로 몇 시간짜리 작업을 이어간다 [01:14]
모델이 혼자 처리할 수 있는 작업 길이는 대략 반년마다 두 배씩 늘었고, 평가는 대화의 매끄러움보다 오래 안정적으로 일하는 능력으로 옮겨갔다 [01:31]

알트먼과 아모데이는 스케일링 이후의 초지능·강력한 AI를 앞당겨 본다

스케일링 관점에서는 트랜스포머 기반 LLM에 더 많은 데이터와 규모, 에이전트 능력을 더하면 인간 수준에 도달할 수 있다는 전제가 깔린다 [02:59]
샘 알트먼에게 AGI는 이미 지나간 단계에 가깝고, 세상을 예상보다 덜 바꿨을 뿐 다음 목표는 초지능으로 이동한다 [03:25]

하사비스와 르쿤은 현재 LLM 경로의 결핍을 더 크게 본다

데미스 하사비스는 구글 AI와 알파폴드 성과를 이끈 상업적 스케일 레이스의 핵심 인물이지만, 오늘의 모델과 접근만으로는 부족하고 큰 돌파가 한두 개 더 필요하다는 입장이다 [04:49]
현재 LLM에는 계속 학습하는 능력, 장기 기억을 유지하며 추론·계획하는 능력, 진짜 창의성이 빠져 있고, 1911년 지식만으로 일반상대성이론을 도출하는 아인슈타인 테스트를 통과하지 못한다 [05:21]

언어 지능에서는 LLM과 인간 뇌의 정렬이 강하게 나타난다

알트먼은 AGI 이후 초지능을, 아모데이는 노벨상급 강력한 AI를, 하사비스는 추가 돌파가 필요한 AGI를, 르쿤은 LLM 밖의 완전히 다른 경로를 본다 [07:23]
LLM은 기본적으로 다음 단어를 맞히는 기계이며, 방대한 텍스트에서 추측과 수정을 반복해 문맥상 올 가능성이 높은 단어를 예측한다 [08:04]

시각·공간·물리 이해는 스케일링만으로 좁혀지지 않는 벽을 드러낸다

인간 지능에는 언어뿐 아니라 보기, 공간 파악, 물체가 어떻게 떨어질지 아는 능력이 포함되며, 이 영역에서는 언어 모델식 성과와 다른 문제가 나타난다 [08:52]
2025년 ICML 연구에서는 600개가 넘는 모델을 영장류 시각 피질 데이터와 비교했고, 모델을 키우면 이미지 판별 성능은 좋아졌지만 인간 시각 피질 예측력은 일정 수준에서 멈췄다 [09:07]

멀티모달 스케일링과 그라운딩 낙관론

트랜스포머는 글·그림·영상처럼 서로 다른 데이터를 토큰이라는 숫자로 바꾸면 한 번에 학습할 수 있고, 제미나이·챗GPT·클로드 같은 현재 모델은 텍스트뿐 아니라 이미지·영상·소리까지 다루는 멀티모달 구조다 [12:06]
첫 번째 입장은 텍스트만으로 닿지 않는 한계를 이미지와 영상을 더 많이 먹이고 모델을 키우면 해결할 수 있다는 쪽이며, 최근 몇 년간 체감된 AI 성능 가속도 이 방식에서 나왔다 [12:32]

하사비스의 월드 모델: 다음 토큰이 아니라 다음 세계 상태 예측

하사비스는 LLM 아키텍처 자체를 버릴 필요는 없지만 학습 목표를 바꿔야 한다는 쪽이며, 영상을 많이 먹이는 것만으로는 실제 세계가 어떻게 작동하는지 이해하기 어렵다는 문제가 남는다 [13:23]
공이 굴러가는 영상은 그럴듯하게 만들 수 있어도 다음 순간 공이 어디로 갈지 물리적으로 예측하지 못하면, 생성 결과 안에 세계의 인과 구조가 없다는 한계가 드러난다 [13:46]

르쿤의 반박: 픽셀 생성이 아니라 추상적 세계 이해

르쿤의 반박은 다음 장면을 픽셀 단위로 맞추려는 발상 자체가 낭비라는 쪽이며, 인간은 컵이 떨어지는 장면에서 무늬·빛·배경을 모두 예측하지 않고 “깨질 것”이라는 핵심만 잡는다 [16:01]
이 관점에서는 AI도 화면 전체를 재현하는 데 계산을 쓰기보다 다음에 대략 어떤 일이 벌어질지 추상적인 알맹이를 예측해야 하며, 이는 기존 LLM 개선이 아니라 새 구조를 요구한다 [16:41]

세 갈래 처방과 AGI 질문의 이동

같은 결핍을 두고 아모데이는 더 많은 데이터와 스케일링, 하사비스는 LLM 위의 세계 상태 예측 층, 르쿤은 기존 생성식 접근을 버리는 새 방식으로 갈라지며, 뒤로 갈수록 현재의 LLM에서 더 멀어진다 [17:58]
하사비스와 르쿤은 둘 다 월드 모델의 필요성을 인정하지만, 하사비스에게는 영상을 생성하며 세계를 배우는 방식이고 르쿤에게는 바로 그 생성 방식이 버려야 할 함정이다 [18:22]

AGI 논쟁의 초점: 답보다 질문의 불일치

처음 질문인 “지금 쓰는 AI가 AGI가 될 수 있냐”로 돌아가 보면, 연구자들이 맞지 않는 지점은 답이 아니라 질문 자체에 가깝다 [18:48]
AGI와 지능이 무엇인지부터 갈리며, 누군가에게 AGI는 이미 지나간 과거이고 누군가에게는 아직 핵심이 빠진 미래다 [19:04]
빠진 것을 두고도 더 키우기, LLM 위에 층을 얹기, 아예 갈아엎기까지 처방이 스펙트럼처럼 흩어진다 [19:18]
더 깊이 들어가면 빠진 게 있긴 한지부터 맞지 않아, 결국 서로 다른 질문을 던지고 있었다는 결론에 이른다 [19:31]

LLM 이후 AI 내러티브의 균열과 마무리

이 어긋남은 LLM으로 구축한 AI 내러티브에 균열이 생기고 새로운 국면으로 들어서는 현실을 상징한다고 정리한다 [19:40]
질문은 “현재 AI가 AGI가 되냐”에서 “AGI와 지능이 무엇이고 그것을 어떻게 구현할 것인가”로 옮겨가고 있다 [19:49]
누가 맞는지에 베팅하기보다 우리가 무엇을 묻고 있는지가 어떻게 바뀌는지 따라가 보자고 제안한다 [19:57]
영상은 지능 개념이 다시 정의되는 흐름과 AI 프론티어 랩들의 방향을 다뤘다고 정리하며 댓글과 의견을 요청하고 마무리한다 [20:21]

🧾 결론

이 영상의 핵심은 “AGI가 언제 오느냐”보다 “무엇을 AGI로 볼 것인가”와 “어떤 방식으로 지능을 구현할 것인가”로 논점이 이동하고 있다는 점이다.
스케일링 낙관론은 이미 확인된 성능 증가와 에이전트화에 기대지만, 반대편은 언어 예측 능력만으로는 실제 세계의 인과 구조와 물리 직관을 충분히 얻기 어렵다고 본다.
하사비스의 월드 모델은 기존 LLM을 완전히 버리기보다 다음 토큰이 아닌 다음 세계 상태를 예측하도록 학습 목표를 바꾸는 방향에 가깝다.
르쿤의 접근은 픽셀을 그럴듯하게 생성하는 방식 자체를 문제로 보고, 인간처럼 핵심적인 추상 상태를 예측하는 새 구조가 필요하다는 주장으로 정리된다.
결국 AGI 논쟁은 단일한 기술 로드맵이 아니라 스케일링, 멀티모달 모델, 월드 모델, 비생성식 새 아키텍처가 경쟁하는 연구 방향의 분기점으로 해석할 수 있다.

📈 투자·시사 포인트

AI 투자 관점에서는 “모델을 더 크게 만들면 된다”는 단순한 스케일링 서사만으로는 부족하고, 멀티모달 데이터, 월드 모델, 추상적 세계 이해 같은 대안 경로까지 함께 봐야 한다.
프론티어 AI 기업들의 가치 평가는 단기 성능뿐 아니라 장시간 자율 작업 능력, 신뢰성, 실제 세계 이해, 계획 능력을 얼마나 빠르게 개선하는지에 따라 달라질 수 있다.
데이터센터와 대규모 모델 경쟁은 여전히 중요한 축이지만, 영상 속 논쟁을 기준으로 보면 하드웨어·데이터 확장만으로 AGI 문제가 완전히 해결된다고 단정하기는 어렵다.
검증 필요: 영상은 특정 상장사 실적, 매출 전망, 주가 방향을 직접 제시하지 않으므로 개별 기업 투자 판단에는 별도의 재무제표, 고객 수요, 규제, 경쟁 구도 확인이 필요하다.
중장기적으로는 “더 큰 LLM”을 만드는 기업뿐 아니라 물리 세계 시뮬레이션, 로봇 학습, 멀티모달 학습, 월드 모델 연구를 실제 제품·서비스로 연결하는 기업이 주목받을 가능성이 있다.

⚠️ 불확실하거나 확인이 필요한 부분

앤트로픽의 “페이블 5”가 미국 정부의 국가안보 지시로 외국인 접근이 차단되고 출시 며칠 만에 내려갔다는 내용은 고위험 사실 주장이라 원문 출처 확인이 필요하다.
샘 알트먼, 다리오 아모데이, 데미스 하사비스, 얀 르쿤의 AGI 전망은 서로 다르게 요약됐지만, 실제 발언의 시점·맥락·정확한 표현을 별도로 검증해야 한다.
“모델이 혼자 처리할 수 있는 작업 길이가 반년마다 두 배씩 늘었다”는 주장은 어떤 벤치마크와 측정 기준을 말하는지 확인이 필요하다.
자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.