YouTubeSequoia Capital·2026년 6월 16일·0

Simulating Humans at Scale: Simile''s Joon Sung Park

Quick Summary

Simulating Humans at Scale의 핵심은 더 똑똑한 AI가 아니라, 인간의 다양성·비합리성·사회적 상호작용을 실제 데이터 기반으로 모사해 의사결정을 실험 가능한 대상으로 만드는 데 있다.

영상 보기

클릭 전까지는 가벼운 미리보기만 먼저 불러옵니다.

원본 열기

🖼️ 인포그래픽

Simulating Humans at Scale: Simile''s Joon Sung Park 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

Simulating Humans at Scale: Simile''s Joon Sung Park 내용을 설명하는 본문 이미지

💡 한 줄 결론

Simulating Humans at Scale의 핵심은 더 똑똑한 AI가 아니라, 인간의 다양성·비합리성·사회적 상호작용을 실제 데이터 기반으로 모사해 의사결정을 실험 가능한 대상으로 만드는 데 있다.

📌 핵심 요점

  1. Simile은 인간 행동과 사회를 대규모로 시뮬레이션하려는 응용 AI 연구소이며, Stanford의 Smallville 실험과 Social Simulacra 연구가 그 출발점으로 제시된다.
  2. Smallville 실험은 기억·계획·성찰 구조를 가진 생성 에이전트들이 일상, 관계, 초대, 망각, 파티 같은 사회적 행동을 만들어낼 수 있음을 보여줬다.
  3. Joon Sung Park는 기존 프런티어 모델이 객관적 문제 해결에는 강하지만, 인간의 주관적 선호·취향·비합리성을 재현하는 능력은 별도의 모델링 방향이 필요하다고 본다.
  4. Simile은 실제 사람 인터뷰, 설문, RCT 저장소, 고객 내부 데이터 등을 결합해 특정 인구집단을 대표하는 시뮬레이션을 만들고, 제품 콘셉트·메시지·시장 반응·2차 효과를 테스트하려 한다.
  5. 사회 시뮬레이션의 평가는 단일 정답을 맞히는 문제가 아니라 응답 분포, 반복 실행의 신뢰도, 수렴형·발산형 시나리오의 차이를 정량적으로 다루는 문제로 확장된다.

🧩 배경과 문제 정의

  • 기술적으로 성숙한 사회에서는 AGI와 대규모 사회 시뮬레이션이 함께 논의되며, 인간 행동과 사회 변화를 예측하는 도구가 의사결정의 핵심 인프라가 될 수 있다.
  • 대규모 언어모델은 웹과 소셜미디어에 축적된 인간 행동 패턴을 내재하고 있으며, 적절한 맥락과 기억 구조가 주어지면 개인의 미시적 행동과 집단 간 상호작용을 생성할 가능성을 보인다.
  • 기존 사회 플랫폼 실험은 실제 사용자에게 직접 노출되는 현장 테스트에 의존해 비용과 위험이 컸으며, 설계 실패가 감정 확산, 시장 왜곡, 사회적 피해로 이어질 수 있었다.
  • 핵심 문제는 인간의 다양성, 비합리성, 주관적 선호, 장기 기억, 관계성, 선택 편향을 얼마나 정확히 모델링해 사회적 현상과 시장 반응을 시뮬레이션할 수 있는가에 있다.

🕒 시간순 섹션별 상세정리

1. 과학소설적 비전에서 실제 사회 시뮬레이션 가능성으로 전환

  • 기술적으로 성숙한 사회에는 AGI와 사회를 안내하는 시뮬레이션이라는 두 축이 함께 필요하며, 지금은 그 시뮬레이션을 실제로 구축해볼 수 있는 첫 시점이라는 확신이 생겼다 [00:23]
  • 5년 전에는 같은 판단을 내리기 어려웠지만, 관련 연구를 깊게 진행하면서 인간 행동과 사회를 대규모로 모사할 수 있다는 가능성이 점점 뚜렷해졌다 [00:38]

2. Smallville 실험과 생성 에이전트의 사회적 행동

  • Smallville의 핵심 관찰은 대규모 언어모델이 웹과 소셜미디어 학습 데이터 속 인간 행동을 상당히 내재하고 있으며, 특정 상황이 주어지면 개인의 미시적 행동을 생성할 수 있다는 점이다 [01:12]
  • 실험에서는 모델에 기억, 계획, 성찰 구조를 결합해 생성 에이전트들이 작은 마을에서 살아가도록 했고, 25명의 에이전트가 일상 루틴, 직장 생활, 관계를 형성했다 [01:50]

3. 사회 플랫폼 설계 문제와 Social Simulacra의 출발점

  • 연구팀은 초기부터 시뮬레이션의 가능성에 주목했으며, 2020년 GPT-3 등장 직전에는 foundation model의 기회와 위험을 다루는 연구를 진행했다 [03:44]
  • 새 모델에서 중요한 지점은 분류나 단순 생성 능력 자체가 아니라 인간 행동을 내재한다는 점이었고, 이를 끝까지 밀어붙이면 어떤 상호작용이 가능한지가 핵심 질문이 됐다 [04:21]

4. 단순 페르소나에서 장기적 사고가 가능한 에이전트로 확장

  • Social Simulacra의 피츠버그 관광 커뮤니티 시뮬레이션에서는 페르소나들이 명소 추천을 넘어, 함께 여행을 계획하는 협력 행동까지 만들어냈다 [07:08]
  • 초기 실험은 시뮬레이션의 비전과 적용 가능성을 보여줬지만, 사회의 장기적 측면을 모사하려면 단순 페르소나를 넘어 시간에 따라 생각하고 기억을 활용하는 더 복잡한 에이전트가 필요했다 [07:35]

5. 초지능 모델과 인간 시뮬레이션 모델의 방향 차이

  • 현재 기반 모델은 이런 응용을 상상할 수 있는 수준까지 발전했지만, OpenAI나 Anthropic 같은 주요 연구소의 목표는 객관적 정답이 있는 기술 문제를 잘 푸는 초지능 기계에 더 가깝다 [08:45]
  • 인간 사회 시뮬레이션에는 합리적 문제 해결만으로는 부족하며, 사람들은 비합리성과 주관적 가치, 선호, 취향을 함께 가진다 [09:25]

6. 연구에서 회사로 전환한 이유와 시장 검증 수요

  • 연구는 넓은 질문을 탐색하는 데 강하지만, 실제 세계에 영향을 미치는 완성된 제품까지 끌고 가는 데에는 한계가 있으며, 회사는 하나의 확신을 깊게 밀어붙이는 실행 기계에 가깝다 [10:10]
  • 생성 에이전트 논문 이후 약 반년이 지나자 사회과학자들이 실험과 무작위 대조시험을 플랫폼에서 수행하고 싶다는 관심을 보였고, 이는 시뮬레이션이 연구 도구가 될 수 있음을 보여줬다 [11:11]

7. 검증된 인간 시뮬레이션에서 회사화 논의로 이어진 전환

  • 미국 인구 천 명 규모의 시뮬레이션에서 모델이 실제 사람들의 행동을 자기 재현 정확도의 85% 수준으로 예측하면서, 중요한 의사결정에 활용할 수 있는 시뮬레이션 플랫폼의 신뢰 기준이 마련됐다 [12:01]
  • 공동창업자 Joon Sung Park, Percy Liang, Michael Bernstein은 약 5년간 함께 연구해 온 관계였고, 이 검증 결과를 계기로 “회사가 될 수 있는가”라는 초기 논의를 시작했다 [12:25]

8. CVS 사례와 실제 인간 데이터 기반 시뮬레이션 구축

  • CVS의 주요 구매자는 휴먼 인사이트를 이끄는 시니어 VP였고, 논문 검증 결과를 본 뒤 기존 방식으로는 현장 테스트 가능한 질문 수와 시장 전체의 2차 효과 분석이 병목이라고 판단했다 [13:00]
  • 기존 설문·패널 회사처럼 고객은 이해하고 싶은 인구집단과 연구 주제를 제시하지만, Simile은 Gallup 같은 파트너와 함께 실제 사람에게 접근해 시뮬레이션의 기반 데이터를 수집한다 [14:07]

9. 자율주행 시뮬레이션과의 유사성, 그리고 실제 데이터가 필요한 이유

  • 자율주행이 도로 데이터를 모아 현실 물리 기반 모델을 만들고 위치·날씨 조건으로 일반화하듯, Simile도 실제 사람에게서 모델이 인코딩할 수 있는 근본 정보를 얻으려 한다 [15:26]
  • 대규모 언어모델만으로 특정 연령·성별·지역의 사람을 설정해 충실한 대표성을 만들 수 있다는 기대도 있지만, 실제 데이터가 필요한 이유는 “말하는 것”과 “실제로 하는 것” 사이의 간극 때문이다 [16:11]

10. 행동 데이터, RCT 저장소, 고객 내부 데이터의 결합

  • Simile은 사회과학과 가격 연구에서 수행된 무작위 대조 실험 저장소를 활용하고, 행동 신호를 모델에 인코딩해 다양한 RCT 결과를 예측할 수 있는 인간 행동 기반 모델을 목표로 한다 [17:51]
  • 고객사는 9천만 명 규모의 고객 데이터 같은 내부 데이터를 더 나은 시뮬레이션에 활용할 수 있는지 묻고 있으며, 이는 책임 있고 윤리적인 데이터 활용 방식과 직접 연결된다 [18:25]

11. 인터뷰와 설문을 결합한 데이터 수집 방식

  • 데이터 수집은 인터뷰와 설문을 함께 활용하며, 특히 인터뷰는 사람들의 롱테일 정보를 포착하는 데 강점이 있다 [19:07]
  • 2024년 연구에서는 “당신 인생 이야기를 들려달라”는 질문을 실제로 사용했고, 현재는 최소 시간으로 최대한 많은 가시성을 얻도록 인터뷰어 모델을 강화학습 루프로 훈련한다 [19:26]

12. 자체 모델의 역할과 고객 사용 사례의 확장

  • 자체 모델 개발의 핵심 가설은 합리적 정답을 잘 맞히는 단일 모델보다, 사람들의 가치·선호·취향의 다양성을 더 잘 인코딩하는 모델이 필요하다는 것이다 [20:27]
  • 기존 프런티어 모델이 복잡한 객관식 문제 해결에 강한 CPU형 지능 단위라면, Simile 모델은 개별 하위 단위가 실제 인구집단의 관점을 대표하는 GPU형 지능 단위에 가깝다 [20:53]

13. 실제 온라인 실험의 한계와 시뮬레이션의 규모·대표성

  • 페이스북 광고나 온라인 테스트도 가능하지만, 행동 시뮬레이션은 플랫폼에서 모집 가능한 인구 규모에 묶이지 않아 훨씬 큰 사용자 집단을 실험 대상으로 삼을 수 있다 [24:20]
  • 온라인 실험은 특정 집단만 응답하는 선택 편향이 생길 수 있지만, 대표성 있는 사람들을 확보하고 그들을 제대로 나타내는 데이터를 수집하면 시장 판단에 더 가까운 표본을 만들 수 있다 [24:37]

14. 단일 반응을 넘는 제품 결정의 2차 효과

  • 미래지향적 고객은 제품 선호나 지불 의향 같은 단일 응답보다, 특정 결정이 시장과 제품군 전체에 낳을 후속 효과를 더 알고 싶어 한다 [25:30]
  • 자동차 회사가 전기차를 성공적으로 출시하더라도, 비전기차에 대한 인식과 나머지 제품 라인의 위치가 함께 바뀌며 포트폴리오 전체의 균형 문제가 생긴다 [26:00]

15. 예측 성능의 한계와 정량 평가 기준

  • 인간은 같은 질문에도 매번 조금씩 다르게 답할 수 있어 이론적 예측 한계가 있지만, 현재 방식만으로도 응답 예측 성능을 더 끌어올릴 여지는 크다 [26:47]
  • 정량 질문에서는 실제 응답 분포와 시뮬레이션 응답 분포의 거리를 총변동거리로 측정해, 집단 수준 예측이 얼마나 가까운지 평가한다 [27:13]

16. 수렴형 시뮬레이션은 오류보다 구조적 끌림이 중요하다

  • 다중 에이전트 환경에서는 개별 오류가 이어질 수 있으므로, 시뮬레이션을 수렴형과 발산형으로 나눠 평가할 필요가 있다 [28:10]
  • 수렴형 질문에서는 작은 오류가 누적되더라도 현실에서 완전히 벗어나지 않는 한, 강한 수렴력 덕분에 최종적으로 어디에 모일지 파악할 수 있다 [28:41]

17. 발산형 시뮬레이션은 반복 실행과 신뢰도 계산이 핵심이다

  • 제1차 세계대전의 필연성이나 선거 결과처럼 경로 의존성이 큰 질문은 같은 시뮬레이션을 반복해도 동일한 결과가 나오기 어렵고, 개별 결정의 후속 효과가 결과를 갈라놓는다 [30:04]
  • 발산형 질문에서는 단일 예측값보다 반복 실행의 빈도와 신뢰도가 중요하며, 100번 실행했을 때 특정 결과가 몇 번 나오는지가 핵심 정보가 된다 [30:16]

18. 기업 리서치를 넘어 사회적 난제를 겨냥하는 대규모 시뮬레이션

  • 거시경제, 중앙은행 결정, 벤처 투자에서도 인간 심리와 집단 행동의 연쇄가 핵심 변수이며, 완전한 인간 행동 시뮬레이터가 있다면 가치가 어디에 축적되는지도 실험할 수 있다 [32:35]
  • 고전적 에이전트 기반 모델은 셸링의 인종 분리 모델처럼 단순한 빨강·파랑 점과 이동 임계값만으로도 거시적 인간 행동의 인과 메커니즘을 드러냈고, 노벨상급 학문 성과로 이어졌다 [33:40]

19. AGI와 사회 시뮬레이션이 미래 기술 사회의 두 축으로 부상한다

  • 기술적으로 성숙한 사회를 그리는 과학소설적 상상에서는 AGI와 사회를 안내하는 시뮬레이션이 함께 핵심 기둥으로 드러난다 [36:14]
  • 5년 전에는 인간 사회 시뮬레이션 구축 가능성을 말하기 어려웠지만, 관련 연구가 깊어지면서 이제는 첫 시도를 할 수 있다는 확신이 생겼다 [36:36]

20. 사회 시뮬레이션은 인간 행동과 사회과학의 측정 도구가 된다

  • 큰 과학 혁신은 뛰어난 측정에서 출발하는 경우가 많으며, 허블 망원경이 우주 이해의 궤적을 바꾼 것처럼 시뮬레이션은 인간 사회 이해의 측정 기반이 될 수 있다 [37:06]
  • 자연과학에 집중된 관심을 넘어, 사회 시뮬레이션은 인간성·사회과학·사회 개선을 연결하는 도구가 될 수 있다는 점에서 장기적 의미가 크다 [37:25]

🧾 결론

  • 이 대화의 핵심은 “AI가 인간처럼 말할 수 있는가”가 아니라 “AI가 다양한 인간 집단의 선택과 상호작용을 의사결정에 쓸 만큼 안정적으로 재현할 수 있는가”에 있다.
  • Simile의 접근은 범용 초지능 모델을 그대로 쓰는 것보다, 실제 사람의 삶·선택·행동 데이터를 통해 인구집단별 관점과 반응을 모델에 심는 방향에 가깝다.
  • 기업 고객에게는 신제품, 가격, 메시지, 포트폴리오 변화 같은 질문을 실제 시장에 노출하기 전에 더 큰 규모와 대표성으로 실험해볼 수 있다는 점이 매력으로 제시된다.
  • 다만 인간 행동은 본질적으로 변동성이 크기 때문에, 시뮬레이션의 가치는 완벽한 예언이 아니라 의사결정에 충분한 증거와 가능한 미래의 범위를 제공하는 데 있다.
  • 장기적으로는 사회 시뮬레이션이 경제, 정책, 민주주의, 기후 행동, 금융 불안 같은 복잡한 사회 문제를 측정하고 실험하는 새로운 도구가 될 가능성이 제시된다.

📈 투자·시사 포인트

  • 시장 리서치와 소비자 인사이트 영역에서는 단순 설문·패널 조사를 넘어, 특정 인구집단을 반복적으로 질의하고 여러 시나리오를 실험하는 시뮬레이션형 플랫폼 수요가 생길 수 있다.
  • 실제 경쟁력은 모델 크기 자체보다 대표성 있는 데이터 수집, 인터뷰·설문 설계, RCT 및 행동 데이터 결합, 고객 내부 데이터의 윤리적 활용 능력에서 갈릴 가능성이 크다.
  • 기업 입장에서는 “한 번의 선호도 조사”보다 제품 출시 후 브랜드 인식, 기존 제품군 잠식, 시장의 2차 반응처럼 장기적 파급효과를 추정하는 기능이 더 큰 가치를 만들 수 있다.
  • 검증 필요: 영상에서 언급된 자기 재현 정확도 85%, 총변동거리 0.15 미만 같은 기준이 실제 고객 의사결정에서 얼마나 일관되게 유효한지는 사례별 검증이 필요하다.
  • 검증 필요: 고객 내부 데이터와 실제 인간 인터뷰를 결합하는 방식은 개인정보 보호, 편향, 동의, 데이터 거버넌스가 사업 확장의 핵심 리스크가 될 수 있다.
  • 투자 관점에서는 Simile 같은 회사가 단기적으로는 기업 리서치 자동화 도구로 시작하되, 장기적으로는 사회과학·정책·경제 의사결정 인프라로 확장될 수 있는지 확인중요하다.

⚠️ 불확실하거나 확인이 필요한 부분

  • “자기 재현 정확도의 85%”라는 성능 수치는 중요하지만, 어떤 과제·표본·평가지표에서 산출된 값인지 transcript만으로는 충분히 확인되지 않는다. 원 논문 또는 평가 방법론 확인이 필요하다.
  • “총변동거리 0.15 미만이면 의사결정에 충분히 강한 증거”라는 기준이 보편적 학술 기준인지, 특정 사용 사례나 Simile 내부 기준인지 추가 검증이 필요하다.
  • CVS, Fortune 500 기업, Gallup 파트너 관련 언급은 transcript상 사례로 등장하지만, 실제 계약 범위·현재 상용 적용 수준·공개 가능한 협업 상태는 별도 확인이 필요하다.
  • 자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
  • 영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
  • 검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.

✅ 액션 아이템

  • Smallville, Social Simulacra, 2024년 인간 시뮬레이션 검증 연구의 원문 논문을 찾아 노트의 참고자료로 연결한다.
  • 85% 자기 재현 정확도와 총변동거리 0.15 기준의 정의, 계산 방식, 적용 가능한 질문 유형을 별도로 정리한다.
  • Simile의 단기 사용 사례를 신제품 콘셉트 테스트, 메시지 테스트, 시장 조사, 세그먼트별 반응 예측으로 구분해 요약한다.
  • 장기 비전은 거시경제, 정책 효과, 은행런, 기후변화, 민주주의 붕괴 신호 같은 사회적 난제 시뮬레이션으로 별도 분리한다.

❓ 열린 질문

  • 실제 사람의 “말한 것”과 “행동한 것” 사이의 간극을 줄이기 위해 Simile이 어떤 행동 데이터를 어느 수준까지 수집하거나 결합하는가?
  • 자기 재현 정확도 85%가 실제 기업 의사결정에서 어느 정도의 신뢰도로 받아들여지는가?
  • 시뮬레이션 결과가 실제 시장 실험, 광고 클릭률, 구매 데이터와 어긋날 때 어떤 방식으로 모델을 보정하는가?

관련 문서

공통 태그와 주제 흐름을 기준으로 같이 보면 좋은 문서를 이어서 제안합니다.