Simulating Humans at Scale: Simile''s Joon Sung Park
Quick Summary
Simulating Humans at Scale의 핵심은 더 똑똑한 AI가 아니라, 인간의 다양성·비합리성·사회적 상호작용을 실제 데이터 기반으로 모사해 의사결정을 실험 가능한 대상으로 만드는 데 있다.
영상 보기
클릭 전까지는 가벼운 미리보기만 먼저 불러옵니다.
🖼️ 인포그래픽
🖼️ 4컷 인포그래픽
💡 한 줄 결론
Simulating Humans at Scale의 핵심은 더 똑똑한 AI가 아니라, 인간의 다양성·비합리성·사회적 상호작용을 실제 데이터 기반으로 모사해 의사결정을 실험 가능한 대상으로 만드는 데 있다.
📌 핵심 요점
- Simile은 인간 행동과 사회를 대규모로 시뮬레이션하려는 응용 AI 연구소이며, Stanford의 Smallville 실험과 Social Simulacra 연구가 그 출발점으로 제시된다.
- Smallville 실험은 기억·계획·성찰 구조를 가진 생성 에이전트들이 일상, 관계, 초대, 망각, 파티 같은 사회적 행동을 만들어낼 수 있음을 보여줬다.
- Joon Sung Park는 기존 프런티어 모델이 객관적 문제 해결에는 강하지만, 인간의 주관적 선호·취향·비합리성을 재현하는 능력은 별도의 모델링 방향이 필요하다고 본다.
- Simile은 실제 사람 인터뷰, 설문, RCT 저장소, 고객 내부 데이터 등을 결합해 특정 인구집단을 대표하는 시뮬레이션을 만들고, 제품 콘셉트·메시지·시장 반응·2차 효과를 테스트하려 한다.
- 사회 시뮬레이션의 평가는 단일 정답을 맞히는 문제가 아니라 응답 분포, 반복 실행의 신뢰도, 수렴형·발산형 시나리오의 차이를 정량적으로 다루는 문제로 확장된다.
🧩 배경과 문제 정의
- 기술적으로 성숙한 사회에서는 AGI와 대규모 사회 시뮬레이션이 함께 논의되며, 인간 행동과 사회 변화를 예측하는 도구가 의사결정의 핵심 인프라가 될 수 있다.
- 대규모 언어모델은 웹과 소셜미디어에 축적된 인간 행동 패턴을 내재하고 있으며, 적절한 맥락과 기억 구조가 주어지면 개인의 미시적 행동과 집단 간 상호작용을 생성할 가능성을 보인다.
- 기존 사회 플랫폼 실험은 실제 사용자에게 직접 노출되는 현장 테스트에 의존해 비용과 위험이 컸으며, 설계 실패가 감정 확산, 시장 왜곡, 사회적 피해로 이어질 수 있었다.
- 핵심 문제는 인간의 다양성, 비합리성, 주관적 선호, 장기 기억, 관계성, 선택 편향을 얼마나 정확히 모델링해 사회적 현상과 시장 반응을 시뮬레이션할 수 있는가에 있다.
🕒 시간순 섹션별 상세정리
1. 과학소설적 비전에서 실제 사회 시뮬레이션 가능성으로 전환
- 기술적으로 성숙한 사회에는 AGI와 사회를 안내하는 시뮬레이션이라는 두 축이 함께 필요하며, 지금은 그 시뮬레이션을 실제로 구축해볼 수 있는 첫 시점이라는 확신이 생겼다 [00:23]
- 5년 전에는 같은 판단을 내리기 어려웠지만, 관련 연구를 깊게 진행하면서 인간 행동과 사회를 대규모로 모사할 수 있다는 가능성이 점점 뚜렷해졌다 [00:38]
2. Smallville 실험과 생성 에이전트의 사회적 행동
- Smallville의 핵심 관찰은 대규모 언어모델이 웹과 소셜미디어 학습 데이터 속 인간 행동을 상당히 내재하고 있으며, 특정 상황이 주어지면 개인의 미시적 행동을 생성할 수 있다는 점이다 [01:12]
- 실험에서는 모델에 기억, 계획, 성찰 구조를 결합해 생성 에이전트들이 작은 마을에서 살아가도록 했고, 25명의 에이전트가 일상 루틴, 직장 생활, 관계를 형성했다 [01:50]
3. 사회 플랫폼 설계 문제와 Social Simulacra의 출발점
- 연구팀은 초기부터 시뮬레이션의 가능성에 주목했으며, 2020년 GPT-3 등장 직전에는 foundation model의 기회와 위험을 다루는 연구를 진행했다 [03:44]
- 새 모델에서 중요한 지점은 분류나 단순 생성 능력 자체가 아니라 인간 행동을 내재한다는 점이었고, 이를 끝까지 밀어붙이면 어떤 상호작용이 가능한지가 핵심 질문이 됐다 [04:21]
4. 단순 페르소나에서 장기적 사고가 가능한 에이전트로 확장
- Social Simulacra의 피츠버그 관광 커뮤니티 시뮬레이션에서는 페르소나들이 명소 추천을 넘어, 함께 여행을 계획하는 협력 행동까지 만들어냈다 [07:08]
- 초기 실험은 시뮬레이션의 비전과 적용 가능성을 보여줬지만, 사회의 장기적 측면을 모사하려면 단순 페르소나를 넘어 시간에 따라 생각하고 기억을 활용하는 더 복잡한 에이전트가 필요했다 [07:35]
5. 초지능 모델과 인간 시뮬레이션 모델의 방향 차이
- 현재 기반 모델은 이런 응용을 상상할 수 있는 수준까지 발전했지만, OpenAI나 Anthropic 같은 주요 연구소의 목표는 객관적 정답이 있는 기술 문제를 잘 푸는 초지능 기계에 더 가깝다 [08:45]
- 인간 사회 시뮬레이션에는 합리적 문제 해결만으로는 부족하며, 사람들은 비합리성과 주관적 가치, 선호, 취향을 함께 가진다 [09:25]
6. 연구에서 회사로 전환한 이유와 시장 검증 수요
- 연구는 넓은 질문을 탐색하는 데 강하지만, 실제 세계에 영향을 미치는 완성된 제품까지 끌고 가는 데에는 한계가 있으며, 회사는 하나의 확신을 깊게 밀어붙이는 실행 기계에 가깝다 [10:10]
- 생성 에이전트 논문 이후 약 반년이 지나자 사회과학자들이 실험과 무작위 대조시험을 플랫폼에서 수행하고 싶다는 관심을 보였고, 이는 시뮬레이션이 연구 도구가 될 수 있음을 보여줬다 [11:11]
7. 검증된 인간 시뮬레이션에서 회사화 논의로 이어진 전환
- 미국 인구 천 명 규모의 시뮬레이션에서 모델이 실제 사람들의 행동을 자기 재현 정확도의 85% 수준으로 예측하면서, 중요한 의사결정에 활용할 수 있는 시뮬레이션 플랫폼의 신뢰 기준이 마련됐다 [12:01]
- 공동창업자 Joon Sung Park, Percy Liang, Michael Bernstein은 약 5년간 함께 연구해 온 관계였고, 이 검증 결과를 계기로 “회사가 될 수 있는가”라는 초기 논의를 시작했다 [12:25]
8. CVS 사례와 실제 인간 데이터 기반 시뮬레이션 구축
- CVS의 주요 구매자는 휴먼 인사이트를 이끄는 시니어 VP였고, 논문 검증 결과를 본 뒤 기존 방식으로는 현장 테스트 가능한 질문 수와 시장 전체의 2차 효과 분석이 병목이라고 판단했다 [13:00]
- 기존 설문·패널 회사처럼 고객은 이해하고 싶은 인구집단과 연구 주제를 제시하지만, Simile은 Gallup 같은 파트너와 함께 실제 사람에게 접근해 시뮬레이션의 기반 데이터를 수집한다 [14:07]
9. 자율주행 시뮬레이션과의 유사성, 그리고 실제 데이터가 필요한 이유
- 자율주행이 도로 데이터를 모아 현실 물리 기반 모델을 만들고 위치·날씨 조건으로 일반화하듯, Simile도 실제 사람에게서 모델이 인코딩할 수 있는 근본 정보를 얻으려 한다 [15:26]
- 대규모 언어모델만으로 특정 연령·성별·지역의 사람을 설정해 충실한 대표성을 만들 수 있다는 기대도 있지만, 실제 데이터가 필요한 이유는 “말하는 것”과 “실제로 하는 것” 사이의 간극 때문이다 [16:11]
10. 행동 데이터, RCT 저장소, 고객 내부 데이터의 결합
- Simile은 사회과학과 가격 연구에서 수행된 무작위 대조 실험 저장소를 활용하고, 행동 신호를 모델에 인코딩해 다양한 RCT 결과를 예측할 수 있는 인간 행동 기반 모델을 목표로 한다 [17:51]
- 고객사는 9천만 명 규모의 고객 데이터 같은 내부 데이터를 더 나은 시뮬레이션에 활용할 수 있는지 묻고 있으며, 이는 책임 있고 윤리적인 데이터 활용 방식과 직접 연결된다 [18:25]
11. 인터뷰와 설문을 결합한 데이터 수집 방식
- 데이터 수집은 인터뷰와 설문을 함께 활용하며, 특히 인터뷰는 사람들의 롱테일 정보를 포착하는 데 강점이 있다 [19:07]
- 2024년 연구에서는 “당신 인생 이야기를 들려달라”는 질문을 실제로 사용했고, 현재는 최소 시간으로 최대한 많은 가시성을 얻도록 인터뷰어 모델을 강화학습 루프로 훈련한다 [19:26]
12. 자체 모델의 역할과 고객 사용 사례의 확장
- 자체 모델 개발의 핵심 가설은 합리적 정답을 잘 맞히는 단일 모델보다, 사람들의 가치·선호·취향의 다양성을 더 잘 인코딩하는 모델이 필요하다는 것이다 [20:27]
- 기존 프런티어 모델이 복잡한 객관식 문제 해결에 강한 CPU형 지능 단위라면, Simile 모델은 개별 하위 단위가 실제 인구집단의 관점을 대표하는 GPU형 지능 단위에 가깝다 [20:53]
13. 실제 온라인 실험의 한계와 시뮬레이션의 규모·대표성
- 페이스북 광고나 온라인 테스트도 가능하지만, 행동 시뮬레이션은 플랫폼에서 모집 가능한 인구 규모에 묶이지 않아 훨씬 큰 사용자 집단을 실험 대상으로 삼을 수 있다 [24:20]
- 온라인 실험은 특정 집단만 응답하는 선택 편향이 생길 수 있지만, 대표성 있는 사람들을 확보하고 그들을 제대로 나타내는 데이터를 수집하면 시장 판단에 더 가까운 표본을 만들 수 있다 [24:37]
14. 단일 반응을 넘는 제품 결정의 2차 효과
- 미래지향적 고객은 제품 선호나 지불 의향 같은 단일 응답보다, 특정 결정이 시장과 제품군 전체에 낳을 후속 효과를 더 알고 싶어 한다 [25:30]
- 자동차 회사가 전기차를 성공적으로 출시하더라도, 비전기차에 대한 인식과 나머지 제품 라인의 위치가 함께 바뀌며 포트폴리오 전체의 균형 문제가 생긴다 [26:00]
15. 예측 성능의 한계와 정량 평가 기준
- 인간은 같은 질문에도 매번 조금씩 다르게 답할 수 있어 이론적 예측 한계가 있지만, 현재 방식만으로도 응답 예측 성능을 더 끌어올릴 여지는 크다 [26:47]
- 정량 질문에서는 실제 응답 분포와 시뮬레이션 응답 분포의 거리를 총변동거리로 측정해, 집단 수준 예측이 얼마나 가까운지 평가한다 [27:13]
16. 수렴형 시뮬레이션은 오류보다 구조적 끌림이 중요하다
- 다중 에이전트 환경에서는 개별 오류가 이어질 수 있으므로, 시뮬레이션을 수렴형과 발산형으로 나눠 평가할 필요가 있다 [28:10]
- 수렴형 질문에서는 작은 오류가 누적되더라도 현실에서 완전히 벗어나지 않는 한, 강한 수렴력 덕분에 최종적으로 어디에 모일지 파악할 수 있다 [28:41]
17. 발산형 시뮬레이션은 반복 실행과 신뢰도 계산이 핵심이다
- 제1차 세계대전의 필연성이나 선거 결과처럼 경로 의존성이 큰 질문은 같은 시뮬레이션을 반복해도 동일한 결과가 나오기 어렵고, 개별 결정의 후속 효과가 결과를 갈라놓는다 [30:04]
- 발산형 질문에서는 단일 예측값보다 반복 실행의 빈도와 신뢰도가 중요하며, 100번 실행했을 때 특정 결과가 몇 번 나오는지가 핵심 정보가 된다 [30:16]
18. 기업 리서치를 넘어 사회적 난제를 겨냥하는 대규모 시뮬레이션
- 거시경제, 중앙은행 결정, 벤처 투자에서도 인간 심리와 집단 행동의 연쇄가 핵심 변수이며, 완전한 인간 행동 시뮬레이터가 있다면 가치가 어디에 축적되는지도 실험할 수 있다 [32:35]
- 고전적 에이전트 기반 모델은 셸링의 인종 분리 모델처럼 단순한 빨강·파랑 점과 이동 임계값만으로도 거시적 인간 행동의 인과 메커니즘을 드러냈고, 노벨상급 학문 성과로 이어졌다 [33:40]
19. AGI와 사회 시뮬레이션이 미래 기술 사회의 두 축으로 부상한다
- 기술적으로 성숙한 사회를 그리는 과학소설적 상상에서는 AGI와 사회를 안내하는 시뮬레이션이 함께 핵심 기둥으로 드러난다 [36:14]
- 5년 전에는 인간 사회 시뮬레이션 구축 가능성을 말하기 어려웠지만, 관련 연구가 깊어지면서 이제는 첫 시도를 할 수 있다는 확신이 생겼다 [36:36]
20. 사회 시뮬레이션은 인간 행동과 사회과학의 측정 도구가 된다
- 큰 과학 혁신은 뛰어난 측정에서 출발하는 경우가 많으며, 허블 망원경이 우주 이해의 궤적을 바꾼 것처럼 시뮬레이션은 인간 사회 이해의 측정 기반이 될 수 있다 [37:06]
- 자연과학에 집중된 관심을 넘어, 사회 시뮬레이션은 인간성·사회과학·사회 개선을 연결하는 도구가 될 수 있다는 점에서 장기적 의미가 크다 [37:25]
🧾 결론
- 이 대화의 핵심은 “AI가 인간처럼 말할 수 있는가”가 아니라 “AI가 다양한 인간 집단의 선택과 상호작용을 의사결정에 쓸 만큼 안정적으로 재현할 수 있는가”에 있다.
- Simile의 접근은 범용 초지능 모델을 그대로 쓰는 것보다, 실제 사람의 삶·선택·행동 데이터를 통해 인구집단별 관점과 반응을 모델에 심는 방향에 가깝다.
- 기업 고객에게는 신제품, 가격, 메시지, 포트폴리오 변화 같은 질문을 실제 시장에 노출하기 전에 더 큰 규모와 대표성으로 실험해볼 수 있다는 점이 매력으로 제시된다.
- 다만 인간 행동은 본질적으로 변동성이 크기 때문에, 시뮬레이션의 가치는 완벽한 예언이 아니라 의사결정에 충분한 증거와 가능한 미래의 범위를 제공하는 데 있다.
- 장기적으로는 사회 시뮬레이션이 경제, 정책, 민주주의, 기후 행동, 금융 불안 같은 복잡한 사회 문제를 측정하고 실험하는 새로운 도구가 될 가능성이 제시된다.
📈 투자·시사 포인트
- 시장 리서치와 소비자 인사이트 영역에서는 단순 설문·패널 조사를 넘어, 특정 인구집단을 반복적으로 질의하고 여러 시나리오를 실험하는 시뮬레이션형 플랫폼 수요가 생길 수 있다.
- 실제 경쟁력은 모델 크기 자체보다 대표성 있는 데이터 수집, 인터뷰·설문 설계, RCT 및 행동 데이터 결합, 고객 내부 데이터의 윤리적 활용 능력에서 갈릴 가능성이 크다.
- 기업 입장에서는 “한 번의 선호도 조사”보다 제품 출시 후 브랜드 인식, 기존 제품군 잠식, 시장의 2차 반응처럼 장기적 파급효과를 추정하는 기능이 더 큰 가치를 만들 수 있다.
- 검증 필요: 영상에서 언급된 자기 재현 정확도 85%, 총변동거리 0.15 미만 같은 기준이 실제 고객 의사결정에서 얼마나 일관되게 유효한지는 사례별 검증이 필요하다.
- 검증 필요: 고객 내부 데이터와 실제 인간 인터뷰를 결합하는 방식은 개인정보 보호, 편향, 동의, 데이터 거버넌스가 사업 확장의 핵심 리스크가 될 수 있다.
- 투자 관점에서는 Simile 같은 회사가 단기적으로는 기업 리서치 자동화 도구로 시작하되, 장기적으로는 사회과학·정책·경제 의사결정 인프라로 확장될 수 있는지 확인중요하다.
⚠️ 불확실하거나 확인이 필요한 부분
- “자기 재현 정확도의 85%”라는 성능 수치는 중요하지만, 어떤 과제·표본·평가지표에서 산출된 값인지 transcript만으로는 충분히 확인되지 않는다. 원 논문 또는 평가 방법론 확인이 필요하다.
- “총변동거리 0.15 미만이면 의사결정에 충분히 강한 증거”라는 기준이 보편적 학술 기준인지, 특정 사용 사례나 Simile 내부 기준인지 추가 검증이 필요하다.
- CVS, Fortune 500 기업, Gallup 파트너 관련 언급은 transcript상 사례로 등장하지만, 실제 계약 범위·현재 상용 적용 수준·공개 가능한 협업 상태는 별도 확인이 필요하다.
- 자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
- 영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
- 검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.
✅ 액션 아이템
- Smallville, Social Simulacra, 2024년 인간 시뮬레이션 검증 연구의 원문 논문을 찾아 노트의 참고자료로 연결한다.
- 85% 자기 재현 정확도와 총변동거리 0.15 기준의 정의, 계산 방식, 적용 가능한 질문 유형을 별도로 정리한다.
- Simile의 단기 사용 사례를 신제품 콘셉트 테스트, 메시지 테스트, 시장 조사, 세그먼트별 반응 예측으로 구분해 요약한다.
- 장기 비전은 거시경제, 정책 효과, 은행런, 기후변화, 민주주의 붕괴 신호 같은 사회적 난제 시뮬레이션으로 별도 분리한다.
❓ 열린 질문
- 실제 사람의 “말한 것”과 “행동한 것” 사이의 간극을 줄이기 위해 Simile이 어떤 행동 데이터를 어느 수준까지 수집하거나 결합하는가?
- 자기 재현 정확도 85%가 실제 기업 의사결정에서 어느 정도의 신뢰도로 받아들여지는가?
- 시뮬레이션 결과가 실제 시장 실험, 광고 클릭률, 구매 데이터와 어긋날 때 어떤 방식으로 모델을 보정하는가?