A 21-year-old cofounder’s sales pitch to clients begs them to question the company’s results: ‘Do not trust us. Do not trust our model’

🖼️ 인포그래픽

A 21-year-old cofounder’s sales pitch to clients begs them to question the company’s results: ‘Do not trust us. Do not trust our model’ 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 요약

Aaru는 인간 설문 응답 대신 행동 데이터로 구성한 AI 에이전트 집단을 활용해 예측을 만들며, 공동창업자 Ned Koh는 고객에게 오히려 회의적으로 검증하라고 요구한다.

📌 핵심 요약

Aaru는 신용카드 구매 이력, 음식 배달 주문, 인구통계 기록 같은 데이터를 바탕으로 수천 개의 AI 에이전트를 구성해 통계적으로 대표성 있는 가상 집단을 만들고, 이를 인간 설문 응답자 대신 사용한다.
공동창업자 Ned Koh는 기업 영업에서 “우리를 믿지 말라, 우리 모델을 믿지 말라”고 말하며, 고객이 기존 설문과 실제 결과를 제공하면 Aaru가 이를 블라인드로 재현해 성능을 입증하는 방식을 강조한다.
Aaru가 제시한 사례에는 뉴욕 시장 예비선거 투표 예측과 EY의 글로벌 자산 연구 재실행이 포함되며, 특히 인간 응답자의 의도와 실제 행동 사이의 차이를 AI 시뮬레이션이 더 가깝게 포착했다는 주장이 나온다.
Koh는 설문에서 사람들이 자신의 음주량이나 GLP-1 사용 여부처럼 민감한 정보를 솔직히 말하지 않는다고 보고, 인간의 자기 편향과 의도-행동 간극을 Aaru의 핵심 문제의식으로 설명한다.
다만 기사도 AI 응답자가 AI 편향을 물려받을 위험, 주변화된 집단을 납작하게 재현할 수 있다는 연구 결과, 그리고 특정 인물이나 복잡한 결과를 예측하는 데에는 Aaru도 한계를 인정한다는 점을 함께 제시한다.

🧩 주요 포인트

Aaru는 신용카드 구매 이력, 음식 배달 주문, 인구통계 기록 같은 데이터를 바탕으로 수천 개의 AI 에이전트를 구성해 통계적으로 대표성 있는 가상 집단을 만들고, 이를 인간 설문 응답자 대신 사용한다.
공동창업자 Ned Koh는 기업 영업에서 “우리를 믿지 말라, 우리 모델을 믿지 말라”고 말하며, 고객이 기존 설문과 실제 결과를 제공하면 Aaru가 이를 블라인드로 재현해 성능을 입증하는 방식을 강조한다.
Aaru가 제시한 사례에는 뉴욕 시장 예비선거 투표 예측과 EY의 글로벌 자산 연구 재실행이 포함되며, 특히 인간 응답자의 의도와 실제 행동 사이의 차이를 AI 시뮬레이션이 더 가깝게 포착했다는 주장이 나온다.
Koh는 설문에서 사람들이 자신의 음주량이나 GLP-1 사용 여부처럼 민감한 정보를 솔직히 말하지 않는다고 보고, 인간의 자기 편향과 의도-행동 간극을 Aaru의 핵심 문제의식으로 설명한다.
다만 기사도 AI 응답자가 AI 편향을 물려받을 위험, 주변화된 집단을 납작하게 재현할 수 있다는 연구 결과, 그리고 특정 인물이나 복잡한 결과를 예측하는 데에는 Aaru도 한계를 인정한다는 점을 함께 제시한다.

🧠 상세 정리

1. 회의를 전제로 한 Aaru의 영업 방식

기사의 출발점은 Aaru 공동창업자 Ned Koh가 고객에게 자사 모델을 곧장 믿으라고 설득하지 않는다는 점이다. 그는 Fortune의 Brainstorm Tech 콘퍼런스에서 “우리를 믿지 말라. 우리 모델을 믿지 말라”고 말하며, 오히려 고객이 회의적일수록 장기적으로 더 좋은 고객이 된다고 설명했다. 이 태도는 AI 예측 모델을 신뢰의 대상으로 포장하기보다, 실제 결과와 대조해 검증받겠다는 방식에 가깝다. Koh는 자신이 기업 영업이나 시장조사 분야에서 오랜 경력을 가진 것은 아니지만, 회사의 결과가 스스로 말하게 한다고 강조한다.

2. AI 에이전트로 통계적 인구집단을 구성하는 방식

Aaru는 2024년 3월 당시 19세였던 Koh가 Cameron Fink, John Kessler와 함께 공동창업한 2년 차 AI 스타트업으로 소개된다. 회사는 수천 개의 AI 에이전트를 나이, 소득, 우편번호, 성별 등 속성이 부여된 통계적으로 대표성 있는 집단으로 조직한다. 그런 다음 실제 인간 응답자에게 설문을 돌리는 대신 이 에이전트들에게 질문을 던져 예측을 만든다. 기사에 따르면 이 접근은 사람들이 말로 밝히는 의도보다 구매, 투표, 유지율 같은 실제 행동 결과를 더 중요한 학습·평가 기준으로 삼는다는 점에서 기존 설문조사와 차별화된다.

3. 뉴욕 시장 예비선거 예측 사례

기사 초반에는 약 200만 명의 뉴욕 시민이 참여한 시장 예비선거가 Aaru의 성능을 보여주는 사례로 제시된다. Aaru는 신용카드 구매 기록, 음식 배달 주문, 인구통계 기록 같은 데이터를 토대로 모든 유권자를 시뮬레이션하고, 그들이 어떻게 투표했을지를 예측하려 했다. 보도에 따르면 이 시뮬레이션은 최종 집계와 2,000표 이내 차이까지 접근했다. 다만 Koh는 독자가 이 결과를 곧이곧대로 믿기를 기대하지 않는다고 말하며, 바로 그 불신을 검증 과정의 출발점으로 삼는다.

4. 기존 설문을 블라인드로 재실행하는 검증 구조

Aaru가 고객을 설득하는 핵심 방식은 과거 설문과 이미 알려진 실제 결과를 활용한 블라인드 재실행이다. 잠재 고객이 과거에 조사한 사람들, 질문, 결과가 있는 설문을 제공하면 Aaru는 실제 결과를 보지 않은 상태에서 AI 에이전트로 같은 조사를 다시 수행한다. 그런 뒤 모델 응답이 이미 알려진 현실의 결과와 얼마나 가까운지 비교한다. 이 구조는 Aaru가 단순히 그럴듯한 답변을 생성하는지, 아니면 인간 응답자의 자기보고보다 실제 행동에 가까운 신호를 잡아내는지 확인하는 장치로 설명된다.

5. EY 글로벌 자산 연구와 의도-행동 간극

Koh가 인용한 대표적 증거는 Aaru의 파트너인 Ernst & Young의 글로벌 자산 연구 사례다. EY는 30개국 3,600명을 대상으로 6개월 동안 조사했으며, 한 질문은 부모가 사망한 뒤 부모의 자산관리사를 계속 이용할지 묻는 것이었다. 응답자의 82%는 계속 이용하겠다고 답했지만, Koh에 따르면 현실의 유지율은 실제로 20~30%에 가깝다. Aaru가 이 설문을 인간 응답자 없이 블라인드로 다시 실행했을 때 시뮬레이션 응답은 약 40%였고, 기사에서는 이 수치가 실제 유지율에 더 가까웠다고 설명한다.

6. 인간 응답자의 편향과 민감한 정보 문제

Koh는 Aaru의 성공 가능성이 사람들이 자기 자신에 대해 가진 편향과 깊게 연결되어 있다고 주장한다. 기사에서는 의도와 행동이 자주 어긋나는 현상을 과학자들이 ‘의도-행동 간극’이라고 부르며, 새해 결심을 하고도 헬스장에 가지 않거나 예산을 세우고도 충동구매를 하는 사례로 설명해 왔다고 정리한다. Koh는 이를 더 직설적으로 “사람들은 거짓말을 한다”고 표현한다. 특히 음주량이나 GLP-1 약물 사용처럼 민감한 주제에서는 사람들이 가족에게도 말하지 않는 사실을 설문에는 더더욱 말하지 않을 수 있다고 본다.

7. 고객사, 투자, 제품 혁신 사례

기사에 따르면 Aaru의 방법론에는 EY, Accenture, Interpublic Group, McDonald’s, Boston Beer, A24, Bayer 등이 관심을 보이거나 고객·파트너로 언급된다. 또 Aaru는 탄산수 회사 Spindrift와 제품 혁신 작업을 진행했고, 그 결과 회사가 기존과 다른 카테고리인 무탄산 차 음료를 출시하는 데 연결됐다고 소개된다. Koh는 Spindrift가 이전에는 그런 제품을 해본 적이 없었지만, Aaru 모델이 소비자 프로필을 바탕으로 해당 공간을 예측할 수 있다고 자신했다고 말했다. 투자 측면에서는 Redpoint Ventures가 주도한 시리즈 A에서 10억 달러 헤드라인 밸류에이션을 받았으나, 구조상 일부 투자자는 더 낮은 가격에 참여해 혼합 밸류에이션은 그보다 낮았다고 보도된다.

8. AI 편향과 예측 한계에 대한 반론

기사는 Aaru의 접근이 인간 편향을 줄이려 하더라도 AI 응답자가 AI 편향을 물려받을 위험이 있다고 지적한다. 지난해 발표된 Cornell University 주도 연구는 여러 대규모 언어모델에서 생성된 봇 응답자들이 주변화된 집단을 ‘납작하게’ 재현했으며, 당사자가 스스로를 보는 방식이 아니라 외부인이 보는 방식으로 묘사하는 경향을 보였다고 밝혔다. 이는 AI가 편향을 포함한 인간 데이터로 훈련되기 때문이라고 설명된다. Koh는 설문 데이터로 에이전트를 훈련하는 경쟁자들은 편향을 통째로 들여온다고 반박하며, Aaru는 더 객관적인 행동 데이터를 사용한다고 주장하지만, 회사의 구조나 당파성을 줄이는 구체적 메커니즘은 공개하지 않았다.

9. 예측할 수 없는 영역을 인정하는 결론

Aaru는 모든 행동이나 결과를 예측할 수 있다고 주장하지 않는다. 기사에 따르면 회사는 Donald Trump 대통령이나 Jerome Powell 같은 인물의 행동을 시뮬레이션하려 했지만, 수십 년치 공개 발언이 있어도 결과를 정확히 예측하지 못했다. Koh는 어떤 결과에는 변동성이 너무 커서 아무리 많은 데이터를 갖고 있어도 충분하지 않다고 말했다. 따라서 이 기사의 핵심은 Aaru가 인간 설문보다 더 정확한 대체물을 주장한다는 점뿐 아니라, 그 주장이 검증, 반론, 편향, 한계 인정이라는 긴장 속에서 제시되고 있다는 데 있다.

🧾 핵심 주장 / 시사점

Aaru의 차별점은 AI를 ‘믿어 달라’고 말하는 대신, 과거 설문과 실제 결과를 이용해 고객이 직접 의심하고 검증하게 만드는 영업 구조에 있다.
기사는 인간 설문조사의 약점으로 자기보고 편향과 의도-행동 간극을 강조하지만, 동시에 AI가 인간 데이터의 편향을 재생산할 수 있다는 반론도 비중 있게 제시한다.
Aaru의 사례는 시장조사와 예측 모델이 사람들의 말보다 행동 데이터를 더 중시하는 방향으로 이동할 가능성을 보여주지만, 복잡하고 변동성이 큰 개인·정치적 행동 예측에는 명확한 한계가 남아 있다.