YouTubeY Combinator·2026년 6월 12일·0

Self-Play for LLMs, AI for Biology, Formal Verification, and More

Quick Summary

Self Play for LLMs, AI for Biology, Formal Verification의 공통 메시지는 더 큰 지능을 만들기 위해 인간 데이터 의존을 줄이고, 스케일링·자기생성 과제·검증 가능한 추론을 결합해야 한다는 것이다.

영상 보기

클릭 전까지는 가벼운 미리보기만 먼저 불러옵니다.

원본 열기

🖼️ 인포그래픽

Self-Play for LLMs, AI for Biology, Formal Verification, and More 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

Self-Play for LLMs, AI for Biology, Formal Verification, and More 내용을 설명하는 본문 이미지

💡 한 줄 결론

Self-Play for LLMs, AI for Biology, Formal Verification의 공통 메시지는 더 큰 지능을 만들기 위해 인간 데이터 의존을 줄이고, 스케일링·자기생성 과제·검증 가능한 추론을 결합해야 한다는 것이다.

📌 핵심 요점

  1. LLM 자기플레이의 핵심 문제는 인간이 만든 문제와 해법만으로는 전체 해법 공간을 충분히 탐색하기 어렵다는 데 있으며, AlphaZero식 비인간 편향 탐색이 더 높은 지능으로 가는 후보 경로로 제시된다.
  2. 현재 LLM 학습은 ICL, LoRA, SFT처럼 샘플 수와 조건에 따라 최적 방법이 갈리고 성능 곡선도 불안정해, 인간처럼 누적적으로 개선되는 더 높은 sample efficiency 학습 절차가 필요하다는 문제의식이 나온다.
  3. BioAI에서는 단백질 서열을 언어처럼 다루는 모델이 구조와 기능 이해를 얼마나 학습할 수 있는지가 핵심이며, ESM Cambrian 계열에서는 compute, data, model size 확장에 따라 단백질 영역에서도 언어 모델과 유사한 scaling 형태가 관찰됐다고 설명된다.
  4. 단백질 모델은 MSA 같은 수작업 기반 feature 없이 single sequence만으로 구조 예측과 항체 설계 영역에서 의미 있는 성능을 보였고, sparse coding 분석에서는 amino acid, structural motif, protein domain, functional site 같은 생물학적 feature가 latent space에 나타난다고 소개된다.
  5. Lean 기반 formal verification은 AI가 생성한 수학·코드·과학적 주장에 대해 “그럴듯한 답”이 아니라 검증 가능한 증명을 붙이는 방향으로 확장되고 있으며, 수학 정리 증명과 프로그램 검증이 AI 시스템의 신뢰성 문제와 직접 연결된다.

🧩 배경과 문제 정의

  • Paper Club의 초점이 적용 중심으로 이동하면서, LLM 자기플레이, 바이오 AI, 실시간 음성 에이전트, Lean 기반 과학 검증처럼 서로 다른 응용 영역이 함께 다뤄진다.
  • 핵심 문제의식은 인간이 만든 데이터와 해법 공간만으로 더 높은 지능에 도달할 수 있는지, 아니면 AlphaZero식의 비인간 편향 탐색과 자기플레이가 필요한지에 있다.
  • 현재 LLM 학습은 샘플이 늘어날수록 안정적으로 성능이 향상되는 인간 학습과 달리, ICL·LoRA·SFT 등 방법에 따라 최적 구간이 달라지고 성능 곡선도 불안정하게 나타난다.
  • 바이오 AI에서는 언어 모델의 스케일링 법칙과 범용 학습 방식이 단백질 구조·기능 이해에도 적용될 수 있는지가 중요한 시험대가 된다.
  • 후반부에서는 논의가 실시간 RAG, Lean 기반 형식 검증, 에이전트형 코딩 운영으로 확장되며, AI 시스템을 더 빠르고 검증 가능하며 병렬적으로 운영하는 방법이 핵심 주제로 이어진다.

🕒 시간순 섹션별 상세정리

1. 적용 중심 Paper Club과 발표 의제 확장

  • 이번 모임은 피드백을 반영해 적용 중심으로 재구성되며, 바이오 AI, LLM 자기플레이, 스트리밍 RAG, Lean for Science, 토큰 최적화가 하나의 흐름으로 배치된다 [00:08]
  • 발표는 AI for Biology의 Yas Beg, AlphaZero식 LLM 자기플레이를 다루는 Tatsu 연구실의 Luke, 실시간 음성 에이전트 관점의 Stream RAG를 맡은 Arnob, 과학용 Lean을 다루는 Robert George로 구성된다 [00:16]

2. 인간 생성 데이터의 한계와 AlphaZero식 탐색 필요성

  • 인간이 만든 해법 공간 H만 학습한 뒤 test-time compute와 recursive self-improvement로 전체 해법 공간 F-H까지 확장할 수 있다는 관점에는 확률적 한계가 있다 [01:17]
  • AlphaGo는 인간 데이터가 섞인 왼쪽 접근에 가깝고, AlphaZero는 인간의 우회적 탐색 편향을 덜 받는 오른쪽 접근에 가까우며, 더 지능적인 시스템으로 가는 경로로 드러난다 [01:50]

3. 샘플 효율과 현재 학습 절차의 불안정성

  • 남은 핵심 과제는 intelligence per sample과 intelligence per watt이며, 새 샘플 하나가 들어올 때 성능을 가장 크게 끌어올리는 학습 절차가 무엇인지가 중요하다 [02:37]
  • 현재 실무의 대표적 답인 ICL은 샘플이 늘어난다고 성능이 단조롭게 좋아지지 않으며, 개선과 악화가 반복되다가 모델의 훈련된 컨텍스트 길이 한계에서 급격히 무너진다 [02:56]

4. 와트 효율, 대안 학습법, 클럽 운영 아이디어

  • intelligence per watt 관점에서는 더 작은 모델이 특정 조건에서 더 나을 수 있고, 모델 선택 기준도 절대 성능만이 아니라 전력 대비 지능으로 달라질 수 있다 [04:22]
  • backprop은 뇌의 학습 방식과 다를 수 있으며, 뇌가 weight matrix의 transpose를 직접 사용한다는 증거가 적기 때문에 SPSA 같은 대안 학습 절차가 주목된다 [04:34]

5. BioAI 전환과 생물학 속 스케일링 문제

  • BioAI 파트는 Biohub의 최신 논문을 중심으로 진행되며, 발표자는 Stanford의 Steve Quake와도 연결된 생물학·AI 접점의 연구 맥락에 있다 [05:47]
  • 청중이 AI·ML 쪽에 더 가까운 만큼, 초점은 생물학 자체보다 언어 모델과 AI 전반의 발전 아이디어가 생물학으로 어떻게 이전되는지에 맞춰진다 [06:39]

6. 단백질 언어 모델의 입력, 목표, 검증 질문

  • 단백질은 20종 아미노산으로 이뤄진 문자열이고, 이 서열이 고유한 3D 형태와 세포 내 기능을 결정하므로 언어 모델의 토큰 시퀀스와 비슷한 형식으로 다룰 수 있다 [09:02]
  • ESMC는 진화 과정에서 얻어진 단백질 서열을 대규모로 모아 BERT식 masked language model로 학습하며, 입력은 구조나 기능이 아니라 아미노산 문자열 자체로 제한된다 [09:43]

7. 단백질 모델의 구조 이해를 재는 long-distance contact 기준

  • 단백질에서도 language model scaling law가 성립하는지 보려면, 모델이 protein structure를 실제로 이해했는지 가늠할 proxy가 필요하다 [12:11]
  • 내부 representation으로 long-distance protein contact를 예측하는 방식은 1차원 sequence가 3차원 folding으로 이어지는 정보를 모델이 포착했는지 평가하는 기준이 된다 [12:28]

8. ESM Cambrian에서 나타난 compute scaling과 데이터 확장의 효과

  • ESM Cambrian 계열은 300M, 600M, 6B parameter scale에서 training compute 대비 성능을 비교했고, 낮은 compute run에서 추정한 compute-optimality curve가 실제 대규모 run까지 깔끔하게 extrapolate됐다 [13:17]
  • compute, protein data, model size를 늘릴수록 log-linear 형태의 성능 향상이 나타났고, language model scaling과 유사한 qualitative shape가 단백질 sequence에서도 관찰됐다 [13:36]

9. MSA 기반 구조예측의 한계와 single-sequence ESM Fold 2 접근

  • AlphaFold의 강점은 multiple sequence alignment라는 수작업 특성 설계에서 나오며, 같은 단백질의 evolutionary cousin을 대량으로 찾아 co-variation pattern을 구조 정보로 활용한다 [15:58]
  • MSA는 강력한 domain engineering이지만 큰 database와 sequence alignment가 필요해 느리고, 항체 설계처럼 evolutionary information이 부족한 영역에서는 가장 필요한 순간에 약해질 수 있다 [16:36]

10. ESM Fold 2의 구조예측 성능과 항체 설계에서의 의미

  • DOCQ pass rate는 두 protein이 가까이 붙는 predicted shape가 실제 활용 가능한 수준에 도달한 test case 비율을 재는 structure prediction metric이다 [18:13]
  • 비교는 no-MSA single sequence 조건과 optional 또는 required MSA 조건으로 나뉘며, 일반 protein-protein complex에서 ESM Fold 2는 MSA 없이도 AlphaFold 3와 약 3 point 차이까지 접근한다 [18:27]

11. Inference-time compute와 해석 가능한 생물학 feature

  • looped recursive model은 반복 횟수를 늘릴수록 test-time compute가 증가하고 성능도 개선되므로, inference time에서도 scaling에 따른 return이 남아 있음을 보여준다 [19:45]
  • single representation 방식은 MSA construction에 드는 classical computational biology 시간을 줄여 throughput과 latency 측면에서 더 빠른 결과를 가능하게 한다 [20:03]

12. Nucleophilic elbow 사례와 protein atlas가 보여주는 생물학적 확장성

  • nucleophilic elbow feature는 여러 enzyme catalysis에서 쓰이는 잘 알려진 catalytic motif이며, 서로 관련 없는 protein에서 여러 번 독립적으로 진화한 반복적 생물학 해법이다 [21:30]
  • 모델은 evolutionary distance와 전체 protein background가 다른 네 개의 구조적으로 다양한 protein에서 같은 motif를 찾아냈고, 이는 단순 sequence similarity memorization보다 깊은 structural intuition이 작동함을 시사한다 [21:54]

13. 단백질 inverse design의 치료제 가능성과 인간적 영향

  • 단백질 모델은 sequence space를 탐색해 잠재적 protein drug를 설계하고, 일부 후보는 wet lab에서 검증되며, 알려진 therapeutic molecule에 결합하는 후보까지 생성한다 [24:11]
  • PDL1 binder는 암 면역치료의 주요 성공 사례와 연결되며, 과거에는 다루기 어려웠던 암 환자에게 새로운 치료 가능성을 넓힌 표적이다 [24:32]

14. LLM post-training의 compute 집중과 RL task 확장 병목

  • 현재 대형 LLM 학습 stack은 web text pre-training과 post-training으로 나뉘며, 최근 post-training 단계에서는 장시간 대규모 reinforcement learning run에 막대한 compute가 투입된다 [26:00]
  • RL post-training은 coding, math, software interaction task에서 agent가 action을 수행하고 reward를 받은 뒤, 좋은 rollout은 upweight하고 나쁜 rollout은 downweight하는 방식으로 진행된다 [26:15]

15. Self-play의 기본 구조와 symmetric·asymmetric 구분

  • Self-play의 핵심 질문은 모델이 새로운 RL task를 스스로 만들고, 그 task로 학습한 뒤, 같은 과정을 반복하며 개선될 수 있는지다 [28:10]
  • 전통적 RL은 미리 정의된 environment와 task에서 모델을 학습시키지만, self-play에서는 모델이 task를 생성하고 해결하며 두 능력을 함께 개선한다 [28:18]

16. Self-play의 기대와 실제 plateau 문제

  • 인간 demonstration만으로 학습하면 모델은 demonstration 수준을 넘기 어렵고, 일반 RL도 environment를 모두 풀거나 reward를 전혀 얻지 못하면 개선이 멈춘다 [30:20]
  • Self-play는 새로운 task를 계속 만들어 learning signal을 유지하고, Go처럼 인간 수준을 넘어서는 개선을 LLM에서도 달성할 가능성을 제시한다 [30:47]

17. Vanilla LM self-play 보상 설계와 무용한 synthetic task

  • 기본 LM self-play에서는 conjecturer가 synthetic task를 만들고 solver가 이를 시도한 뒤, correctness reward로 검증된 correct rollout만 solver 업데이트에 사용한다 [31:44]
  • Conjecturer 보상은 solver가 풀지 못하면 0이고, 그 외에는 1에서 solver solve rate를 뺀 값이므로, solver에게 어렵지만 풀 수 있는 frontier problem을 만들도록 유도한다 [32:12]

18. Artificial complexity 문제와 self-guided self-play의 보정

  • Conjecturer가 tricky problem 보상만 받으면 복잡하고 지저분한 Lean statement를 만들 수 있으며, 이는 solver의 실수를 유도하지만 수학적으로 유용한 학습 신호가 되기 어렵다 [33:47]
  • Artificially complex problem은 긴 고등학교 미적분 문제처럼 solve rate를 낮출 수는 있지만, 중요한 다른 수학 task로 전이되는 구조적 난이도와는 거리가 멀다 [34:08]

19. Self-play 강화학습의 성능 향상과 한계

  • 학술 규모의 대형 RL 인프라가 핵심 작업이었지만, 논의의 초점은 세부 구현보다 headline 결과에 있으며, 표준 self-play는 RL baseline과 같은 흐름에서 parallel sampling보다 RL이 성능 향상을 만든다 [36:02]
  • 7B 모델에 8배의 self-play compute를 투입하면 670B급 큰 모델의 pass@ 성능에 가까워지지만, 그만큼 더 많은 계산이 필요하고 작은 모델의 능력 확장은 아직 제한적이다 [36:35]

20. StreamRAG 문제 설정과 음성 AI의 환각 리스크

  • 다음 발표는 Meta 그룹의 StreamRAG 논문으로 전환되며, 초점은 세부 기법 자체보다 voice AI 환경에서 새로 생기는 연구 문제와 생산 환경 적용 가능성에 맞춰진다 [37:51]
  • 기존 LLM 질의응답에서는 2023년 무렵 citation 등에서 환각 문제가 컸고, RAG는 입력 query와 관련 정보를 찾아 LLM에 제공함으로써 환각을 줄이는 핵심 역할을 했다 [38:43]

21. 기존 RAG의 지연 문제와 말하는 중 검색하는 발상

  • 단순히 입력 질문이 끝난 뒤 RAG를 실행하면 검색과 응답 생성 때문에 지연이 추가되고, 음성 에이전트가 10초 뒤에 답하면 자연스러운 대화 경험이 크게 깨진다 [40:12]
  • StreamRAG의 발상은 질문 종료를 기다리지 않고 사용자의 발화 단어를 분석하면서 RAG를 실행하는 방식이며, 핵심 질문이 초반에 나오고 뒤 문장이 보조 정보일 때 지연을 줄일 수 있다 [40:42]

22. 고정 간격 streaming RAG와 중간 chunk 선택 문제

  • 첫 접근은 fixed interval streaming RAG로, 오디오를 일정 블록으로 나누고 각 블록이 도착할 때마다 RAG를 실행해 블록별 검색 결과를 쌓아가는 구조다 [41:43]
  • 전체 목표는 질문 끝까지 기다리지 않는 것이므로 어느 블록을 실제 검색 기준으로 삼을지가 핵심이며, RAG pipeline 안의 빠른 하위 구성요소를 활용해 중간 query의 top documents와 전체 query의 top documents가 맞는지 비교할 수 있다 [42:23]

23. 모델 기반 trigger와 부분 질문의 검색 품질 평가

  • 모든 chunk마다 RAG를 호출하는 방식은 계산 낭비가 크기 때문에, 별도 모델이 새 chunk의 정보가 critical한지 판단하고 새 query 생성 여부를 결정하는 접근이 가능하다 [43:55]
  • 논문의 post-training pipeline은 부분 발화에서 LLM으로 pseudo query를 만들고 RAG를 실행한 뒤, 검색된 문서를 바탕으로 해당 부분 query가 새로운 정보를 담는지 또는 기존 자료로 충분한지 판단한다 [44:44]

24. StreamRAG 결과와 verified intelligence로의 전환

  • 논문은 1년 전 기준의 작은 open-source model을 사용했고, RAG benchmark를 audio로 변환해 synthetic data와 human spoken data에서 latency 변화를 측정했다 [46:16]
  • Streaming RAG는 synthetic dataset에서 약 0.5초, human spoken dataset에서 약 1.5초 latency를 줄였고, final query 이후 RAG를 적용한 경우와 비교해 accuracy는 거의 유지됐다 [46:30]

25. AI 수학 성과가 형식 검증 수요를 키운다

  • IMO와 미해결 에르되시 문제 풀이 성과가 이어지면서, OpenAI·DeepMind 같은 프런티어 모델의 수학 문제 해결 능력이 계속 상승한다 [48:01]
  • OpenAI는 80년 된 에르되시 문제 해결을 주장했고, DeepMind도 에르되시 문제뿐 아니라 다른 분야의 문제들을 풀면서 형식 검증을 루프 안에 포함했다 [48:30]

26. 자동 정리 증명과 인터랙티브 증명기의 역할이 갈린다

  • SMT solver 같은 자동 정리 증명기는 사람의 노력이 적게 들지만, 표현할 수 있는 수학의 범위가 제한된다 [49:49]
  • Lean·Rocq·Isabelle 같은 인터랙티브 정리 증명기는 더 엄격하고 표현력 있는 논리 체계를 쓰지만, 증명 작성과 전제 선택에 더 많은 사람의 노력이 필요하다 [50:14]

27. Lean은 정리 증명기이자 프로그래밍 언어다

  • Lean은 단순한 정리 증명기가 아니라 함수형 프로그래밍 언어이며, 컴파일 체크와 프로그램·증명의 통합을 동시에 제공한다 [51:00]
  • 메타프로그래밍, 매크로, 사용자 정의 자동화, 외부 라이브러리 바인딩까지 가능해 수학 검증뿐 아니라 게임 제작이나 CUDA 연동 같은 실험도 가능하다 [51:23]

28. 형식화 수학은 올림피아드와 연구 문제에서 빠르게 확장된다

  • 간단한 자연수 덧셈 결합 법칙 증명도 Lean에서는 각 tactic이 명확한 증명 단계가 되며, 커널을 속이거나 손으로 얼버무리는 방식은 통하지 않는다 [52:36]
  • 2020년 OpenAI의 GPT-f는 자동 정리 증명을 위한 초기 생성 언어 모델 중 하나였고, miniF2F 같은 올림피아드 수준 벤치마크에서 이후 성과가 급격히 개선됐다 [53:19]

29. 검증 가능한 코딩과 AI 과학으로 형식 검증이 확장된다

  • 프로그램 검증에서는 사람이 원하는 동작을 specification으로 잡고, proof가 코드가 그 specification을 만족한다는 보증 역할을 한다 [54:32]
  • LLM은 코드를 많이 만들 수 있지만 생성 코드 규모가 커질수록 버그도 늘어나기 때문에, 인간 의도를 검증 언어로 포착하는 문제가 중요해진다 [55:00]

30. Torch-Lean과 에이전트형 개발 방식으로 논점이 전환된다

  • Torch-Lean은 Lean 안에서 PyTorch 스타일 텐서 시스템과 신경망을 작성하는 통합 프레임워크이며, 공유 중간 표현으로 컴파일되고 specification의 성질을 증명할 수 있다 [56:00]
  • Flash attention이 specification 수준에서 표준 attention과 같다는 성질, 위치 정보가 없을 때 attention이 permutation invariant라는 성질, GPT-2 스타일 모델의 Lean 네이티브 학습 같은 사례가 가능하다 [56:31]

31. 체스식 코딩에서 RTS식 에이전트 운영으로 전환

  • 기존 프로그래밍은 미래를 예측하고 견고한 시스템을 선형적으로 설계하는 성격이 강했지만, 에이전트 코딩에서는 한 번에 눈앞의 한 작업만 보는 방식이 충분하지 않다 [1:00:18]
  • 실시간 전략 게임에서는 경제, 생산, 유닛 행동, 교전이 동시에 굴러가야 하며, 한 요소만 완벽해도 전체 운영에서 실패할 수 있다 [1:00:52]

32. 워크트리와 오케스트레이터로 병렬 개발을 시작하는 구조

  • 단일 로컬 저장소에 의존하는 개발 방식은 여러 에이전트가 동시에 작업하는 환경에 맞지 않으며, 각 워크트리가 독립적으로 컴파일되고 충돌 없이 움직일 수 있어야 한다 [1:01:42]
  • 워크트리, 태스크 관리, 이식 가능한 작업 단위, 하나 이상의 자율 에이전트를 결합하면 아이디어에서 실제 작업 착수까지 필요한 키 입력 수가 줄어든다 [1:02:08]

33. 클라우드 실행, 작업 이식성, 권한 최소 마찰

  • 스크립트 실행까지 가능한 한 클라우드 인스턴스에서 처리하면 컨텍스트 공간을 절약하고, 로컬·원격·팀원 간 작업 이동도 쉬워진다 [1:04:34]
  • 작업이 막히는 이유는 개인 컴퓨터의 위치, 밤새 실행 필요, 다른 팀원의 개입, 더 큰 컴퓨트나 메모리 요구처럼 코드가 아니라 실행 환경의 제약일 수 있다 [1:04:52]

34. worker 스폰 단계에 검증과 지식 축적을 포함하는 방식

  • 프론트엔드 작업에서는 로컬 dev server 부팅, 테스트 실행, 올바른 포트 대기까지 worker 스폰 단계에 포함해야 인간이 브라우저 탭을 열고 바로 확인할 수 있다 [1:05:50]
  • 인간의 클릭과 준비 단계를 줄이면 다음 단계로 작업을 넘기는 비용이 낮아지고, 에이전트 병렬 운영의 병목이 인간 조작으로 옮겨가는 일을 줄일 수 있다 [1:06:00]

35. 코드만이 아니라 문서화된 지식도 에이전트의 컨텍스트 자산

  • 코드는 진실의 원천일 수 있지만, 에이전트가 필요한 맥락을 매번 코드에서 직접 추출하는 방식은 비용이 크고 비효율적일 수 있다 [1:07:14]
  • 컨텍스트가 아직 메모리에 있을 때 구조화된 문서와 연결된 위키형 지식 기반을 남기면, 미래의 에이전트가 더 쉽게 이해하고 작업을 이어갈 수 있다 [1:07:24]

36. 매크로 운영, 고가시성, 오디오·색상 큐로 인지 대역폭 확장

  • RTS에서는 개별 유닛 조작이 뛰어나도 유닛 생산이 부족하면 패배하듯, 에이전트 코딩에서도 깊게 파고드는 작업과 병렬로 굴릴 작은 작업을 계속 만들어야 한다 [1:07:54]
  • 여러 작업을 동시에 진행하지 않는 비용은 겉으로 드러나지 않지만 실제로는 큰 기회비용이며, 나중에 Claude에게 맥락을 다시 묻는 비용은 상대적으로 낮다 [1:08:35]

37. APM을 에이전트 생산성 지표로 바꾸고 토큰을 쉬지 않게 쓰는 방식

  • 높은 APM 자체가 최고 실력을 보장하지는 않지만, 상위권 플레이어 중 낮은 APM인 사람은 거의 없으며, 에이전트 작업에서도 느린 사고와 입력은 경쟁력 저하로 이어질 수 있다 [1:12:01]
  • 많은 작은 결정을 빠르게 내리고 목표 방향으로 계속 움직이는 것이 중요하며, 개인 컴퓨터에서 APM을 지속적으로 확인해 실제 작업이 진행 중인지 점검한다 [1:12:32]

38. 지식베이스, satisficing, 풀스택 실행으로 팀 산출량을 끌어올리는 운영법

  • 지식베이스는 LLM이 빠르게 읽기 쉬운 링크 문서 형태로 축적될 때 효과가 크며, 발표 자료도 기존 지식과 피드백을 Claude에 넣고 약 15번 수정한 뒤 다시 지식베이스에 반영하는 방식으로 완성됐다 [1:13:54]
  • 사업 지식과 과거 판단이 충분히 담긴 지식베이스는 Claude와 Codex가 기능 아이디어를 내는 데 도움이 되며, 자동으로 축적될수록 팀원이 스스로 티켓을 만들고 곧바로 실행할 수 있는 기반이 된다 [1:14:36]

🧾 결론

  • 이 Paper Club의 중심축은 “더 많은 데이터와 계산”만이 아니라, 어떤 데이터 분포를 만들고 어떤 방식으로 학습 신호를 유지하며 어떤 기준으로 결과를 검증할 것인가에 있다.
  • LLM self-play는 새로운 RL task를 자동 생성해 학습을 이어가는 유망한 방향이지만, vanilla self-play는 artificial complexity와 plateau 문제에 부딪히며, target problem과 관련된 synthetic task를 만들도록 유도하는 보정이 필요하다고 정리된다.
  • BioAI 사례는 bitter lesson이 생물학에도 상당 부분 적용될 수 있음을 시사하지만, 발표 기준으로도 downstream 분석에는 아직 handcrafted feature가 남아 있어 “완전한 대체”보다는 “스케일링 가능한 보완·확장”에 가깝다.
  • Formal verification은 AI 수학 성과가 커질수록 더 중요해진다. 비형식적 설명은 중간 단계를 생략할 수 있지만, Lean 같은 정리 증명기는 모든 논리 단계를 명시해야 하므로 AI 결과의 검증 가능성을 높이는 기반이 된다.
  • 검증 필요: ESM Fold 2의 AlphaFold 3 대비 성능 수치, self-play 실험의 pass@ 향상, StreamRAG latency 감소 수치 등은 발표 내용 기준으로 요약했으며, 실제 투자·연구 판단에는 원 논문과 재현 결과 확인이 필요하다.

📈 투자·시사 포인트

  • LLM 분야에서는 단순히 더 큰 모델을 사전학습하는 경쟁뿐 아니라, self-play, synthetic task generation, RL post-training, test-time compute처럼 “학습 신호를 어떻게 계속 만들 것인가”가 중요한 투자·연구 축이 될 가능성이 크다.
  • BioAI에서는 단백질 서열 데이터의 확장, single-sequence 구조 예측, 항체·치료제 설계, wet lab 검증을 잇는 파이프라인이 핵심 기회로 보인다. 특히 MSA가 약한 영역에서 pretrained representation이 강점을 보인다는 점은 신약 개발 자동화에 시사점이 있다.
  • Formal verification은 AI가 만든 수학 증명, 코드, 과학 모델을 신뢰 가능한 산출물로 바꾸는 인프라 성격을 가진다. Lean, mathlib, 프로그램 specification, 검증 가능한 코딩 도구는 장기적으로 AI 개발 스택의 중요한 신뢰 계층이 될 수 있다.
  • 실시간 음성 AI와 StreamRAG 논의는 모델 성능만큼 latency와 hallucination 관리가 제품 품질을 좌우한다는 점을 보여준다. 발표 기준으로 작은 latency 개선도 production 환경에서는 사용자 경험 차이로 이어질 수 있다.
  • 종합하면, 향후 AI 인프라의 유망 영역은 “더 큰 모델” 자체보다 자기개선형 학습 루프, 생물학 같은 고가치 과학 도메인 적용, 그리고 결과를 검증 가능한 형태로 고정하는 formal verification 계층에 더 가까워 보인다.

⚠️ 불확실하거나 확인이 필요한 부분

  • ESM Cambrian, ESM Fold 2, AlphaFold 3 비교에서 언급된 수치와 지표는 발표자가 요약한 기준이므로, 실제 논문 표·벤치마크 조건·평가 세트가 동일한지 원문 확인이 필요하다.
  • “single-sequence ESM Fold 2가 항체 design task에서 AlphaFold 3를 50 대 47 수준으로 앞선다”는 비교는 특정 조건의 결과일 수 있으므로, 일반적인 항체 설계 성능 우위로 확대 해석하면 안 된다.
  • OpenAI와 DeepMind가 에르되시 문제 등 연구 수준 수학 문제를 해결하거나 검증했다는 언급은 영상 내 설명 기준이며, 정확한 문제명·검증 방식·형식화 여부는 별도 확인이 필요하다.
  • 자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
  • 영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
  • 검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.

✅ 액션 아이템

  • ESM Cambrian·ESM Fold 2 논문의 원문에서 scaling curve, 데이터 규모, long-distance contact, DOCQ pass rate 조건을 확인한다.
  • LLM self-play 파트에서 vanilla self-play, artificial complexity, self-guided self-play의 보상 구조를 별도 비교 표로 정리한다.
  • StreamRAG의 핵심 설계 선택지를 fixed interval RAG, model-based trigger, partial query retrieval quality 평가로 나누어 정리한다.
  • Lean 관련 사례를 수학 증명, 프로그램 검증, Torch-Lean, verified coding으로 분류해 후속 학습 주제로 분리한다.

❓ 열린 질문

  • 인간이 만든 데이터와 해법 공간만으로 LLM이 충분히 높은 지능에 도달할 수 있는지, 아니면 AlphaZero식 자기플레이와 비인간 편향 탐색이 필수적인가요?
  • ICL, LoRA, SFT처럼 샘플 수에 따라 최적 방법이 갈리는 현재 학습 방식 대신, 인간의 지속 학습처럼 안정적으로 intelligence per sample을 높이는 절차가 가능할까요?
  • 단백질 언어 모델에서 관찰된 scaling law가 구조 예측을 넘어 실제 약물 설계와 wet lab 성공률 향상까지 얼마나 강하게 이어질까요?

관련 문서

공통 태그와 주제 흐름을 기준으로 같이 보면 좋은 문서를 이어서 제안합니다.