YouTubeSequoia Capital·2026년 6월 24일·

Memory and Continual Learning: Engram''s Dan Biderman and Jessy Lin

Quick Summary

Memory and Continual Learning의 핵심은 더 큰 범용 모델보다, 조직과 개인의 업무 맥락을 시간이 지나며 실제로 배워 어제보다 더 유용해지는 모델을 만드는 데 있다.

영상 보기

클릭 전까지는 가벼운 미리보기만 먼저 불러옵니다.

원본 열기

🖼️ 인포그래픽

Memory and Continual Learning: Engram''s Dan Biderman and Jessy Lin 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

Memory and Continual Learning: Engram''s Dan Biderman and Jessy Lin 내용을 설명하는 본문 이미지

💡 한 줄 결론

Memory and Continual Learning의 핵심은 더 큰 범용 모델보다, 조직과 개인의 업무 맥락을 시간이 지나며 실제로 배워 어제보다 더 유용해지는 모델을 만드는 데 있다.

📌 핵심 요점

  1. 현재 모델의 병목은 원시 지능 부족만이 아니라, 기업·팀·개인마다 다른 업무 방식, 우선순위, 암묵지, 변화하는 맥락을 안정적으로 익히지 못하는 데 있다.
  2. 긴 프롬프트, 대화 기록, RAG, 외부 데이터베이스만으로는 반복적인 검색·재독해 비용이 커지고, 모델이 어떤 정보를 먼저 떠올려야 하는지까지 해결하기 어렵다.
  3. Engram이 제시하는 방향은 워크스페이스 문서, 상호작용, 피드백, 작업 기록을 바탕으로 팀별·개인별 모델이 일부 지식을 가중치나 어댑터에 내재화하도록 만드는 것이다.
  4. 핵심 난제는 모든 정보를 모델 안에 넣는 것이 아니라, 반복적으로 필요한 업무 방식·선호·절차는 내부화하고, 일시적이거나 최신성 관리가 중요한 정보는 외부 도구와 문서로 남기는 경계를 정하는 일이다.
  5. 지속학습이 제대로 작동하려면 기존 프런티어 모델 확장과 다른 인프라, 사용자 피드백 루프, 개인화된 학습 신호, 메모리 통제권이 필요하다.

🧩 배경과 문제 정의

  • 현재 모델은 이미 높은 수준의 지능을 보이지만, 실제 업무에서 유용하게 쓰이려면 조직과 업무 맥락처럼 계속 변하는 정보를 깊게 익혀야 한다.
  • 별도 데이터베이스, 긴 프롬프트, 컨텍스트 윈도우에 기대는 방식은 토큰 비용과 혼란을 키우며, 조직의 암묵적 우선순위나 일하는 방식을 안정적으로 담아내기 어렵다.
  • 핵심 문제는 어떤 지식을 도구와 문서로 외부화하고, 어떤 지식을 모델 가중치 안에 내재화할지 구분하는 데 있다.
  • 지속 학습은 기업·팀·개인별 맥락을 모델이 시간에 따라 흡수해, 더 적은 컨텍스트만으로도 더 정확하게 행동하도록 만드는 방향이다.

🕒 시간순 섹션별 상세정리

1. 사전학습 이후에도 계속 학습하는 모델 문제

  • 출발점은 기업의 비공개 데이터를 모델이 프랑스 수도나 Python 작성법처럼 깊이 익힐 수 있는가라는 질문이다 [00:09]
  • 핵심 과제는 사전학습과 후학습에서 일반화가 형성되는 과정을 더 정밀하게 통제하는 것이다 [00:24]

2. 외부 메모리와 컨텍스트 엔지니어링의 한계

  • 현재 해법은 거대한 프롬프트, 긴 대화 기록, 재구성된 컨텍스트에 크게 의존한다 [02:04]
  • 도구 사용과 컨텍스트 엔지니어링은 일부 문제를 완화하지만, 그 자체로는 충분한 해법이 아니다 [02:19]

3. 팀 워크스페이스 문맥을 가중치로 내재화하는 구조

  • Notion, Microsoft, Harvey 같은 워크스페이스에는 팀 문서와 장기 작업 기록이 계속 축적된다 [03:37]
  • 에이전트와의 상호작용, 피드백, 업무 산출물 역시 모델이 학습할 수 있는 업무 맥락이 된다 [03:52]

4. 내부화할 지식과 외부화할 도구의 경계

  • 모든 지식과 도구를 모델 내부에 넣을 필요는 없으며, 일부는 계속 외부에 남아야 한다 [05:31]
  • 어려운 지점은 무엇을 가중치로 내재화하고 무엇을 외부 도구로 유지할지 가르는 일이다 [05:46]

5. 토큰 비용 절감과 맞춤 업무 역량의 시간차

  • 회사의 작업 방식을 먼저 가중치에 학습시키면 초기 compute 비용은 더 든다 [06:50]
  • 대신 매 추론마다 넣어야 하는 컨텍스트와 반복적인 검색·재독해 부담은 줄어든다 [07:05]

6. 사실 암기와 개념 학습을 분리하기 어려운 이유

  • 복잡한 개념을 구성하려면 일정 수준의 사실 기억이 필요하다 [09:24]
  • 핵심은 모든 사실을 저장하는 것이 아니라, 기억할 가치가 있는 사실을 선별하는 일이다 [09:39]

7. 모델 기억은 외부 맥락 처리만으로 충분하지 않다

  • 사용자가 제공한 맥락은 신중히 다뤄지지만, 범용 모델은 이를 익숙한 자기 기억이 아니라 낯선 주체의 정보처럼 처리한다 [12:03]
  • 그래서 사실·이야기·세부 정보가 일정 주기로 모델 내부에 통합되어야 한다는 필요가 생긴다 [12:18]

8. 꿈의 비유와 상호작용 밖의 재가공

  • 꿈은 완전한 논리 과정은 아니지만, 사회적 상황과 세계의 제약을 시험하는 재구성 과정으로 볼 수 있다 [13:21]
  • 이 비유는 모델도 실제 상호작용 밖에서 경험을 다시 처리하고 정리할 필요가 있음을 보여준다 [13:36]

9. 개인별 모델은 사적이고 충돌하는 작업 방식을 학습해야 한다

  • 프런티어 랩은 더 크고 더 지능적인 하나의 범용 모델을 만드는 데 집중한다 [15:18]
  • 반면 개인별 모델의 관점에서는 각 사용자가 고유한 방식과 데이터를 가지며, 그 차이를 학습해야 한다 [15:33]

10. 지속학습에는 프런티어 랩과 다른 우선순위와 인프라가 필요하다

  • 프런티어 랩의 최우선 목표는 코딩·수학 등에서 강력한 하나의 범용 모델을 만드는 것이다 [16:33]
  • 이 목표는 경제 자동화나 장기 난제 해결 같은 더 큰 방향성과 연결된다 [16:48]

11. 지속학습의 동기는 지능의 나머지 영역과 인간 기억의 차이에 있다

  • 모델이 충분히 똑똑해진 뒤 남는 핵심 과제는 raw intelligence 자체보다 새로운 것을 배우는 능력이다 [18:47]
  • 실제 유용성은 지능의 중심부가 아니라 가장자리의 부족한 요소를 얼마나 채우는지에 좌우된다 [19:02]

12. 기억은 스케일링만으로 생기는지, 별도 구조가 필요한지의 문제로 계속된다

  • LLM이 하나의 압도적 co-processor처럼 모든 계산을 흡수할지에 대한 아키텍처 문제가 남는다 [21:44]
  • 또는 모델 내부에 여러 기능적 하위 구조가 emergent하게 생겨날 가능성도 있다 [21:59]

13. 메모리는 정확도와 컴퓨트의 교환 문제에서 출발한다

  • 메모리에는 공짜 점심이 없으며, 정확도와 저장 방식 사이에는 tradeoff가 생긴다 [24:00]
  • 더 나은 개인화를 위해서는 기존 파일을 반복해서 읽는 것보다 새로운 컨텍스트에 추가 컴퓨트를 쓰는 접근이 필요하다 [24:15]

14. 앱 레이어의 수요는 사실 암기보다 업무 방식 내재화에 가깝다

  • 사용자는 조직의 사실뿐 아니라 CI 방식, 브랜드 스타일, 업무 프로세스까지 모델이 배우길 원한다 [24:47]
  • 핵심은 특정 환경에서 곧바로 쓸 수 있는 맥락을 모델이 이미 갖추는 것이다 [25:02]

15. RAG와 weight update의 경계는 아직 풀리지 않은 문제다

  • RAG와 모델 weight 업데이트 사이에는 역할 분담 문제가 있다 [26:54]
  • 무엇을 외부 검색으로 남기고 무엇을 모델 안에 내재화할지는 아직 명확하지 않다 [27:09]
  • 호텔 방 번호처럼 오래된 일회성 정보는 신경 조직에 남길 필요가 작다 [27:21]
  • 현재 집 비밀번호처럼 반복적으로 필요한 정보는 일정 기간 내재화할 가치가 있다 [27:36]

16. 검색과 캐싱은 연상·주소 지정·압축 효율에서 한계를 드러낸다

  • RAG만 계속 쓰면 팀원의 연구와 관련된 추상적 연결을 먼저 떠올리는 능력이 약해진다 [28:55]
  • 사용자가 직접 묻지 않은 관련 지식까지 연결하는 association은 weight 안에서 더 자연스럽게 일어난다 [29:10]
  • 검색 시스템의 핵심 한계는 무엇을 저장할지가 아니라 무엇을 어떻게 query할지다 [29:31]
  • 모델이 애초에 어디를 찾아야 하는지 모르면 retrieval 품질도 제한된다 [29:46]

17. Continual learning의 돌파구는 어제보다 똑똑해진 모델이다

  • 메모리의 ChatGPT 순간에 가까운 후보는 시간이 지날수록 배울 수 있는 인턴형 모델이다 [31:37]
  • 현재의 정교한 context engineering만으로는 그런 수준의 지속적 향상에 도달하기 어렵다 [31:52]
  • 중요한 변화는 모델이 실제로 어제와 달라지고 더 똑똑해지는 상태다 [32:07]
  • 단순히 더 많은 컨텍스트를 붙이는 방식과는 다른 질적 차이가 필요하다 [32:22]

18. 메모리 지갑은 개인화와 통제 사이의 긴장을 만든다

  • token wallet처럼 여러 회사와 앱을 오가는 memory bank나 memory wallet 개념이 떠오른다 [34:25]
  • 적절한 제품 형태와 경계는 아직 확정되지 않았다 [34:40]
  • 개인 맥락과 업무 맥락이 섞이면 부적절한 연결이 생길 수 있다 [34:53]
  • GPU 모델 학습 경험이 개인 쇼핑 추천에 끼어드는 식의 무관한 기억은 사용자 통제를 약화시킨다 [35:08]

19. 언어 모델의 우위와 멀티모달 통합 가능성

  • AI가 기업과 개인 생활에 더 깊게 들어갈수록 이를 적극적으로 구현하는 사람과 조직이 보상을 받는다 [36:00]
  • 2007년 무렵 AI는 통계적 학습 중심으로 이해됐다 [36:09]

20. 비전 중심 직관이 흔들린 이유와 언어 모델의 계산적 특성

  • 세계를 직접 경험하고 행동하는 능력, 특히 비전과 액션이 지능의 핵심이라는 직관이 강했다 [37:23]
  • ChatGPT 이후에는 자연어 처리 모델의 내부 작동 방식을 다시 보게 됐다 [37:38]

21. 생물학적 시각 우위와 디지털 환경의 정보 처리 평준화

  • 생물학에서는 눈을 통해 들어오는 광학 데이터의 처리 비트레이트가 청각·언어 데이터보다 훨씬 크다 [39:14]
  • 그래서 뇌에 도달하기 전부터 상당한 시각 처리가 일어난다는 가설이 제기된다 [39:29]

22. 개인화 모델과 Engram의 데이터 평면 인터페이스

  • 인간은 시각 편향이 강하지만 동물마다 우세한 감각 modality는 다르다 [41:18]
  • 따라서 뇌의 특정 modality 편향이 곧 컴퓨터 시스템의 효율적 처리 방식으로 이어지는 것은 아니다 [41:33]

🧾 결론

  • 이 대화에서 메모리는 단순한 대화 저장 기능이 아니라, 모델이 경험을 압축하고 중요한 패턴을 남겨 다음 작업에서 더 나은 판단을 하게 만드는 지속학습 문제로 다뤄진다.
  • 기업용 AI의 다음 개선 지점은 더 긴 컨텍스트를 붙이는 것보다, 회사의 업무 방식과 반복 지식을 모델이 이미 알고 있는 상태로 만드는 데 있을 수 있다.
  • RAG와 weight update의 역할 분담은 아직 명확히 풀리지 않았다. 어떤 지식은 검색되어야 하고, 어떤 지식은 모델의 직관처럼 작동해야 한다.
  • 지속학습의 가치는 비용 절감만이 아니라, 모델이 사용자와 조직의 맥락을 누적해 실제로 더 잘 맞는 동료처럼 변하는 데 있다.
  • 다만 최신성, 오류 수정, 사적 정보 보호, 회사 IP와 개인 스킬의 경계는 계속 검증과 설계가 필요한 영역이다.

📈 투자·시사 포인트

  • AI 애플리케이션의 차별화 축은 범용 모델 호출 능력에서, 특정 조직의 데이터·워크플로·피드백을 지속적으로 학습시키는 능력으로 이동할 수 있다.
  • 반복 검색과 긴 프롬프트에 의존하는 구조는 토큰 비용과 지연시간 부담이 커질 수 있어, 장기적으로는 업무 맥락을 더 압축적으로 저장·활용하는 인프라 수요가 커질 가능성이 있다.
  • Notion, Microsoft, Harvey처럼 업무 기록과 피드백이 쌓이는 워크스페이스는 지속학습 모델의 중요한 데이터 평면이 될 수 있다.
  • 개인화 AI가 확산되면 memory wallet, 회사별 메모리, 개인 스킬 이전, 데이터 소유권 같은 제품·거버넌스 문제가 함께 중요해진다.
  • 검증 필요: 지속학습이 실제 제품 환경에서 얼마나 안정적으로 성능을 높이고, 오류·망각·보안 문제를 통제할 수 있는지는 별도의 실험과 장기 사용 데이터가 필요하다.

⚠️ 불확실하거나 확인이 필요한 부분

  • “거대한 system prompt와 반복 검색을 줄이면 토큰 사용량이 경우에 따라 100배까지 줄어들 수 있다”는 주장은 영상 내 주장으로 보이며, 어떤 업무·모델·컨텍스트 길이·비교 기준에서 가능한 수치인지는 별도 검증이 필요하다.
  • KV cache가 짧은 Wikipedia 글 하나를 GPU HBM에서 수십 GB 상태로 부풀릴 수 있고, 70B Llama 전체 weight가 약 100GB 수준이라는 비교는 강한 정량 주장이다. 구체적인 모델 구조, precision, sequence length, batch 설정에 따라 달라질 수 있으므로 독립 확인이 필요하다.
  • “일부 강한 중국 모델이 state space 영감의 layer를 포함한다”는 언급은 모델명과 구현 세부가 제공되지 않았다. 실제 아키텍처 구성과 성능 trade-off는 원 논문·기술보고서 확인이 필요하다.
  • 자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
  • 영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
  • 검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.

✅ 액션 아이템

  • 조직 지식 중 무엇을 RAG·문서·도구로 남기고, 무엇을 모델 가중치나 adapter에 내재화할지 분류하는 기준표를 만든다.
  • 반복적으로 사용되는 팀 문서, 업무 절차, 피드백, 장기 프로젝트 기록, 에이전트 상호작용 로그를 지속 학습 후보 데이터로 inventory화한다.
  • 특정 팀·워크플로 하나를 골라 LoRA, prefix tuning, sparse adapter 등 가벼운 fine-tuning 방식으로 파일 재검색 대비 성능과 비용을 비교하는 파일럿을 설계한다.
  • 현재 에이전트 운영에서 매번 반복되는 system prompt, 검색 호출, 긴 컨텍스트 주입 구간을 측정해 토큰 비용 절감 가능성이 큰 영역을 찾는다.

❓ 열린 질문

  • 어떤 정보는 모델이 “알고 있어야” 하고, 어떤 정보는 필요할 때만 검색해야 하는가?
  • 오래되었거나 틀린 조직 지식이 가중치나 adapter에 들어갔을 때, 이를 어떻게 빠르고 안전하게 수정할 수 있는가?
  • 메모리와 지속 학습은 더 큰 모델과 더 많은 compute만으로 자연스럽게 생기는가, 아니면 별도의 memory architecture가 필요한가?

관련 문서

공통 태그와 주제 흐름을 기준으로 같이 보면 좋은 문서를 이어서 제안합니다.