Memory and Continual Learning: Engram''s Dan Biderman and Jessy Lin
Quick Summary
Memory and Continual Learning의 핵심은 더 큰 범용 모델보다, 조직과 개인의 업무 맥락을 시간이 지나며 실제로 배워 어제보다 더 유용해지는 모델을 만드는 데 있다.
영상 보기
클릭 전까지는 가벼운 미리보기만 먼저 불러옵니다.
🖼️ 인포그래픽
🖼️ 4컷 인포그래픽
💡 한 줄 결론
Memory and Continual Learning의 핵심은 더 큰 범용 모델보다, 조직과 개인의 업무 맥락을 시간이 지나며 실제로 배워 어제보다 더 유용해지는 모델을 만드는 데 있다.
📌 핵심 요점
- 현재 모델의 병목은 원시 지능 부족만이 아니라, 기업·팀·개인마다 다른 업무 방식, 우선순위, 암묵지, 변화하는 맥락을 안정적으로 익히지 못하는 데 있다.
- 긴 프롬프트, 대화 기록, RAG, 외부 데이터베이스만으로는 반복적인 검색·재독해 비용이 커지고, 모델이 어떤 정보를 먼저 떠올려야 하는지까지 해결하기 어렵다.
- Engram이 제시하는 방향은 워크스페이스 문서, 상호작용, 피드백, 작업 기록을 바탕으로 팀별·개인별 모델이 일부 지식을 가중치나 어댑터에 내재화하도록 만드는 것이다.
- 핵심 난제는 모든 정보를 모델 안에 넣는 것이 아니라, 반복적으로 필요한 업무 방식·선호·절차는 내부화하고, 일시적이거나 최신성 관리가 중요한 정보는 외부 도구와 문서로 남기는 경계를 정하는 일이다.
- 지속학습이 제대로 작동하려면 기존 프런티어 모델 확장과 다른 인프라, 사용자 피드백 루프, 개인화된 학습 신호, 메모리 통제권이 필요하다.
🧩 배경과 문제 정의
- 현재 모델은 이미 높은 수준의 지능을 보이지만, 실제 업무에서 유용하게 쓰이려면 조직과 업무 맥락처럼 계속 변하는 정보를 깊게 익혀야 한다.
- 별도 데이터베이스, 긴 프롬프트, 컨텍스트 윈도우에 기대는 방식은 토큰 비용과 혼란을 키우며, 조직의 암묵적 우선순위나 일하는 방식을 안정적으로 담아내기 어렵다.
- 핵심 문제는 어떤 지식을 도구와 문서로 외부화하고, 어떤 지식을 모델 가중치 안에 내재화할지 구분하는 데 있다.
- 지속 학습은 기업·팀·개인별 맥락을 모델이 시간에 따라 흡수해, 더 적은 컨텍스트만으로도 더 정확하게 행동하도록 만드는 방향이다.
🕒 시간순 섹션별 상세정리
1. 사전학습 이후에도 계속 학습하는 모델 문제
- 출발점은 기업의 비공개 데이터를 모델이 프랑스 수도나 Python 작성법처럼 깊이 익힐 수 있는가라는 질문이다 [00:09]
- 핵심 과제는 사전학습과 후학습에서 일반화가 형성되는 과정을 더 정밀하게 통제하는 것이다 [00:24]
2. 외부 메모리와 컨텍스트 엔지니어링의 한계
- 현재 해법은 거대한 프롬프트, 긴 대화 기록, 재구성된 컨텍스트에 크게 의존한다 [02:04]
- 도구 사용과 컨텍스트 엔지니어링은 일부 문제를 완화하지만, 그 자체로는 충분한 해법이 아니다 [02:19]
3. 팀 워크스페이스 문맥을 가중치로 내재화하는 구조
- Notion, Microsoft, Harvey 같은 워크스페이스에는 팀 문서와 장기 작업 기록이 계속 축적된다 [03:37]
- 에이전트와의 상호작용, 피드백, 업무 산출물 역시 모델이 학습할 수 있는 업무 맥락이 된다 [03:52]
4. 내부화할 지식과 외부화할 도구의 경계
- 모든 지식과 도구를 모델 내부에 넣을 필요는 없으며, 일부는 계속 외부에 남아야 한다 [05:31]
- 어려운 지점은 무엇을 가중치로 내재화하고 무엇을 외부 도구로 유지할지 가르는 일이다 [05:46]
5. 토큰 비용 절감과 맞춤 업무 역량의 시간차
- 회사의 작업 방식을 먼저 가중치에 학습시키면 초기 compute 비용은 더 든다 [06:50]
- 대신 매 추론마다 넣어야 하는 컨텍스트와 반복적인 검색·재독해 부담은 줄어든다 [07:05]
6. 사실 암기와 개념 학습을 분리하기 어려운 이유
- 복잡한 개념을 구성하려면 일정 수준의 사실 기억이 필요하다 [09:24]
- 핵심은 모든 사실을 저장하는 것이 아니라, 기억할 가치가 있는 사실을 선별하는 일이다 [09:39]
7. 모델 기억은 외부 맥락 처리만으로 충분하지 않다
- 사용자가 제공한 맥락은 신중히 다뤄지지만, 범용 모델은 이를 익숙한 자기 기억이 아니라 낯선 주체의 정보처럼 처리한다 [12:03]
- 그래서 사실·이야기·세부 정보가 일정 주기로 모델 내부에 통합되어야 한다는 필요가 생긴다 [12:18]
8. 꿈의 비유와 상호작용 밖의 재가공
- 꿈은 완전한 논리 과정은 아니지만, 사회적 상황과 세계의 제약을 시험하는 재구성 과정으로 볼 수 있다 [13:21]
- 이 비유는 모델도 실제 상호작용 밖에서 경험을 다시 처리하고 정리할 필요가 있음을 보여준다 [13:36]
9. 개인별 모델은 사적이고 충돌하는 작업 방식을 학습해야 한다
- 프런티어 랩은 더 크고 더 지능적인 하나의 범용 모델을 만드는 데 집중한다 [15:18]
- 반면 개인별 모델의 관점에서는 각 사용자가 고유한 방식과 데이터를 가지며, 그 차이를 학습해야 한다 [15:33]
10. 지속학습에는 프런티어 랩과 다른 우선순위와 인프라가 필요하다
- 프런티어 랩의 최우선 목표는 코딩·수학 등에서 강력한 하나의 범용 모델을 만드는 것이다 [16:33]
- 이 목표는 경제 자동화나 장기 난제 해결 같은 더 큰 방향성과 연결된다 [16:48]
11. 지속학습의 동기는 지능의 나머지 영역과 인간 기억의 차이에 있다
- 모델이 충분히 똑똑해진 뒤 남는 핵심 과제는 raw intelligence 자체보다 새로운 것을 배우는 능력이다 [18:47]
- 실제 유용성은 지능의 중심부가 아니라 가장자리의 부족한 요소를 얼마나 채우는지에 좌우된다 [19:02]
12. 기억은 스케일링만으로 생기는지, 별도 구조가 필요한지의 문제로 계속된다
- LLM이 하나의 압도적 co-processor처럼 모든 계산을 흡수할지에 대한 아키텍처 문제가 남는다 [21:44]
- 또는 모델 내부에 여러 기능적 하위 구조가 emergent하게 생겨날 가능성도 있다 [21:59]
13. 메모리는 정확도와 컴퓨트의 교환 문제에서 출발한다
- 메모리에는 공짜 점심이 없으며, 정확도와 저장 방식 사이에는 tradeoff가 생긴다 [24:00]
- 더 나은 개인화를 위해서는 기존 파일을 반복해서 읽는 것보다 새로운 컨텍스트에 추가 컴퓨트를 쓰는 접근이 필요하다 [24:15]
14. 앱 레이어의 수요는 사실 암기보다 업무 방식 내재화에 가깝다
- 사용자는 조직의 사실뿐 아니라 CI 방식, 브랜드 스타일, 업무 프로세스까지 모델이 배우길 원한다 [24:47]
- 핵심은 특정 환경에서 곧바로 쓸 수 있는 맥락을 모델이 이미 갖추는 것이다 [25:02]
15. RAG와 weight update의 경계는 아직 풀리지 않은 문제다
- RAG와 모델 weight 업데이트 사이에는 역할 분담 문제가 있다 [26:54]
- 무엇을 외부 검색으로 남기고 무엇을 모델 안에 내재화할지는 아직 명확하지 않다 [27:09]
- 호텔 방 번호처럼 오래된 일회성 정보는 신경 조직에 남길 필요가 작다 [27:21]
- 현재 집 비밀번호처럼 반복적으로 필요한 정보는 일정 기간 내재화할 가치가 있다 [27:36]
16. 검색과 캐싱은 연상·주소 지정·압축 효율에서 한계를 드러낸다
- RAG만 계속 쓰면 팀원의 연구와 관련된 추상적 연결을 먼저 떠올리는 능력이 약해진다 [28:55]
- 사용자가 직접 묻지 않은 관련 지식까지 연결하는 association은 weight 안에서 더 자연스럽게 일어난다 [29:10]
- 검색 시스템의 핵심 한계는 무엇을 저장할지가 아니라 무엇을 어떻게 query할지다 [29:31]
- 모델이 애초에 어디를 찾아야 하는지 모르면 retrieval 품질도 제한된다 [29:46]
17. Continual learning의 돌파구는 어제보다 똑똑해진 모델이다
- 메모리의 ChatGPT 순간에 가까운 후보는 시간이 지날수록 배울 수 있는 인턴형 모델이다 [31:37]
- 현재의 정교한 context engineering만으로는 그런 수준의 지속적 향상에 도달하기 어렵다 [31:52]
- 중요한 변화는 모델이 실제로 어제와 달라지고 더 똑똑해지는 상태다 [32:07]
- 단순히 더 많은 컨텍스트를 붙이는 방식과는 다른 질적 차이가 필요하다 [32:22]
18. 메모리 지갑은 개인화와 통제 사이의 긴장을 만든다
- token wallet처럼 여러 회사와 앱을 오가는 memory bank나 memory wallet 개념이 떠오른다 [34:25]
- 적절한 제품 형태와 경계는 아직 확정되지 않았다 [34:40]
- 개인 맥락과 업무 맥락이 섞이면 부적절한 연결이 생길 수 있다 [34:53]
- GPU 모델 학습 경험이 개인 쇼핑 추천에 끼어드는 식의 무관한 기억은 사용자 통제를 약화시킨다 [35:08]
19. 언어 모델의 우위와 멀티모달 통합 가능성
- AI가 기업과 개인 생활에 더 깊게 들어갈수록 이를 적극적으로 구현하는 사람과 조직이 보상을 받는다 [36:00]
- 2007년 무렵 AI는 통계적 학습 중심으로 이해됐다 [36:09]
20. 비전 중심 직관이 흔들린 이유와 언어 모델의 계산적 특성
- 세계를 직접 경험하고 행동하는 능력, 특히 비전과 액션이 지능의 핵심이라는 직관이 강했다 [37:23]
- ChatGPT 이후에는 자연어 처리 모델의 내부 작동 방식을 다시 보게 됐다 [37:38]
21. 생물학적 시각 우위와 디지털 환경의 정보 처리 평준화
- 생물학에서는 눈을 통해 들어오는 광학 데이터의 처리 비트레이트가 청각·언어 데이터보다 훨씬 크다 [39:14]
- 그래서 뇌에 도달하기 전부터 상당한 시각 처리가 일어난다는 가설이 제기된다 [39:29]
22. 개인화 모델과 Engram의 데이터 평면 인터페이스
- 인간은 시각 편향이 강하지만 동물마다 우세한 감각 modality는 다르다 [41:18]
- 따라서 뇌의 특정 modality 편향이 곧 컴퓨터 시스템의 효율적 처리 방식으로 이어지는 것은 아니다 [41:33]
🧾 결론
- 이 대화에서 메모리는 단순한 대화 저장 기능이 아니라, 모델이 경험을 압축하고 중요한 패턴을 남겨 다음 작업에서 더 나은 판단을 하게 만드는 지속학습 문제로 다뤄진다.
- 기업용 AI의 다음 개선 지점은 더 긴 컨텍스트를 붙이는 것보다, 회사의 업무 방식과 반복 지식을 모델이 이미 알고 있는 상태로 만드는 데 있을 수 있다.
- RAG와 weight update의 역할 분담은 아직 명확히 풀리지 않았다. 어떤 지식은 검색되어야 하고, 어떤 지식은 모델의 직관처럼 작동해야 한다.
- 지속학습의 가치는 비용 절감만이 아니라, 모델이 사용자와 조직의 맥락을 누적해 실제로 더 잘 맞는 동료처럼 변하는 데 있다.
- 다만 최신성, 오류 수정, 사적 정보 보호, 회사 IP와 개인 스킬의 경계는 계속 검증과 설계가 필요한 영역이다.
📈 투자·시사 포인트
- AI 애플리케이션의 차별화 축은 범용 모델 호출 능력에서, 특정 조직의 데이터·워크플로·피드백을 지속적으로 학습시키는 능력으로 이동할 수 있다.
- 반복 검색과 긴 프롬프트에 의존하는 구조는 토큰 비용과 지연시간 부담이 커질 수 있어, 장기적으로는 업무 맥락을 더 압축적으로 저장·활용하는 인프라 수요가 커질 가능성이 있다.
- Notion, Microsoft, Harvey처럼 업무 기록과 피드백이 쌓이는 워크스페이스는 지속학습 모델의 중요한 데이터 평면이 될 수 있다.
- 개인화 AI가 확산되면 memory wallet, 회사별 메모리, 개인 스킬 이전, 데이터 소유권 같은 제품·거버넌스 문제가 함께 중요해진다.
- 검증 필요: 지속학습이 실제 제품 환경에서 얼마나 안정적으로 성능을 높이고, 오류·망각·보안 문제를 통제할 수 있는지는 별도의 실험과 장기 사용 데이터가 필요하다.
⚠️ 불확실하거나 확인이 필요한 부분
- “거대한 system prompt와 반복 검색을 줄이면 토큰 사용량이 경우에 따라 100배까지 줄어들 수 있다”는 주장은 영상 내 주장으로 보이며, 어떤 업무·모델·컨텍스트 길이·비교 기준에서 가능한 수치인지는 별도 검증이 필요하다.
- KV cache가 짧은 Wikipedia 글 하나를 GPU HBM에서 수십 GB 상태로 부풀릴 수 있고, 70B Llama 전체 weight가 약 100GB 수준이라는 비교는 강한 정량 주장이다. 구체적인 모델 구조, precision, sequence length, batch 설정에 따라 달라질 수 있으므로 독립 확인이 필요하다.
- “일부 강한 중국 모델이 state space 영감의 layer를 포함한다”는 언급은 모델명과 구현 세부가 제공되지 않았다. 실제 아키텍처 구성과 성능 trade-off는 원 논문·기술보고서 확인이 필요하다.
- 자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
- 영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
- 검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.
✅ 액션 아이템
- 조직 지식 중 무엇을 RAG·문서·도구로 남기고, 무엇을 모델 가중치나 adapter에 내재화할지 분류하는 기준표를 만든다.
- 반복적으로 사용되는 팀 문서, 업무 절차, 피드백, 장기 프로젝트 기록, 에이전트 상호작용 로그를 지속 학습 후보 데이터로 inventory화한다.
- 특정 팀·워크플로 하나를 골라 LoRA, prefix tuning, sparse adapter 등 가벼운 fine-tuning 방식으로 파일 재검색 대비 성능과 비용을 비교하는 파일럿을 설계한다.
- 현재 에이전트 운영에서 매번 반복되는 system prompt, 검색 호출, 긴 컨텍스트 주입 구간을 측정해 토큰 비용 절감 가능성이 큰 영역을 찾는다.
❓ 열린 질문
- 어떤 정보는 모델이 “알고 있어야” 하고, 어떤 정보는 필요할 때만 검색해야 하는가?
- 오래되었거나 틀린 조직 지식이 가중치나 adapter에 들어갔을 때, 이를 어떻게 빠르고 안전하게 수정할 수 있는가?
- 메모리와 지속 학습은 더 큰 모델과 더 많은 compute만으로 자연스럽게 생기는가, 아니면 별도의 memory architecture가 필요한가?