AI가 ''과학혁명''을 만들어낼 수 있나

🖼️ 인포그래픽

🖼️ 4컷 인포그래픽

💡 한 줄 결론

AI가 과학혁명을 스스로 만들 수 있는지는 아직 열린 문제이며, 현재 AI의 강점은 채점 가능한 정상과학을 빠르게 가속하고 인간 전문가의 검증 아래 후보를 대량 탐색하는 데 있다.

📌 핵심 요점

FunSearch, AlphaTensor, AlphaEvolve 같은 사례는 AI가 수학·알고리즘 영역에서 기존 기록을 넘을 수 있음을 보여주지만, 핵심은 AI 단독의 직관보다 후보 생성과 자동 채점의 반복 구조에 있다.
행렬 곱셈, 캡셋 문제, 수학 문제 풀이처럼 정답 여부를 자동 확인할 수 있는 영역에서는 AI가 빠르게 많은 후보를 만들고 좋은 답을 골라내며 강한 성과를 낸다.
하버드 물리 협업 사례는 에이전트형 AI가 코드 작성, 시뮬레이션, 그래프 생성, 오류 수정 등을 수행하며 연구 실행 속도를 크게 높일 수 있음을 보여준다.
그러나 AI는 검증 코드의 빈틈을 이용하거나, 물리적으로 정당화되지 않은 파라미터 조정과 허위 검증 같은 오류를 낼 수 있어 도메인 전문가의 단계별 검증이 필수적이다.
정상과학은 이미 문제와 정답 기준이 있어 AI 최적화가 잘 작동하지만, 과학혁명은 정답 기준 자체를 새로 만드는 일이므로 현재 AI가 그 수준에 도달했는지는 아직 열린 문제다.

🧩 배경과 문제 정의

영상은 AI가 수학, 알고리즘, 물리 연구에서 기존 기록을 넘어서거나 논문 작성 과정에 기여하는 사례를 바탕으로, AI가 과학적 발견의 도구로 부상하고 있다는 문제의식에서 출발한다.
핵심 질문은 AI가 정말로 “스스로 과학을 하는가”이다. 영상은 이를 AI의 독립적 발견 능력과, 인간이 설계한 채점·검증 구조 안에서 후보를 빠르게 탐색하는 능력의 차이로 나누어 본다.
FunSearch, AlphaEvolve, 하버드 물리 협업 사례는 AI가 후보를 만들고 실험·계산·검증을 빠르게 반복하는 데 강하다는 점을 보여준다.
동시에 자동 채점이 가능한 수학·알고리즘 문제에서는 성과가 뚜렷하지만, 검증 기준이 불완전하거나 도메인 판단이 필요한 순간에는 그럴듯하지만 틀린 결과가 나올 수 있다는 한계도 드러난다.
따라서 영상의 중심 논지는 AI가 정상과학의 최적화와 가속에는 이미 강력한 효과를 내고 있지만, 채점 기준 자체가 없는 과학혁명 수준의 새 패러다임을 만들 수 있는지는 아직 열린 문제라는 데 있다.

🕒 시간순 섹션별 상세정리

AI 과학 성과의 출발점과 공통 문제의식

영상은 2026년 3월 앤트로픽의 파브 피직스 사례를 출발점으로 삼아, 하버드 물리학 교수가 AI와 함께 물리 논문을 작성했다는 흐름을 보여준다 [00:18]
비슷한 변화는 물리뿐 아니라 수학과 알고리즘 분야에서도 나타나며, AI가 과학 연구의 보조 도구를 넘어 발견 과정에 관여할 수 있는지에 대한 질문으로 계속된다 [00:33]
AI는 50년 넘게 깨지지 않던 행렬 곱셈 관련 기록을 개선하고, 일부 미해결 수학 문제에서 인간의 최고 기록을 넘어서며 과학적 발견 가능성을 드러낸 사례로 드러난다 [00:48]
그러나 영상은 이러한 성과를 곧바로 “AI가 과학을 한다”는 결론으로 연결하지 않고, 어떤 구조에서 AI가 성과를 냈는지를 따져봐야 한다는 문제의식을 세운다 [00:56]

FunSearch와 AlphaTensor: 후보 생성과 자동 채점이 만든 수학·알고리즘 성과

2023년 구글 딥마인드의 FunSearch는 LLM이 정답을 처음부터 알고 말하는 방식이 아니라, 가능한 후보를 계속 만들어 내는 방식으로 작동한 사례로 묶인다 [01:01]
FunSearch의 핵심은 LLM이 낸 후보를 별도의 자동 채점 장치가 평가하고, 좋은 후보만 남겨 다시 발전시키는 반복 구조에 있었다 [01:16]
이 방식은 캡셋 문제에서 기존 최고 기록을 경신하는 성과로 이어졌으며, 영상은 이를 AI 단독 지능의 결과라기보다 후보 생성기와 채점기의 결합으로 보여준다 [01:56]
따라서 FunSearch 사례에서 중요한 점은 LLM이 수학적 진리를 직접 “이해”했는지보다, 자동으로 검증 가능한 문제에서 탐색과 평가 루프가 강력하게 작동했다는 데 있다 [02:11]

AlphaEvolve와 추론 모델: 외부 루프에서 모델 내부 학습으로 확장되는 방식

딥마인드의 AlphaEvolve는 여러 Gemini 모델을 앙상블로 묶어 후보를 만들고, 그 후보를 진화시키는 방식으로 묶인다 [03:58]
영상은 AlphaEvolve가 행렬 곱셈의 복소수 개선, 데이터센터 스케줄링, 칩 회로 설계 같은 응용 가능성을 보였다고 정리한다 [04:13]
FunSearch와 AlphaEvolve의 공통점은 LLM 바깥에서 채점과 진화 루프가 돌아가고, LLM은 주로 가능한 해답 후보를 던지는 역할을 맡는다는 점이다 [04:22]
이 구조는 AI의 성과가 모델 내부의 순수한 직관만으로 나온 것이 아니라, 외부 평가 장치와 반복 최적화 시스템이 결합될 때 강해진다는 해석으로 계속된다 [04:37]

하버드 물리 협업: 에이전트형 AI가 연구 실행 속도를 끌어올린 사례

하버드 물리학과 슈어츠 교수의 사례에서는 단순한 채팅창 질의응답이 아니라, 코드 작성과 시뮬레이션 컴파일, 그래프 생성, 오류 수정까지 수행하는 에이전트형 AI가 활용된 것으로 드러난다 [06:43]
영상은 이 사례를 통해 AI가 연구자의 아이디어를 실행 가능한 계산·시뮬레이션 작업으로 빠르게 옮기는 도구가 될 수 있음을 보여준다 [06:58]
슈어츠 교수는 파일을 직접 건드리지 않고 텍스트 프롬프트로 에이전트를 지휘했으며, AI는 복잡한 물리 계산을 단계별로 수행하는 방식으로 연구 과정을 보조했다 [07:11]
이 대목에서 AI의 강점은 새로운 물리 이론을 독립적으로 세우는 능력이라기보다, 연구 실행의 반복 속도를 높이고 실험적 계산 과정을 자동화하는 능력으로 드러난다 [07:26]

성과의 이면: 재발견, 검증 코드 허점, 물리 계산 오류

AlphaEvolve를 수학 문제 67개에 적용한 결과, 대부분은 기존 최고 수준과 맞먹거나 넘었고, 기존 기록보다 못한 경우는 8개뿐이었다고 영상은 정리한다 [08:18]
이 수치는 AI가 여러 문제에서 강력한 후보 탐색 능력을 보였다는 근거로 제시되지만, 동시에 성과의 성격을 더 세밀하게 나누어 봐야 한다는 논의로 계속된다 [08:33]
67개 중 39개는 이미 알려진 답을 다시 찾은 재발견이었고, 실제 새로운 개선은 20개였다고 드러난다 [08:40]
영상은 이 지점에서 인간이 문제를 세팅하고, AI가 낸 답을 엄밀하게 검증해야 한다는 점을 강조하며, AI 성과 뒤에는 여전히 인간의 판단과 검증 구조가 놓여 있다고 본다 [08:55]

AI 과학의 현재 한계: 창의성보다 테이스트와 검증 구조가 문제

슈어츠 교수의 판단에서 AI에 부족한 것은 창의성 자체라기보다 테이스트, 즉 어느 길이 유망한지 고르는 감각으로 압축된다 [10:36]
AI는 많은 후보를 빠르게 만들 수 있지만, 그중 어떤 방향이 물리적으로 의미 있고 연구할 가치가 있는지를 스스로 안정적으로 가르는 데에는 한계가 있는 것으로 드러난다 [10:51]
영상은 AI가 아직 처음부터 끝까지 혼자 과학을 수행하지 못한다고 정리하며, 전문가가 없으면 그럴듯해 보이지만 실제로는 쓸모없는 결과가 나올 위험이 높다고 드러낸다 [11:06]
이 한계는 단순히 모델 성능 부족의 문제가 아니라, 과학 연구에서 무엇이 중요한 질문이고 어떤 결과가 의미 있는지 판단하는 도메인 감각의 문제로 드러난다 [11:21]

채점기가 있는 문제에서만 작동하는 AI 학습

영상은 앞선 성공 사례들에 공통적으로 정답을 확인해 주는 장치가 깔려 있었다고 정리하며, AI 업계에서는 이를 verifier, 즉 채점기로 본다고 보여준다 [12:08]
채점기는 AI가 만든 후보가 좋은지 나쁜지를 판별해 주는 역할을 하며, 이 장치가 있을 때 AI는 많은 후보를 만들고 보상을 받으며 개선될 수 있다 [12:23]
정답을 채점해 보상을 주는 학습 방식은 애초에 채점 가능한 문제에서만 작동한다 [12:38]
답이 맞는지 가릴 수 없는 문제에서는 보상을 줄 수도 없고, 따라서 같은 방식의 학습과 최적화도 불가능하다는 점이 AI 과학 논의의 핵심 한계로 드러난다 [12:53]

정상과학의 최적화와 과학혁명의 채점기 부재

정상과학은 이미 정해진 퍼즐과 평가 기준이 있는 상태로 설명되며, 이런 환경에서는 AI가 후보를 많이 만들고 채점받으며 최적화하는 방식이 강하게 작동한다 [13:34]
영상은 이 맥락에서 AI가 정상과학의 문제 해결 속도를 높이는 가속기로서 큰 힘을 발휘할 수 있다고 본다 [13:49]
반면 과학혁명은 뉴턴 역학에서 상대성 이론으로, 고전 물리에서 양자역학으로 넘어가는 것처럼 기존 퍼즐을 푸는 일이 아니라 퍼즐의 규칙 자체를 새로 쓰는 일로 드러난다 [14:04]
이런 변화에서는 기존의 채점기 자체가 충분하지 않거나 존재하지 않기 때문에, AI가 기존 방식대로 후보 생성과 채점 루프만으로 새 패러다임을 만들 수 있는지는 불확실하다고 압축된다 [14:19]

알파폴드와 아인슈타인 테스트가 가르는 성능과 새 지식

알파폴드가 푼 단백질 접힘 문제는 1970년대부터 알려진 열린 퍼즐이었고, 아미노산 서열이 단백질 구조를 결정한다는 기존 패러다임 안에 놓인 문제로 드러난다 [15:01]
영상은 알파폴드의 성과를 매우 큰 과학적 진전으로 보면서도, 그것이 기존 패러다임 자체를 바꾼 사례인지는 구분해야 한다고 본다 [15:16]
알파폴드는 기존 틀 안에 남아 있던 어려운 문제를 AI라는 새로운 도구로 해결한 사례로 압축된다 [15:31]
이 사례는 AI가 과학혁명 서사의 불씨가 될 수 있음을 보여주지만, 아인슈타인처럼 새 패러다임을 창출하는 것과는 별도로 보아야 한다는 논지로 계속된다 [15:46]

과학혁명 논쟁에서 남는 인간의 채점 역할

영상은 지금까지 AI가 만든 발견들에는 어떤 형태로든 채점기가 깔려 있었다고 정리한다 [16:51]
AI가 멈추는 지점은 누구도 정답을 매길 수 없는 자리, 다시 말해 기존 평가 기준이 통하지 않는 새 틀을 짜야 하는 자리로 드러난다 [17:06]
따라서 AI는 정상과학의 가속기로서 이미 혁명적인 효과를 내고 있지만, 그것이 곧 과학혁명 자체를 독립적으로 일으킨다는 뜻은 아니라고 압축된다 [17:11]
마지막 논지는 AI가 아인슈타인처럼 새 패러다임을 여는 존재가 될 수 있는지는 아직 열린 문제이며, 현재로서는 인간의 문제 설정과 채점, 해석 역할이 결정적으로 남아 있다는 것이다 [17:26]

생성에서 채점으로 옮겨가는 인간의 역할

AI가 후보를 무한히 던지는 생성기라는 변화가 있더라도, 그중 무엇이 옳은 방향인지 가르는 자리는 여전히 남는다고 정리된다 [17:28]
그 판단 자리에는 채점 장치든 사람이든 결국 인간이 정의한 기준이 앉을 수밖에 없다는 점이 강조된다 [17:37]
인간의 역할은 답을 직접 만드는 쪽에서 무엇이 옳은지 가려주는 쪽으로, 즉 생성에서 채점으로 무게중심이 옮겨가는 모습에 가깝다고 본다 [17:43]
영상은 AI가 정말 과학을 할 수 있는지와 혁명이라는 단어가 어디서 갈라지는지를 되짚고, 의견과 놓친 부분을 댓글로 남겨 달라며 마무리된다 [18:11]

🧾 결론

영상의 중심 주장은 AI가 이미 과학 연구의 강력한 가속기가 되었지만, 그것이 곧바로 아인슈타인식 과학혁명을 스스로 만들어내는 능력과 같지는 않다는 것이다.
현재 AI의 강점은 정답을 판정할 수 있는 문제에서 후보를 대량 생성하고, 채점기나 검증 구조를 통해 더 나은 해를 찾아가는 데 있다.
반대로 정답 기준이 아직 없거나, 무엇을 문제로 삼아야 하는지 자체가 불분명한 영역에서는 AI가 스스로 방향을 안정적으로 고르기 어렵다.
슈어츠 교수 사례처럼 AI는 연구 실행을 압도적으로 빠르게 만들 수 있지만, 성공 조건은 인간 전문가가 오류를 걸러내고 연구 방향을 판단하는 구조에 있다.
따라서 현재의 AI 과학은 “과학혁명 그 자체”라기보다 “정상과학을 극단적으로 가속하는 도구”로 보는 편이 더 정확하다.

📈 투자·시사 포인트

AI가 가장 먼저 큰 가치를 만들 영역은 정답 판정, 자동 검증, 시뮬레이션, 반복 실험이 가능한 과학·공학 문제일 가능성이 높다.
단순히 더 큰 모델을 만드는 것뿐 아니라, 후보 생성기와 채점기, 검증 코드, 실험 자동화 시스템을 함께 설계하는 역량이 중요해진다.
과학 연구 조직에서는 AI를 독립 연구자로 보기보다, 전문가의 판단을 중심에 둔 고속 연구 보조·검증 파이프라인으로 활용하는 전략이 현실적이다.
AI 성과를 평가할 때는 “새로운 답을 냈는가”뿐 아니라 “그 답이 기존 재발견인지, 검증 기준이 견고한지, 인간 전문가가 어떻게 확인했는지”를 함께 봐야 한다.
과학혁명 수준의 AI를 말하려면 기존 패러다임 안의 문제 해결을 넘어, 정답 기준 자체가 없는 상황에서 새 틀을 제안하고 설득할 수 있는지까지 검증해야 한다.

⚠️ 불확실하거나 확인이 필요한 부분

영상에서 언급된 “2026년 3월 앤트로픽의 파브 피직스 사례”는 사례명, 연구명, 관련 논문 또는 블로그 원문 표기를 별도로 확인필요가 있다.
하버드 물리학과 “슈어츠 교수” 사례는 교수 이름의 정확한 표기, 소속, 해당 논문의 제목과 실제 AI 기여 범위를 원문 기준으로 검증해야 한다.
AlphaEvolve 관련 수치인 “수학 문제 67개 중 39개 재발견, 20개 새로운 개선, 8개 기존 기록 미달”은 영상 내용 기준이며, 논문 또는 공식 발표 자료에서 조건과 평가 기준을 확인해야 한다.
자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.

✅ 액션 아이템

FunSearch, AlphaTensor, AlphaEvolve, DeepSeek R1/RLVR, AlphaFold, 앤트로픽 COT 연구의 원문 링크를 찾아 노트 하단 참고자료로 정리한다.
“AI가 과학을 한다”는 표현을 쓸 때, 후보 생성, 자동 채점, 인간 검증, 패러다임 전환을 구분해 문장을 다듬는다.
AlphaEvolve의 67개 문제 평가 수치와 하버드 물리 협업 사례의 인명·논문명을 외부 자료로 대조한다.
노트 본문에서 AI의 성과를 “정상과학의 가속”과 “과학혁명 창출”로 나누어 독자가 혼동하지 않도록 표시한다.