Everything looks fine at 4-bit
Quick Summary
Everything looks fine at 4 bit처럼 4 bit 양자화 모델은 겉보기 출력이 멀쩡해도, 벤치마크가 잘 포착하지 못하는 사실 오류와 국소적 능력 붕괴를 숨길 수 있다.
영상 보기
클릭 전까지는 가벼운 미리보기만 먼저 불러옵니다.
🖼️ 인포그래픽
🖼️ 4컷 인포그래픽
💡 한 줄 결론
Everything looks fine at 4-bit처럼 4-bit 양자화 모델은 겉보기 출력이 멀쩡해도, 벤치마크가 잘 포착하지 못하는 사실 오류와 국소적 능력 붕괴를 숨길 수 있다.
📌 핵심 요점
- 영상은 Qwen 3 32B 모델을 BF16부터 거의 1-bit까지 여러 수준으로 양자화해, 모델 크기 축소가 실제 신뢰성에 어떤 영향을 주는지 비교한다.
- 8-bit와 26GB 수준에서는 디스크 크기가 크게 줄어도 perplexity, MMLU, ARC, GSM8K, Code Needle 등 주요 수치가 거의 유지되고, 출력 품질도 BF16과 구분하기 어려운 수준으로 보인다.
- Q5 KM부터는 벤치마크 숫자가 크게 흔들리지 않는데도 달 착륙 인물, Apollo 임무 범위, 별명 같은 작은 사실 왜곡이 나타나기 시작한다.
- 로컬 LLM에서 흔한 Q4KM은 19GB까지 줄어들며 전반 지표가 여전히 양호해 보이지만, 달에서 기타를 연주했다는 식의 그럴듯한 허위 사실을 만들어 벤치마크와 실제 신뢰성 사이의 간극을 드러낸다.
- Q3 이하에서는 특정 능력만 갑자기 무너지는 국소 실패, 언어 혼합, 반복 환각, 모델 정체성 붕괴가 나타나며, bit width가 낮아질수록 단순한 성능 저하가 아니라 예측하기 어려운 오류 양상으로 바뀐다.
🧩 배경과 문제 정의
- 로컬 LLM 사용 환경에서는 Ollama, LM Studio, 각종 튜토리얼을 통해 4-bit 양자화 모델을 실행하는 방식이 사실상 기본값처럼 자리 잡고 있다.
- 문제는 모델 크기가 줄어드는 과정에서 사용자가 실제로 무엇을 잃는지 잘 보이지 않는다는 점이다.
- 양자화가 극단적으로 강하면 모델 붕괴가 눈에 띄지만, 그 직전 단계에서는 문장 구조, 말투, 출력 형식이 정상처럼 보여도 사실 오류가 섞일 수 있다.
- 이 영상은 같은 Qwen 3 32B 모델을 BF16부터 거의 1-bit 수준까지 여러 방식으로 줄여 비교하면서, 겉보기 정상성과 실제 신뢰성 사이의 차이를 확인하려는 실험이다.
- 특히 달 착륙 관련 사실 질문처럼 검증 가능한 프롬프트와 Perplexity, MMLU, ARC Challenge, Code Needle 같은 벤치마크를 함께 보면서, 숫자 성능이 크게 무너지지 않아도 특정 사실성이나 추론 능력이 먼저 손상될 수 있음을 보여준다.
- 제공된 section-detail 기준으로는 15:31 이후 영상 후반부의 추가 마무리 발언이 충분히 포함되어 있지 않으므로, 영상 전체 결론의 세부 표현은 추가 transcript 확인이 필요하다.
🕒 시간순 섹션별 상세정리
- 4-bit 기본값과 실험 설계
- Ollama, LM Studio, 여러 튜토리얼은 자연스럽게 4-bit 모델 실행으로 이어지지만, 사용자가 모델 크기 축소의 대가로 무엇을 잃는지는 명확히 드러나지 않는다 [00:34]
- 핵심 위험은 출력이 문장과 형식 면에서는 정상처럼 보이지만, 그 안에 그럴듯한 거짓 정보가 섞일 수 있다는 점이다 [00:49]
- 실험은 Qwen 3 32B 모델 하나를 BF16부터 거의 1-bit까지 8가지 방식으로 양자화해 비교하는 구조로 설계된다 [01:04]
- parent model, calibration, llama.cpp build를 고정해두고 bit width 변화만 비교함으로써, 모델 축소가 품질과 신뢰성에 미치는 영향을 분리해 보려 한다 [01:19]
- 달 착륙 사실 질문과 BF16 기준선
- 평가 프롬프트는 Apollo 12, 14, 15, 16, 17에서 달을 걸은 남성 6명과 각 임무 번호, 연도, 달 표면 활동 사실을 요구한다 [02:37]
- 답변 조건에는 불확실한 내용을 지어내지 말라는 지시가 포함되어 있어, 모델이 모르는 내용을 어떻게 처리하는지도 함께 드러난다 [02:52]
- BF16 full precision 모델은 디스크 크기 62GB의 기준선으로 제시되며, 이후 양자화 모델들의 출력과 벤치마크를 비교하는 기준 역할을 한다 [03:05]
- 이 기준선을 통해 단순히 모델이 작아졌는지가 아니라, 사실성·벤치마크 점수·출력 안정성이 어느 지점부터 흔들리는지를 확인한다 [03:20]
- 8-bit에서는 크기 절반에도 품질 손실이 거의 보이지 않음
- 8-bit per weight 모델은 디스크 크기가 33GB로 줄어들어 BF16 대비 거의 절반 수준이 되지만, 출력 품질 손실은 겉으로 거의 보이지 않는다 [04:21]
- Alan Bean과 Charles Duke 같은 핵심 인물이 유지되고, BF16 출력과 나란히 놓아도 어느 쪽이 양자화 모델인지 구분하기 어렵다 [04:36]
- 다만 BF16 기준선에 있던 John Young이 달을 두 번 걸었다는 오류도 그대로 계속된다 [04:51]
- 이는 양자화가 기존 모델의 착각을 자동으로 고쳐주지는 않으며, 원본 모델의 오류가 작은 모델에도 그대로 보존될 수 있음을 보여준다 [05:06]
- 26GB 수준에서도 수치와 사실성이 크게 흔들리지 않음
- 26GB 수준의 양자화 모델에서는 Mitchell의 notable fact가 달라지지만, section-detail 기준으로 그 사실 자체는 맞는 것으로 압축된다 [06:20]
- 앞선 출력에서 나타났던 Young이 달을 두 번 걸었다는 오류는 이 단계에서는 사라진다 [06:35]
- Perplexity는 7.91로 거의 같게 유지되고, MMLU는 44.2에서 43.8로 소폭 낮아지는 수준에 그친다 [06:46]
- 전체 차트는 아직 크게 움직이지 않아, 이 구간까지는 모델 크기 축소가 벤치마크 수치나 눈에 띄는 사실성 손상으로 곧바로 나타나지 않는다 [07:01]
- Q5 KM부터 작은 사실 왜곡이 나타남
- Q5 KM은 모델 크기를 22GB까지 줄이며, 여섯 명의 실제 moonwalker라는 큰 틀은 유지한다 [07:18]
- 하지만 Alan Shepard Jr.와 Charles Conrad Jr.가 새로 들어오면서 Duke와 Young이 빠지는 식으로 인물 구성이 흔들리기 시작한다 [07:33]
- Apollo 16이 사라지고 Apollo 12부터 15까지만 남아, 임무 범위가 실제 요구와 어긋난다 [07:48]
- Charles Conrad의 실제 nickname은 Pete인데 Chuck으로 잘못 붙는 등, 전체 문장은 그럴듯하지만 세부 사실이 어긋나는 왜곡이 나타난다 [08:03]
- Q4와 Q3에서는 벤치마크가 놓치는 환각이 커짐
- Q4KM은 19GB 수준으로 줄어든 모델이며, 로컬 LLM 환경에서 흔히 쓰이는 4-bit 계열에 해당한다 [08:36]
- 이 단계에서는 Bean이 달에서 특수 개조 기타를 연주했다는 잘못된 사실을 만들어내며, 출력의 형식은 자연스럽지만 내용 신뢰성이 흔들린다 [08:51]
- Mitchell이 달에 첫 미국 국기를 꽂았고 그 깃발이 solar wind에 흔들렸다는 설명도 등장한다 [09:12]
- section-detail 기준으로 이 설명은 Apollo 14와 Apollo 11의 사실을 섞은 오류이며, 이름과 서술 형식이 그럴듯하기 때문에 사용자가 쉽게 놓칠 수 있는 위험한 환각이다 [09:27]
- Q3에서 과학 추론만 무너지는 국소 실패
- ARC Challenge는 Q3에서 21.4%까지 떨어지며, 랜덤 선택 확률인 25%보다 낮은 수준으로 내려간다 [12:04]
- 이는 어려운 과학 문항에서 모델이 단순히 모르는 것을 넘어, 틀린 답을 체계적으로 고르는 상태가 될 수 있음을 시사한다 [12:19]
- 같은 Q3 모델은 수학, 코드, 지식 영역에서는 정상에 가까운 모습을 유지한다 [12:29]
- 따라서 양자화는 전체 능력을 균일하게 조금씩 깎는 방식이 아니라, 특정 능력 하나를 구멍처럼 무너뜨리는 국소 실패를 만들 수 있다 [12:44]
- Q2에서 사실 오류와 언어 혼합이 동시에 커짐
- 2-bit 모델은 11GB까지 줄어들어 Q4 대비 절반의 비트만 사용하지만, 그만큼 사실 재현 능력이 크게 흔들리기 시작한다 [12:49]
- 달 착륙 인물과 임무 정보를 잘못 연결하고, John Young의 역할까지 틀리면서 검증 가능한 역사적 사실을 안정적으로 유지하지 못한다 [13:04]
- 1972년 관련 답변에서는 모델이 스스로 만든 허위 사실을 중국어로 정당화하는 모습이 나타난다 [13:35]
- 영어 답변 흐름 안에 다른 언어가 섞여 나오면서, 사실성뿐 아니라 출력 형식과 언어 일관성도 함께 깨진다 [13:50]
- Q1에서 모델 정체성이 무너지고 IQ quant의 보호 효과가 드러남
- 1-bit 모델은 Apollo 관련 사실을 생성하지 못하겠다며 답변을 거부한다 [15:03]
- 이 거부는 안전 정책에 따른 거부라기보다, 답을 보유하거나 안정적으로 재현하지 못하는 상태에서 나온 대체 출력에 가까운 것으로 압축된다 [15:18]
- Code Needle에서는 20개 중 일부만 맞히고, 666개의 환각 라인을 반복하는 실패가 나타난다 [15:31]
- 과도한 양자화는 단순한 품질 저하를 넘어, 같은 패턴을 token budget이 찰 때까지 반복하는 루프형 실패를 만들 수 있다 [15:46]
- 제공된 section-detail은 15:31 이후의 후반 마무리 구간을 포함하지 않으므로, 영상 전체 길이의 92% 이후에 해당하는 최종 결론 문장은 추가 transcript 확인이 필요하다 [16:01]
- 1-bit 양자화가 모델 자체를 바꿔 버리는 지점
- Q1 출력은 같은 패턴을 계속 반복하다가 토큰 예산에 도달한 뒤에야 멈추는 루프형 실패로 이어진다 [16:09]
- 이런 루프는 모델을 지나치게 양자화했을 때 나타나는 현상으로 설명된다 [16:12]
- perplexity가 거의 두 배가 되고 지식·과학·수학·코드 전반의 지표가 한 단계씩 떨어진다 [16:21]
- 1-bit weight에서는 모델이 품질만 낮아지는 수준을 넘어, 더 이상 같은 모델이라고 보기 어려운 지점에 도달한다 [16:25]
- IQ quant의 핵심과 로컬 LLM 운용 결론
- IQ quant는 실제 텍스트를 통과시켜 중요한 weight를 찾아 보호하고, 덜 중요한 weight를 더 강하게 반올림하는 방식으로 설명된다 [16:46]
- 오래된 Q2K 같은 형식은 중요한 부분과 덜 중요한 부분을 똑같이 반올림해 Apollo 반복, 코드 토큰 혼입, 이름 왜곡 같은 실패를 만든다 [17:25]
- 같은 모델이라도 양자화가 어떤 weight를 보호해야 하는지 아는지에 따라 결과가 달라지며, 여기서는 bit width만 보기 위해 의도적으로 기본적인 quant를 사용했다고 정리한다 [17:40]
- 로컬 모델을 돌리는 사람에게는 Q4KM이 sweet spot이지만 Q4에서도 모델은 여전히 거짓말을 하므로 출력 검증이 필요하고, 이어서 RTX Pro 6000·M3 Ultra·5090 비교 영상으로 마무리한다 [18:17]
🧾 결론
- 영상의 핵심 메시지는 “4-bit도 멀쩡해 보인다”가 아니라, “4-bit는 멀쩡해 보이기 때문에 더 위험할 수 있다”에 가깝다.
- BF16 모델 자체도 사실 오류를 만들 수 있으므로, 양자화는 원래 있던 환각을 없애는 과정이 아니라 기존 약점을 유지하거나 새로운 왜곡을 추가할 수 있는 압축 과정으로 봐야 한다.
- 8-bit는 크기를 크게 줄이면서도 품질 손실이 거의 보이지 않는 안정적 구간으로 제시되고, Q4KM은 실무적 sweet spot에 가깝지만 검증 없이 신뢰하기에는 위험한 구간으로 제시된다.
- Q3의 ARC Challenge 급락처럼 양자화 손상은 모든 능력에 균등하게 나타나지 않고, 과학 추론 같은 특정 평가 항목에서 갑자기 구멍처럼 발생할 수 있다.
- 검증 필요: 이 영상의 결과는 Qwen 3 32B, 특정 calibration, llama.cpp build, 특정 테스트 세트에 기반한 실험이므로 다른 모델·도메인·하드웨어에서도 같은 임계점이 반복되는지는 별도 확인이 필요하다.
📈 투자·시사 포인트
- 로컬 LLM 사용자는 “돌아간다”와 “믿을 수 있다”를 분리해서 봐야 하며, 4-bit 모델을 사실 검증·리서치·업무 자동화에 쓸 때는 별도 검증 루프가 필요하다.
- AI 하드웨어 관점에서는 더 큰 VRAM이 단순한 사치가 아니라, 8-bit나 더 높은 정밀도 모델을 안정적으로 운용해 신뢰성 손실을 줄이는 선택지가 될 수 있다.
- 모델 배포·운영 관점에서는 perplexity, MMLU 같은 평균 지표만으로 양자화 품질을 판단하기 어렵고, 실제 사용 도메인에 맞춘 사실 질문·추론 질문·형식 유지 테스트가 함께 필요하다.
- 저비트 양자화 기술은 계속 개선되고 있지만, Q2·Q1 구간에서는 언어 혼합, 반복 환각, 기능 붕괴가 나타날 수 있어 비용 절감 효과와 운영 리스크를 함께 계산해야 한다.
- 투자 판단에 활용하려면 영상 속 96GB RTX Pro 6000, M3 Ultra Mac Studio, 5090 비교는 아직 다음 판단 축으로 남아 있으며, 해당 하드웨어별 실제 처리속도·전력·메모리 여유·품질 유지 결과는 추가 검증이 필요하다.
⚠️ 불확실하거나 확인이 필요한 부분
- 검증 필요: BF16 기준 모델도 John Young이 달을 두 번 걸었다는 오류를 냈다는 설명은 영상 속 실험 결과로 제시되지만, 실제 Apollo 임무별 moonwalker 정답 목록과 대조해 오류 판정 기준을 확인필요가 있다.
- 검증 필요: Q4KM·Q3·Q2에서 나타난 “달 위의 기타”, “cannabis”, 중국어 토큰 혼입 같은 사례는 특정 프롬프트 출력 사례이므로, 여러 질문·시드·프롬프트 템플릿에서도 반복되는지 확인해야 일반화할 수 있다.
- 검증 필요: MMLU, ARC Challenge, GSM8K, Code Needle 점수는 영상 내 비교 기준으로 유용하지만, 문항 수, split, thinking mode off 설정, llama.cpp build, calibration 조건이 실제로 동일하게 재현되는지 별도 로그나 스크립트 확인이 필요하다.
- 자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
- 영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
- 검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.
✅ 액션 아이템
- 로컬 LLM을 4-bit 또는 Q4KM 이하로 사용할 때는 사실 기반 답변에 대해 별도 출처 확인 또는 후처리 검증 단계를 붙인다.
- 모델 선택 시 perplexity, MMLU, GSM8K 같은 집계 점수만 보지 말고 실제 업무와 가까운 사실 검증형 프롬프트를 함께 테스트한다.
- Q3 이하 양자화 모델은 특정 능력만 국소적으로 무너질 수 있으므로, 과학·수학·코딩·일반지식처럼 사용 목적별 평가 세트를 따로 만든다.
- 8-bit 또는 26GB 수준 모델이 실행 가능한 하드웨어라면, Q4보다 우선 비교 대상으로 삼아 품질 손실 대비 메모리 절감 폭을 확인한다.
❓ 열린 질문
- 같은 Qwen 3 32B라도 다른 calibration 데이터나 다른 quant 방식에서는 Q3의 ARC Challenge 급락 같은 국소 실패가 동일하게 나타날까?
- Q4KM에서 발생한 사실 오류는 달 착륙처럼 세부 고유명사가 많은 질문에서 특히 두드러지는 현상일까, 아니면 일반적인 지식 질문 전반에서도 비슷하게 반복될까?
- 실제 로컬 사용에서는 8-bit의 안정성과 Q4KM의 메모리 효율 사이에서 어느 지점이 비용 대비 가장 합리적인 선택일까?