Everything looks fine at 4-bit

🖼️ 인포그래픽

Everything looks fine at 4-bit 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 결론

Everything looks fine at 4-bit처럼 4-bit 양자화 모델은 겉보기 출력이 멀쩡해도, 벤치마크가 잘 포착하지 못하는 사실 오류와 국소적 능력 붕괴를 숨길 수 있다.

📌 핵심 요점

영상은 Qwen 3 32B 모델을 BF16부터 거의 1-bit까지 여러 수준으로 양자화해, 모델 크기 축소가 실제 신뢰성에 어떤 영향을 주는지 비교한다.
8-bit와 26GB 수준에서는 디스크 크기가 크게 줄어도 perplexity, MMLU, ARC, GSM8K, Code Needle 등 주요 수치가 거의 유지되고, 출력 품질도 BF16과 구분하기 어려운 수준으로 보인다.
Q5 KM부터는 벤치마크 숫자가 크게 흔들리지 않는데도 달 착륙 인물, Apollo 임무 범위, 별명 같은 작은 사실 왜곡이 나타나기 시작한다.
로컬 LLM에서 흔한 Q4KM은 19GB까지 줄어들며 전반 지표가 여전히 양호해 보이지만, 달에서 기타를 연주했다는 식의 그럴듯한 허위 사실을 만들어 벤치마크와 실제 신뢰성 사이의 간극을 드러낸다.
Q3 이하에서는 특정 능력만 갑자기 무너지는 국소 실패, 언어 혼합, 반복 환각, 모델 정체성 붕괴가 나타나며, bit width가 낮아질수록 단순한 성능 저하가 아니라 예측하기 어려운 오류 양상으로 바뀐다.

🧩 배경과 문제 정의

로컬 LLM 사용 환경에서는 Ollama, LM Studio, 각종 튜토리얼을 통해 4-bit 양자화 모델을 실행하는 방식이 사실상 기본값처럼 자리 잡고 있다.
문제는 모델 크기가 줄어드는 과정에서 사용자가 실제로 무엇을 잃는지 잘 보이지 않는다는 점이다.
양자화가 극단적으로 강하면 모델 붕괴가 눈에 띄지만, 그 직전 단계에서는 문장 구조, 말투, 출력 형식이 정상처럼 보여도 사실 오류가 섞일 수 있다.
이 영상은 같은 Qwen 3 32B 모델을 BF16부터 거의 1-bit 수준까지 여러 방식으로 줄여 비교하면서, 겉보기 정상성과 실제 신뢰성 사이의 차이를 확인하려는 실험이다.
특히 달 착륙 관련 사실 질문처럼 검증 가능한 프롬프트와 Perplexity, MMLU, ARC Challenge, Code Needle 같은 벤치마크를 함께 보면서, 숫자 성능이 크게 무너지지 않아도 특정 사실성이나 추론 능력이 먼저 손상될 수 있음을 보여준다.
제공된 section-detail 기준으로는 15:31 이후 영상 후반부의 추가 마무리 발언이 충분히 포함되어 있지 않으므로, 영상 전체 결론의 세부 표현은 추가 transcript 확인이 필요하다.

🕒 시간순 섹션별 상세정리

4-bit 기본값과 실험 설계

Ollama, LM Studio, 여러 튜토리얼은 자연스럽게 4-bit 모델 실행으로 이어지지만, 사용자가 모델 크기 축소의 대가로 무엇을 잃는지는 명확히 드러나지 않는다 [00:34]
핵심 위험은 출력이 문장과 형식 면에서는 정상처럼 보이지만, 그 안에 그럴듯한 거짓 정보가 섞일 수 있다는 점이다 [00:49]
실험은 Qwen 3 32B 모델 하나를 BF16부터 거의 1-bit까지 8가지 방식으로 양자화해 비교하는 구조로 설계된다 [01:04]
parent model, calibration, llama.cpp build를 고정해두고 bit width 변화만 비교함으로써, 모델 축소가 품질과 신뢰성에 미치는 영향을 분리해 보려 한다 [01:19]

달 착륙 사실 질문과 BF16 기준선

평가 프롬프트는 Apollo 12, 14, 15, 16, 17에서 달을 걸은 남성 6명과 각 임무 번호, 연도, 달 표면 활동 사실을 요구한다 [02:37]
답변 조건에는 불확실한 내용을 지어내지 말라는 지시가 포함되어 있어, 모델이 모르는 내용을 어떻게 처리하는지도 함께 드러난다 [02:52]
BF16 full precision 모델은 디스크 크기 62GB의 기준선으로 제시되며, 이후 양자화 모델들의 출력과 벤치마크를 비교하는 기준 역할을 한다 [03:05]
이 기준선을 통해 단순히 모델이 작아졌는지가 아니라, 사실성·벤치마크 점수·출력 안정성이 어느 지점부터 흔들리는지를 확인한다 [03:20]

8-bit에서는 크기 절반에도 품질 손실이 거의 보이지 않음

8-bit per weight 모델은 디스크 크기가 33GB로 줄어들어 BF16 대비 거의 절반 수준이 되지만, 출력 품질 손실은 겉으로 거의 보이지 않는다 [04:21]
Alan Bean과 Charles Duke 같은 핵심 인물이 유지되고, BF16 출력과 나란히 놓아도 어느 쪽이 양자화 모델인지 구분하기 어렵다 [04:36]
다만 BF16 기준선에 있던 John Young이 달을 두 번 걸었다는 오류도 그대로 계속된다 [04:51]
이는 양자화가 기존 모델의 착각을 자동으로 고쳐주지는 않으며, 원본 모델의 오류가 작은 모델에도 그대로 보존될 수 있음을 보여준다 [05:06]

26GB 수준에서도 수치와 사실성이 크게 흔들리지 않음

26GB 수준의 양자화 모델에서는 Mitchell의 notable fact가 달라지지만, section-detail 기준으로 그 사실 자체는 맞는 것으로 압축된다 [06:20]
앞선 출력에서 나타났던 Young이 달을 두 번 걸었다는 오류는 이 단계에서는 사라진다 [06:35]
Perplexity는 7.91로 거의 같게 유지되고, MMLU는 44.2에서 43.8로 소폭 낮아지는 수준에 그친다 [06:46]
전체 차트는 아직 크게 움직이지 않아, 이 구간까지는 모델 크기 축소가 벤치마크 수치나 눈에 띄는 사실성 손상으로 곧바로 나타나지 않는다 [07:01]

Q5 KM부터 작은 사실 왜곡이 나타남

Q5 KM은 모델 크기를 22GB까지 줄이며, 여섯 명의 실제 moonwalker라는 큰 틀은 유지한다 [07:18]
하지만 Alan Shepard Jr.와 Charles Conrad Jr.가 새로 들어오면서 Duke와 Young이 빠지는 식으로 인물 구성이 흔들리기 시작한다 [07:33]
Apollo 16이 사라지고 Apollo 12부터 15까지만 남아, 임무 범위가 실제 요구와 어긋난다 [07:48]
Charles Conrad의 실제 nickname은 Pete인데 Chuck으로 잘못 붙는 등, 전체 문장은 그럴듯하지만 세부 사실이 어긋나는 왜곡이 나타난다 [08:03]

Q4와 Q3에서는 벤치마크가 놓치는 환각이 커짐

Q4KM은 19GB 수준으로 줄어든 모델이며, 로컬 LLM 환경에서 흔히 쓰이는 4-bit 계열에 해당한다 [08:36]
이 단계에서는 Bean이 달에서 특수 개조 기타를 연주했다는 잘못된 사실을 만들어내며, 출력의 형식은 자연스럽지만 내용 신뢰성이 흔들린다 [08:51]
Mitchell이 달에 첫 미국 국기를 꽂았고 그 깃발이 solar wind에 흔들렸다는 설명도 등장한다 [09:12]
section-detail 기준으로 이 설명은 Apollo 14와 Apollo 11의 사실을 섞은 오류이며, 이름과 서술 형식이 그럴듯하기 때문에 사용자가 쉽게 놓칠 수 있는 위험한 환각이다 [09:27]

Q3에서 과학 추론만 무너지는 국소 실패

ARC Challenge는 Q3에서 21.4%까지 떨어지며, 랜덤 선택 확률인 25%보다 낮은 수준으로 내려간다 [12:04]
이는 어려운 과학 문항에서 모델이 단순히 모르는 것을 넘어, 틀린 답을 체계적으로 고르는 상태가 될 수 있음을 시사한다 [12:19]
같은 Q3 모델은 수학, 코드, 지식 영역에서는 정상에 가까운 모습을 유지한다 [12:29]
따라서 양자화는 전체 능력을 균일하게 조금씩 깎는 방식이 아니라, 특정 능력 하나를 구멍처럼 무너뜨리는 국소 실패를 만들 수 있다 [12:44]

Q2에서 사실 오류와 언어 혼합이 동시에 커짐

2-bit 모델은 11GB까지 줄어들어 Q4 대비 절반의 비트만 사용하지만, 그만큼 사실 재현 능력이 크게 흔들리기 시작한다 [12:49]
달 착륙 인물과 임무 정보를 잘못 연결하고, John Young의 역할까지 틀리면서 검증 가능한 역사적 사실을 안정적으로 유지하지 못한다 [13:04]
1972년 관련 답변에서는 모델이 스스로 만든 허위 사실을 중국어로 정당화하는 모습이 나타난다 [13:35]
영어 답변 흐름 안에 다른 언어가 섞여 나오면서, 사실성뿐 아니라 출력 형식과 언어 일관성도 함께 깨진다 [13:50]

Q1에서 모델 정체성이 무너지고 IQ quant의 보호 효과가 드러남

1-bit 모델은 Apollo 관련 사실을 생성하지 못하겠다며 답변을 거부한다 [15:03]
이 거부는 안전 정책에 따른 거부라기보다, 답을 보유하거나 안정적으로 재현하지 못하는 상태에서 나온 대체 출력에 가까운 것으로 압축된다 [15:18]
Code Needle에서는 20개 중 일부만 맞히고, 666개의 환각 라인을 반복하는 실패가 나타난다 [15:31]
과도한 양자화는 단순한 품질 저하를 넘어, 같은 패턴을 token budget이 찰 때까지 반복하는 루프형 실패를 만들 수 있다 [15:46]
제공된 section-detail은 15:31 이후의 후반 마무리 구간을 포함하지 않으므로, 영상 전체 길이의 92% 이후에 해당하는 최종 결론 문장은 추가 transcript 확인이 필요하다 [16:01]

1-bit 양자화가 모델 자체를 바꿔 버리는 지점

Q1 출력은 같은 패턴을 계속 반복하다가 토큰 예산에 도달한 뒤에야 멈추는 루프형 실패로 이어진다 [16:09]
이런 루프는 모델을 지나치게 양자화했을 때 나타나는 현상으로 설명된다 [16:12]
perplexity가 거의 두 배가 되고 지식·과학·수학·코드 전반의 지표가 한 단계씩 떨어진다 [16:21]
1-bit weight에서는 모델이 품질만 낮아지는 수준을 넘어, 더 이상 같은 모델이라고 보기 어려운 지점에 도달한다 [16:25]

IQ quant의 핵심과 로컬 LLM 운용 결론

IQ quant는 실제 텍스트를 통과시켜 중요한 weight를 찾아 보호하고, 덜 중요한 weight를 더 강하게 반올림하는 방식으로 설명된다 [16:46]
오래된 Q2K 같은 형식은 중요한 부분과 덜 중요한 부분을 똑같이 반올림해 Apollo 반복, 코드 토큰 혼입, 이름 왜곡 같은 실패를 만든다 [17:25]
같은 모델이라도 양자화가 어떤 weight를 보호해야 하는지 아는지에 따라 결과가 달라지며, 여기서는 bit width만 보기 위해 의도적으로 기본적인 quant를 사용했다고 정리한다 [17:40]
로컬 모델을 돌리는 사람에게는 Q4KM이 sweet spot이지만 Q4에서도 모델은 여전히 거짓말을 하므로 출력 검증이 필요하고, 이어서 RTX Pro 6000·M3 Ultra·5090 비교 영상으로 마무리한다 [18:17]

🧾 결론

영상의 핵심 메시지는 “4-bit도 멀쩡해 보인다”가 아니라, “4-bit는 멀쩡해 보이기 때문에 더 위험할 수 있다”에 가깝다.
BF16 모델 자체도 사실 오류를 만들 수 있으므로, 양자화는 원래 있던 환각을 없애는 과정이 아니라 기존 약점을 유지하거나 새로운 왜곡을 추가할 수 있는 압축 과정으로 봐야 한다.
8-bit는 크기를 크게 줄이면서도 품질 손실이 거의 보이지 않는 안정적 구간으로 제시되고, Q4KM은 실무적 sweet spot에 가깝지만 검증 없이 신뢰하기에는 위험한 구간으로 제시된다.
Q3의 ARC Challenge 급락처럼 양자화 손상은 모든 능력에 균등하게 나타나지 않고, 과학 추론 같은 특정 평가 항목에서 갑자기 구멍처럼 발생할 수 있다.
검증 필요: 이 영상의 결과는 Qwen 3 32B, 특정 calibration, llama.cpp build, 특정 테스트 세트에 기반한 실험이므로 다른 모델·도메인·하드웨어에서도 같은 임계점이 반복되는지는 별도 확인이 필요하다.

📈 투자·시사 포인트

로컬 LLM 사용자는 “돌아간다”와 “믿을 수 있다”를 분리해서 봐야 하며, 4-bit 모델을 사실 검증·리서치·업무 자동화에 쓸 때는 별도 검증 루프가 필요하다.
AI 하드웨어 관점에서는 더 큰 VRAM이 단순한 사치가 아니라, 8-bit나 더 높은 정밀도 모델을 안정적으로 운용해 신뢰성 손실을 줄이는 선택지가 될 수 있다.
모델 배포·운영 관점에서는 perplexity, MMLU 같은 평균 지표만으로 양자화 품질을 판단하기 어렵고, 실제 사용 도메인에 맞춘 사실 질문·추론 질문·형식 유지 테스트가 함께 필요하다.
저비트 양자화 기술은 계속 개선되고 있지만, Q2·Q1 구간에서는 언어 혼합, 반복 환각, 기능 붕괴가 나타날 수 있어 비용 절감 효과와 운영 리스크를 함께 계산해야 한다.
투자 판단에 활용하려면 영상 속 96GB RTX Pro 6000, M3 Ultra Mac Studio, 5090 비교는 아직 다음 판단 축으로 남아 있으며, 해당 하드웨어별 실제 처리속도·전력·메모리 여유·품질 유지 결과는 추가 검증이 필요하다.

⚠️ 불확실하거나 확인이 필요한 부분

검증 필요: BF16 기준 모델도 John Young이 달을 두 번 걸었다는 오류를 냈다는 설명은 영상 속 실험 결과로 제시되지만, 실제 Apollo 임무별 moonwalker 정답 목록과 대조해 오류 판정 기준을 확인필요가 있다.
검증 필요: Q4KM·Q3·Q2에서 나타난 “달 위의 기타”, “cannabis”, 중국어 토큰 혼입 같은 사례는 특정 프롬프트 출력 사례이므로, 여러 질문·시드·프롬프트 템플릿에서도 반복되는지 확인해야 일반화할 수 있다.
검증 필요: MMLU, ARC Challenge, GSM8K, Code Needle 점수는 영상 내 비교 기준으로 유용하지만, 문항 수, split, thinking mode off 설정, llama.cpp build, calibration 조건이 실제로 동일하게 재현되는지 별도 로그나 스크립트 확인이 필요하다.
자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.

✅ 액션 아이템

로컬 LLM을 4-bit 또는 Q4KM 이하로 사용할 때는 사실 기반 답변에 대해 별도 출처 확인 또는 후처리 검증 단계를 붙인다.
모델 선택 시 perplexity, MMLU, GSM8K 같은 집계 점수만 보지 말고 실제 업무와 가까운 사실 검증형 프롬프트를 함께 테스트한다.
Q3 이하 양자화 모델은 특정 능력만 국소적으로 무너질 수 있으므로, 과학·수학·코딩·일반지식처럼 사용 목적별 평가 세트를 따로 만든다.
8-bit 또는 26GB 수준 모델이 실행 가능한 하드웨어라면, Q4보다 우선 비교 대상으로 삼아 품질 손실 대비 메모리 절감 폭을 확인한다.

❓ 열린 질문

같은 Qwen 3 32B라도 다른 calibration 데이터나 다른 quant 방식에서는 Q3의 ARC Challenge 급락 같은 국소 실패가 동일하게 나타날까?
Q4KM에서 발생한 사실 오류는 달 착륙처럼 세부 고유명사가 많은 질문에서 특히 두드러지는 현상일까, 아니면 일반적인 지식 질문 전반에서도 비슷하게 반복될까?
실제 로컬 사용에서는 8-bit의 안정성과 Q4KM의 메모리 효율 사이에서 어느 지점이 비용 대비 가장 합리적인 선택일까?