model-auditing 태그 문서 1개 | 우성짱의 문서

우성짱의 문서

Tag1건Article 1

#model-auditing

이 태그와 연결된 문서를 한곳에서 모아보고, 함께 자주 등장하는 연관 태그까지 이어서 탐색할 수 있습니다.

연관 태그

#activation-analysis공동문서 1 · 연관도 100%#ai-interpretability공동문서 1 · 연관도 100%#alignment-audit-tooling공동문서 1 · 연관도 100%#evaluation-awareness-detection공동문서 1 · 연관도 100%#hidden-motive-auditing공동문서 1 · 연관도 100%#natural-language-autoencoders공동문서 1 · 연관도 100%#swe-bench-verified공동문서 1 · 연관도 100%#claude-ai공동문서 1 · 연관도 58%#research-announcement공동문서 1 · 연관도 38%#ai-safety-evaluation공동문서 1 · 연관도 35%

Natural Language Autoencoders

Article2026년 5월 7일

Natural Language Autoencoders

Anthropic은 모델 내부 활성화를 사람이 읽을 수 있는 자연어 설명으로 바꾸는 Natural Language Autoencoders를 소개하며, 이를 통해 Claude가 말하지 않는 평가 인식·숨은 동기·오류 원인을 조사할 수 있음을 보였다.

#anthropic #claude-ai #natural-language-autoencoders #swe-bench-verified