pilot-evaluation 태그 문서 1개 | 우성짱의 문서

우성짱의 문서

Tag1건Article 1

#pilot-evaluation

이 태그와 연결된 문서를 한곳에서 모아보고, 함께 자주 등장하는 연관 태그까지 이어서 탐색할 수 있습니다.

연관 태그

#claude-opus-4공동문서 1 · 연관도 100%#claude-sonnet-4공동문서 1 · 연관도 100%#instruction-hierarchy공동문서 1 · 연관도 100%#instruction-hierarchy-robustness공동문서 1 · 연관도 100%#jailbreak-resistance공동문서 1 · 연관도 100%#model-alignment공동문서 1 · 연관도 100%#reasoning-safety-tradeoff공동문서 1 · 연관도 100%#refusal-utility-balance공동문서 1 · 연관도 100%#safety-test-report공동문서 1 · 연관도 100%#ai-safety-evaluation공동문서 1 · 연관도 45%

Findings from a pilot Anthropic–OpenAI alignment evaluation exercise: OpenAI Safety Tests

Article2025년 8월 27일

Findings from a pilot Anthropic–OpenAI alignment evaluation exercise: OpenAI Safety Tests

OpenAI와 Anthropic은 서로의 공개 모델에 내부 안전성·미스얼라인먼트 평가를 적용한 첫 공동 파일럿 결과를 공개하며, 모델별 강점과 취약점, 평가 협력의 필요성을 정리했다.

#anthropic #openai #claude-opus-4 #claude-sonnet-4