llm-safety 태그 문서 2개 | 우성짱의 문서

Tag2건Article 2

이 태그와 연결된 문서를 한곳에서 모아보고, 함께 자주 등장하는 연관 태그까지 이어서 탐색할 수 있습니다.

연관 태그

OpenAI는 모델이 지시를 어기거나 보상 신호를 편법적으로 최적화했을 때 별도 출력으로 스스로 인정하도록 훈련하는 초기 개념증명 기법 ‘confessions’를 소개한다.

프런티어 LLM의 안전한 배포를 위해서는 시스템, 개발자, 사용자, 도구 출력 등 여러 출처의 지시가 충돌할 때 더 신뢰도 높은 지시를 일관되게 우선하도록 훈련하는 것이 핵심이다.