Collective alignment: public input on our Model Spec

🖼️ 인포그래픽

Collective alignment: public input on our Model Spec 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 요약

OpenAI는 모델의 기본 행동과 개인화의 경계를 더 다양한 공적 가치에 맞추기 위해 전 세계 참여자 의견을 수집하고, 이를 Model Spec 개선 제안과 데이터셋 공개로 연결하는 초기 집단 정렬 실험을 수행했다.

📌 핵심 요약

OpenAI는 이상적인 AI의 행동을 한 개인이나 기관이 단독으로 정해서는 안 된다는 문제의식에서, 다양한 사람들의 가치와 우선순위를 모델 기본 행동에 반영하기 위한 ‘집단 정렬’ 연구를 소개했다.
이번 작업은 19개국에 거주하는 약 1,000명의 참여자가 가치 판단이 민감할 수 있는 프롬프트와 네 가지 응답 후보를 평가하고, 순위·이유·루브릭을 제공하는 방식으로 진행됐다.
OpenAI는 참여자 선호와 기존 Model Spec 원칙을 비교하기 위해 Model Spec Ranker를 만들었지만, 추론 모델이 완벽한 규칙 준수자가 아니며 Spec 자체도 해석 여지가 있어 편향과 한계가 있다고 설명했다.
참여자 피드백은 완전 자동 루프와 인간 우선 루프라는 두 방식으로 Model Spec 수정 제안으로 변환됐고, 일부는 명확화나 업데이트로 이어졌으며 일부는 안전성·실현 가능성·정책상 이유로 보류되거나 제외됐다.
OpenAI는 이번 연구가 표본 규모와 방법론상 한계를 지닌 초기 실험이라고 인정하면서도, 공개 데이터셋과 방법 공유를 통해 더 넓은 AI 연구 생태계가 다양한 인간 가치에 맞는 시스템을 만드는 데 기여하길 기대한다고 밝혔다.

🧩 주요 포인트

OpenAI는 이상적인 AI의 행동을 한 개인이나 기관이 단독으로 정해서는 안 된다는 문제의식에서, 다양한 사람들의 가치와 우선순위를 모델 기본 행동에 반영하기 위한 ‘집단 정렬’ 연구를 소개했다.
이번 작업은 19개국에 거주하는 약 1,000명의 참여자가 가치 판단이 민감할 수 있는 프롬프트와 네 가지 응답 후보를 평가하고, 순위·이유·루브릭을 제공하는 방식으로 진행됐다.
OpenAI는 참여자 선호와 기존 Model Spec 원칙을 비교하기 위해 Model Spec Ranker를 만들었지만, 추론 모델이 완벽한 규칙 준수자가 아니며 Spec 자체도 해석 여지가 있어 편향과 한계가 있다고 설명했다.
참여자 피드백은 완전 자동 루프와 인간 우선 루프라는 두 방식으로 Model Spec 수정 제안으로 변환됐고, 일부는 명확화나 업데이트로 이어졌으며 일부는 안전성·실현 가능성·정책상 이유로 보류되거나 제외됐다.
OpenAI는 이번 연구가 표본 규모와 방법론상 한계를 지닌 초기 실험이라고 인정하면서도, 공개 데이터셋과 방법 공유를 통해 더 넓은 AI 연구 생태계가 다양한 인간 가치에 맞는 시스템을 만드는 데 기여하길 기대한다고 밝혔다.

🧠 상세 정리

1. 문제의식: AI의 기본 행동은 누구의 가치에 맞춰야 하는가

글은 이상적인 AI가 어떻게 행동해야 하는지를 한 사람이나 한 기관이 모두에게 대신 정해서는 안 된다는 전제에서 출발한다. OpenAI는 AGI가 인류 전체에 이익이 되게 하려면, 자신들이 제공하는 시스템이 다양한 사람들의 가치와 우선순위를 반영해야 한다고 설명한다. 이를 위해 외부 피드백 양식, 전문가 의견, 전 세계 청취 세션 등 여러 방법을 활용해 왔고, 이번 글에서는 그중 하나인 집단 정렬 연구를 다룬다. 특히 AI가 더 강력해지고 일상에 깊이 통합될수록, 모델의 기본 행동과 개인화의 경계가 폭넓은 관점을 반영해야 한다는 점을 강조한다.

2. 개인화와 별개로 중요한 기본값의 힘

OpenAI는 모든 사람에게 맞는 단일한 AI 행동 세트는 존재하기 어렵다고 인정한다. 그래서 개인화와 맞춤형 성격 기능에도 투자하고 있지만, 그럼에도 모델의 기본값은 여전히 강력한 영향력을 가진다고 본다. 사용자가 별도로 설정을 바꾸지 않았을 때 모델이 어떤 태도로 답하고 어디까지 응답해야 하는지는 실제 경험을 크게 좌우하기 때문이다. 이번 연구는 바로 그 기본값을 공적 의견을 통해 더 잘 형성하려는 시도이며, 개인화가 모든 문제를 해결한다는 관점이 아니라 기본 행동 자체도 사회적으로 검토되어야 한다는 관점에 서 있다.

3. 이번 연구의 전체 흐름과 공개된 산출물

OpenAI는 이번 글에서 집단 정렬 연구 방향의 초기 단계를 공개한다고 밝힌다. 전 세계 1,000명 이상의 사람들로부터 입력을 모으고, 이를 실행 가능한 지침으로 전환한 뒤, 내부 검토를 거쳐 Model Spec 업데이트에 반영하는 과정을 실험했다. 많은 경우 참여자 선호는 기존 Model Spec과 일치했지만, 일부 불일치는 문구를 더 명확히 해야 할 지점이나 내부 검토가 필요한 원칙 변경 제안으로 이어졌다. OpenAI는 일부 변경을 채택하고, 일부는 향후 작업으로 미뤘으며, 원칙이나 실현 가능성 때문에 일부는 제외했다고 설명한다. 또한 향후 연구를 돕기 위해 공적 입력 데이터셋을 HuggingFace에 공개했다.

4. Model Spec 변경을 판단하는 기준과 한계

이번 작업은 전체 참여자 집단에서 공유된 선호에 초점을 맞췄으며, 피드백에서 나온 제안을 크게 두 범주로 나눴다. 하나는 참여자가 원하는 행동이 기존 Model Spec의 원칙과 부합하지만 현재 문구가 해석 여지를 남긴 경우인 ‘명확화’이고, 다른 하나는 참여자 선호가 기존 원칙과 맞지 않는 ‘원칙 변경’이다. OpenAI는 공적 입력이 지침 계층의 여러 수준에서 가치가 있을 수 있지만, 계층상 더 높은 수준, 특히 플랫폼 수준에 가까울수록 채택 가능성은 낮아진다고 설명한다. 이는 단순히 다수 선호를 반영하는 문제가 아니라 안전 정책, 제품 변화, 배포 가능성, 사회적 위험까지 함께 고려해야 하기 때문이다.

5. 참여자 평가와 Model Spec Ranker의 역할

참여자들은 Model Spec 문서 자체를 직접 읽고 의견을 내는 대신, Spec과 관련된 합성 프롬프트와 응답 예시를 평가했다. 각 참여자는 하나의 프롬프트에 대해 네 가지 가능한 응답을 보고, 자신의 선호에 따라 순위를 매기고 이유를 설명했다. OpenAI는 이 암묵적 선호를 자신들의 명시적 원칙과 비교하기 위해 Model Spec Ranker, 즉 MSR을 만들었다. MSR은 주어진 Spec에 따라 동일한 네 가지 응답을 순위화하는 추론 모델이다. 다만 이 도구는 완벽하지 않으며, 어떤 모델을 사용하느냐에 따라 Spec 해석이 달라질 수 있고, Spec 자체도 완전히 구체화되어 있지 않아 해석 편향이 생길 수 있다고 글은 분명히 밝힌다.

6. 참여자 모집과 평가 설계

OpenAI는 가치에 민감한 영역에서 모델 행동을 검토하기 위해 약 1,000명의 참여자를 모집했다. 이들은 19개국에 거주했고 원래 출신 국가는 50개 이상이었으며, 영어 독해 기준을 충족하되 정당화 설명은 모국어로 작성할 수 있었다. 참여자 중 약 3분의 1은 미국에 거주했고, 나머지는 멕시코, 남아프리카공화국, 네덜란드, 칠레, 영국, 인도, 케냐, 일본 등 여러 국가에 분포했다. 참여자 풀은 첫 테스트로서 나이, 성별, 인종, 교육 수준, AI 사용 경험 측면에서 넓은 관점을 포함하도록 구성됐다. 각 참여자는 최소 5개에서 최대 20개의 프롬프트를 검토하며, 순위·설명·루브릭 평가·자체 루브릭 작성을 수행했다.

7. 피드백을 Spec 제안으로 바꾸는 두 가지 루프

OpenAI는 참여자 피드백을 구체적인 Model Spec 제안으로 바꾸기 위해 두 가지 상호보완적 접근을 시험했다. 첫 번째는 완전 자동 루프로, 추론 모델이 참여자 순위와 정당화에서 나타난 불일치 영역을 검토하고, 참여자와의 정렬을 높일 수 있는 Spec 변경을 제안한 뒤, Model Spec Ranker로 그 제안이 실제로 합의도를 높이는지 테스트하는 방식이다. 두 번째는 인간 우선 루프로, 연구자가 인간 선호를 종합적으로 검토해 Spec 업데이트를 제안하고, 이후 추론 모델이 참여자의 서술형 이유가 그 변경 의도를 지지하는지, 반박하는지, 또는 언급하지 않는지 판단한다. 두 방식은 각각 확장성과 뉘앙스 해석 능력에서 장단점을 가진다.

8. 자동화와 인간 검토가 모두 가진 불완전성

글은 자동화된 방식과 인간 중심 방식 모두 한계를 갖는다고 설명한다. 인간 우선 루프는 완전 자동 루프가 안정적으로 재현하기 어려운 창의적 사고와 맥락적 추론을 가능하게 했으며, 예컨대 특정 대화에서 간접적인 자살 의도가 군중에게 중요하게 평가될 수 있음을 포착할 수 있었다. 반면 이 방식은 더 많은 사람의 의견을 듣는 규모로 확장하기 어렵다. 자동 루프에서도 두 가지 제안 알고리즘을 시도했는데, 하나는 대량의 대화를 한꺼번에 보고 넓은 패턴을 찾고, 다른 하나는 대화 하나하나를 깊게 분석해 미묘한 문제를 찾는 방식이었다. 두 방식의 제안에는 상당한 중복이 있었지만, 자동 루프는 결국 Ranker의 Spec 해석에 묶여 있어 기반 모델에 따라 결과가 달라질 수 있다.

9. 내부 검토와 실제 채택의 기준

관찰된 선호를 실제 Spec 변경으로 옮기는 과정은 OpenAI의 내부 검토 절차를 거쳤다. 이 검토에서는 군중 선호뿐 아니라 이미 진행 중인 제품 또는 행동 변화, 안전 정책, 데이터셋에서 직접 관찰되지 않는 위험, 실제 배포 제약 등을 함께 고려했다. 예를 들어 더 허용적인 규칙이 플랫폼에서 대규모 조작을 가능하게 할 수 있는지, 모델이 사용자의 의도를 신뢰성 있게 추론할 수 있는지 같은 문제가 검토 대상이 됐다. 또한 이번 연구는 특정 프롬프트에 대한 개인 선호를 드러내도록 설계됐기 때문에, 표적화된 정치 설득처럼 더 넓은 사회적 요인을 충분히 반영한다고 보기는 어렵다. 그래서 더 중대한 변경에는 추가 숙고와 전문가 의견이 필요하다고 설명한다.

10. 결론: 초기 실험에서 더 넓은 집단 정렬로

OpenAI는 이번 연구를 통해 공적 선호가 Model Spec과 어떻게 맞물리는지 살폈고, 넓은 합의와 차이가 모두 있음을 확인했다고 정리한다. 이 연구는 개인화 투자와 안전 범위 안에서 모델을 더 유용하게 만들려는 노력과 보완 관계에 있다. 다만 표본 규모와 방법론의 한계를 분명히 인정하며, 앞으로 더 많은 사람과 관점을 포함하도록 집단 정렬을 확장하겠다고 밝힌다. 이번 작업은 하나의 기본값 세트를 업데이트하는 데 초점을 맞췄지만, 장기적으로는 서로 다른 관점과 가치 체계를 반영하는 여러 기본값을 정의하는 방향도 시사한다. OpenAI는 방법, 데이터셋, 검토한 변경 사항을 공개함으로써 더 넓은 AI 연구 생태계의 논의와 참여를 유도하려 한다.

🧾 핵심 주장 / 시사점

이 글의 핵심은 ‘정렬’을 단순한 기술 문제나 내부 정책 문제가 아니라, 모델 기본값을 둘러싼 사회적 의사결정 문제로 다룬다는 점이다.
Model Spec Ranker를 활용한 비교는 대규모 피드백 분석에 유용하지만, 그 자체도 모델의 해석 편향과 기존 학습 데이터의 영향을 받기 때문에 최종 판단자로 보기 어렵다.
OpenAI가 일부 공적 선호를 바로 채택하지 않고 안전성, 악용 가능성, 사회적 파급효과, 배포 제약과 함께 검토했다는 점은 집단 정렬이 단순한 다수결이 아니라 거버넌스 과정임을 보여준다.