Articlehuggingface.co·2025년 8월 5일·0

Announcing NeurIPS 2025 E2LM Competition: Early Training Evaluation of Language Models

Quick Summary

NeurIPS 2025 E2LM Competition은 LLM 초기 학습 단계에서 과학 지식과 추론 신호를 더 잘 포착하는 벤치마크를 함께 만들기 위한 대회다.

Announcing NeurIPS 2025 E2LM Competition: Early Training Evaluation of Language Models 관련 대표 이미지

🖼️ 인포그래픽

Announcing NeurIPS 2025 E2LM Competition: Early Training Evaluation of Language Models 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

Announcing NeurIPS 2025 E2LM Competition: Early Training Evaluation of Language Models 내용을 설명하는 본문 이미지

💡 한 줄 요약

NeurIPS 2025 E2LM Competition은 LLM 초기 학습 단계에서 과학 지식과 추론 신호를 더 잘 포착하는 벤치마크를 함께 만들기 위한 대회다.

📌 핵심 요약

  • 이 글은 2025년 7월 4일 공개된 NeurIPS 2025 E2LM Competition 공지로, 대회의 목적은 대규모 언어모델의 초기 학습 단계에서 의미 있는 평가 신호를 제공하는 새로운 벤치마크를 구축하는 것이다.
  • LLM 개발 초반에는 모델 구조, 데이터 조합, 학습 하이퍼파라미터를 바꾸는 여러 절제 실험이 진행되지만, 기존 벤치마크는 약 200B 토큰 이하의 초기 학습 구간에서 충분히 구별력 있는 신호를 주지 못한다는 문제가 제기된다.
  • 참가자는 Hugging Face 전용 조직과 등록 링크를 통해 대회에 참여하며, lm-evaluation-harness 기반 솔루션을 Hugging Face Space로 제출하고 리더보드를 통해 성과를 확인하게 된다.
  • 평가는 신호 품질 점수, 순위 일관성 점수, 과학 지식 준수 점수를 결합해 산출되며, 특히 신호 품질과 과학 지식 준수에 더 큰 가중치가 부여된다.
  • 대회는 2025년 7월 14일 시작해 워밍업, 개발, 최종 단계를 거친 뒤 11월 4일 결과를 발표하고, 12월 NeurIPS Competition Workshop 발표까지 이어지는 일정으로 운영된다.

🧩 주요 포인트

  1. 이 글은 2025년 7월 4일 공개된 NeurIPS 2025 E2LM Competition 공지로, 대회의 목적은 대규모 언어모델의 초기 학습 단계에서 의미 있는 평가 신호를 제공하는 새로운 벤치마크를 구축하는 것이다.
  2. LLM 개발 초반에는 모델 구조, 데이터 조합, 학습 하이퍼파라미터를 바꾸는 여러 절제 실험이 진행되지만, 기존 벤치마크는 약 200B 토큰 이하의 초기 학습 구간에서 충분히 구별력 있는 신호를 주지 못한다는 문제가 제기된다.
  3. 참가자는 Hugging Face 전용 조직과 등록 링크를 통해 대회에 참여하며, lm-evaluation-harness 기반 솔루션을 Hugging Face Space로 제출하고 리더보드를 통해 성과를 확인하게 된다.
  4. 평가는 신호 품질 점수, 순위 일관성 점수, 과학 지식 준수 점수를 결합해 산출되며, 특히 신호 품질과 과학 지식 준수에 더 큰 가중치가 부여된다.
  5. 대회는 2025년 7월 14일 시작해 워밍업, 개발, 최종 단계를 거친 뒤 11월 4일 결과를 발표하고, 12월 NeurIPS Competition Workshop 발표까지 이어지는 일정으로 운영된다.

🧠 상세 정리

1. 대회의 문제의식과 목표

E2LM Competition은 LLM의 초기 학습 평가가 충분히 정교하지 않다는 문제에서 출발한다. 대규모 언어모델 개발 초반에는 다양한 모델 아키텍처, 데이터 혼합 방식, 학습 하이퍼파라미터를 비교하는 절제 실험이 반복된다. 이때 연구자들은 주로 학습 손실 곡선과 평가 점수를 살피지만, 기존 벤치마크는 초기 학습 구간에서 실험 간 차이를 충분히 드러내지 못한다고 글은 설명한다. 대회는 특히 과학 지식 영역에서 초기 단계의 추론 및 지식 습득 신호를 잘 포착하는 새로운 벤치마크를 함께 만드는 것을 목표로 한다.

2. 초기 학습 단계 평가의 한계

원문은 LLM이 아직 적은 토큰, 대략 200B 토큰 수준까지 학습된 구간에서는 기존 평가가 명확한 결론을 내리기 어렵다고 지적한다. 초기 학습 단계는 이후 모델 개발 방향을 결정하는 중요한 시기지만, 평가 점수가 충분히 변별적이지 않으면 어떤 아키텍처나 데이터 조합이 더 나은지 판단하기 어렵다. 따라서 단순히 최종 성능을 측정하는 벤치마크가 아니라, 학습 초반의 변화와 가능성을 민감하게 감지할 수 있는 평가 체계가 필요하다는 것이 핵심 논점이다. E2LM은 이 공백을 과학 지식 기반 평가로 메우려 한다.

3. 참가 방식과 제출 환경

대회는 전용 Hugging Face 조직에서 운영되며, 참가자는 별도의 등록 링크를 통해 신청한다. 제출물은 lm-evaluation-harness 라이브러리를 기반으로 구성되어야 하고, Hugging Face Space를 통해 제출된다. 대회 기간에는 활성 리더보드가 유지되어 유망한 제출물과 전체 성과 흐름을 확인할 수 있다. 또한 모델 크기가 비교적 작아 무료 등급 Google Colab GPU에서도 실행할 수 있다고 안내하며, 여러 노트북을 포함한 시작 키트도 제공해 참가 진입 장벽을 낮추는 방식으로 설계되어 있다.

4. 평가 지표와 종합 점수 산정

제출물은 세 가지 점수로 평가된다. 첫째는 신호 품질 점수, 둘째는 순위 일관성 점수, 셋째는 과학 지식 준수 점수다. 최종 순위에 쓰이는 전체 점수는 이 세 기준의 가중합으로 계산되며, 가중치는 신호 품질 0.5, 순위 일관성 0.1, 과학 지식 준수 0.4로 설정되어 있다. 이는 대회가 단순한 순위 재현보다 초기 학습 단계에서 유용한 신호를 제공하는지, 그리고 과학 지식 영역과 잘 맞는지를 더 중요하게 본다는 뜻이다.

5. 검증 절차와 숨겨진 체크포인트

원문은 모든 제출물에 두 가지 검증 절차가 체계적으로 적용된다고 설명한다. 하나는 제출물이 확립된 과학 지식 영역과 정렬되어 있는지를 확인하는 것이고, 다른 하나는 질문 프롬프트 안에 답이 포함되는 정보 누출 가능성을 탐지하는 것이다. 참가자는 0.5B, 1B, 3B 규모의 세 Small Language Model 체크포인트와 제공된 채점 알고리즘을 사용해 신호 품질 하위 점수를 로컬에서 계산할 수 있다. 반면 200B에서 1T 토큰 구간 체크포인트와 웹 데이터만으로 학습된 0.5B 모델은 숨겨진 상태로 유지되어, 공개 체크포인트에 과도하게 맞춘 제출을 방지한다.

6. 일정, 상금, 지원 채널

대회는 2025년 7월 14일 시작되며, 같은 날부터 8월 17일까지 5주간 워밍업 단계가 진행된다. 개발 단계는 8월 18일부터 10월 26일까지 10주간 이어지고, 최종 단계는 10월 27일부터 11월 3일까지 진행된 뒤 11월 4일 결과가 발표된다. 수상자는 11월 22일까지 팩트 시트와 코드를 공개해야 하며, NeurIPS Competition Workshop 발표는 12월 6일 또는 7일로 예정되어 있다. 상금은 1위 6,000달러, 2위 4,000달러, 3위 2,000달러이며, 학생 참가자를 위한 2,000달러 규모의 학생상 2개도 별도로 마련되어 있다.

🧾 핵심 주장 / 시사점

  • 이 대회는 LLM 평가의 관심을 최종 성능뿐 아니라 학습 초반의 의사결정 품질로 확장하려는 시도다.
  • 숨겨진 체크포인트와 정보 누출 검증을 포함한 설계는 특정 공개 모델에 과적합된 벤치마크 제출을 줄이려는 장치로 볼 수 있다.
  • 무료 Colab GPU에서 실행 가능한 모델과 시작 키트를 제공한다는 점은 연구기관뿐 아니라 개인 참가자와 학생도 참여할 수 있도록 접근성을 의식한 구성이다.

✅ 액션 아이템

  • 초기 학습 구간 평가가 필요한 LLM 실험에서 200B 토큰 이하 단계의 성능 구별 지표를 별도로 정의한다.
  • lm-evaluation-harness 기반 평가 흐름을 Hugging Face Space 제출 형식에 맞춰 재현 가능한 템플릿으로 정리한다.
  • 신호 품질, 순위 일관성, 과학 지식 준수 점수를 나눠 추적해 어떤 지표가 초기 모델 선택에 더 유용한지 비교한다.

❓ 열린 질문

  • 기존 벤치마크가 200B 토큰 이하 초기 학습 구간에서 구별력이 낮아지는 주된 원인은 무엇인가?
  • 신호 품질과 과학 지식 준수에 더 큰 가중치를 두면 어떤 유형의 평가 솔루션이 유리해지는가?
  • 워밍업, 개발, 최종 단계별 리더보드 변화가 실제 모델 구조·데이터·하이퍼파라미터 선택과 얼마나 일관되게 맞물리는가?

관련 문서

공통 태그와 주제 흐름을 기준으로 같이 보면 좋은 문서를 이어서 제안합니다.