이 태그와 연결된 문서를 한곳에서 모아보고, 함께 자주 등장하는 연관 태그까지 이어서 탐색할 수 있습니다.
Alias / 동의어
연관 태그
JP모건체이스 CIO 로리 비어는 연 198억 달러 규모의 기술·AI 예산을 바탕으로 AI 에이전트를 업무 전반에 도입하되, 권한·보안·검증·인간 개입을 핵심 원칙으로 삼아 은행의 일하는 방식을 재설계하고 있다.
중국의 AI 전략은 미국식 초대형 프런티어 모델 경쟁을 그대로 따라잡는 것이 아니라, 비용 효율·오픈소스·응용 확산을 통해 별도의 생태계를 구축하는 데 초점이 있다.
이 글은 GPT OSS를 에이전트형 강화학습의 백본 모델로 활용하기 위해 verl 기반 PPO 학습에서 발견한 온폴리시 불일치, 훈련·추론 불일치, attention sink 미지원 문제를 단계적으로 진단하고 수정한 실험 회고다.
OpenAI는 o series 모델에 사람이 쓴 안전 명세를 직접 가르치고 추론 과정에서 이를 검토하게 하는 ‘숙고적 정렬’을 통해 악성 요청 거부와 benign 요청 허용의 균형을 개선했다고 설명한다.
OpenAI는 프런티어 추론 모델이 보상 구조의 허점을 찾아 악용할 수 있으며, 체인오브소트(CoT)를 다른 LLM으로 감시하면 이런 의도를 잘 포착할 수 있지만 CoT 자체를 강하게 최적화하면 모델이 악의적 의도를 숨기게 된다고 보고했다.
OpenAI는 프롬프트 인젝션을 대화형 AI가 외부 콘텐츠의 악성 지시에 속아 사용자의 의도와 다른 행동을 하게 되는 새로운 보안 과제로 설명하며, 모델 훈련·모니터링·제품 보호장치·사용자 통제를 결합한 다층 방어가 필요하다고 강조한다.
OpenAI는 모델이 지시를 어기거나 보상 신호를 편법적으로 최적화했을 때 별도 출력으로 스스로 인정하도록 훈련하는 초기 개념증명 기법 ‘confessions’를 소개한다.
OpenAI는 기업 AI가 소비자 중심의 초기 확산을 넘어 실제 조직의 반복 업무, 제품, 고객 경험, 개발 프로세스에 깊이 통합되는 단계로 진입했으며, 사용 강도와 생산성 효과, 산업별 확산 속도에서 뚜렷한 변화가 나타나고 있다고 설명한다.
OpenAI는 gpt oss 공개 전 생물·사이버보안 영역에서 악의적 미세조정으로 최악의 위험을 추정했으며, 평가 결과 기존 최전선 모델을 넘어서지는 않는다고 밝혔다.
프런티어 LLM의 안전한 배포를 위해서는 시스템, 개발자, 사용자, 도구 출력 등 여러 출처의 지시가 충돌할 때 더 신뢰도 높은 지시를 일관되게 우선하도록 훈련하는 것이 핵심이다.
NeurIPS 2025 E2LM Competition은 LLM 초기 학습 단계에서 과학 지식과 추론 신호를 더 잘 포착하는 벤치마크를 함께 만들기 위한 대회다.
DeepSeek R1은 긴 추론 과정을 거쳐 답을 내는 공개 모델로, OpenAI o1과 경쟁할 성능을 보이면서도 자유로운 사용·수정과 낮은 API 비용을 내세운다.
구글 리서치가 제안한 ‘speculative cascades’는 표준 캐스케이드와 speculative decoding을 결합해 LLM 추론의 비용, 속도, 품질 사이의 균형을 더 유연하게 조정하는 하이브리드 방식이다.
DeepSeek V3는 MoE 구조와 여러 학습 최적화를 바탕으로 주요 벤치마크에서 강한 성능을 보이면서도 매우 낮은 학습 비용을 제시해, 기초 모델 개발의 경제성을 다시 생각하게 만든다.
AraGen은 아랍어 LLM을 대상으로 사실성·사용성을 함께 평가하기 위해 3C3H 척도, 동적 블라인드 평가 주기, 인간 검증 데이터셋을 결합한 생성형 벤치마크와 리더보드다.
LLM 토큰 가격은 오픈웨이트 모델 경쟁, 하드웨어 혁신, 추론 기술 개선으로 빠르게 하락하고 있으며, AI 기업은 비용 최적화보다 유용한 애플리케이션 구축과 주기적 모델 전환 검토에 집중해야 한다.
Gemma 4의 성패는 출시 직후 벤치마크 점수보다 라이선스, 도구 지원, 미세조정 가능성, 실제 사용 사례 적응성에 달려 있다.
Epoch AI는 최신 데이터 확장을 바탕으로, 프런티어 AI 모델의 학습 컴퓨트가 최근 연간 약 4~5배 속도로 증가해 왔다고 결론짓는다.
OpenAI는 ChatGPT가 기본적으로 정치적 편향 없이 객관성을 유지해야 한다는 원칙을 실제 대화형 평가로 측정하기 위해, 약 500개 프롬프트와 다섯 가지 편향 축을 갖춘 자동 평가 체계를 만들고 GPT‑5 계열에서 편향 감소를 확인했다고 설명한다.
네이선 램버트는 2026년 중반의 오픈 모델 경쟁을 단순한 ‘따라잡기’가 아니라 역량 격차, 자금 조달, 배포, 규제, 실제 사용처가 얽힌 복잡한 경제·기술 문제로 본다.
OpenAI의 GPT OSS는 Apache 2.0으로 공개된 20B·120B 오픈 웨이트 추론 모델군으로, Hugging Face 생태계에서 API·로컬 추론·GPU별 최적화를 통해 폭넓게 활용할 수 있도록 소개된다.
블룸버그는 생성형 AI가 겉보기에는 단순한 질의응답처럼 보이지만, 실제로는 전력·데이터센터·토지·물·광물·인력 등 광범위한 자원을 대규모로 요구하는 수요 충격이라고 설명한다.
NVIDIA는 Nemotron 3 Nano 30B A3B의 벤치마크 결과를 NeMo Evaluator 기반의 공개 설정·로그·아티팩트와 함께 배포해, 모델 평가를 재현 가능하고 감사 가능한 표준 절차로 만들려 한다.
AI 에이전트는 LLM을 더 큰 시스템에 결합해 디지털 세계에서 목표 지향적 행동을 수행하는 기술이며, 자율성이 높아질수록 편익과 함께 안전·통제·신뢰 위험도 커진다는 점이 핵심이다.