OpenAI and Broadcom unveil LLM-optimized inference chip

🖼️ 인포그래픽

OpenAI and Broadcom unveil LLM-optimized inference chip 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 요약

OpenAI와 Broadcom은 LLM 추론에 최적화한 OpenAI의 첫 인텔리전스 프로세서 ‘Jalapeño’를 공개하며, 모델·제품·인프라까지 직접 최적화하는 풀스택 전략을 칩 단계로 확장했다.

📌 핵심 요약

OpenAI와 Broadcom은 LLM 추론을 중심으로 설계된 첫 AI 가속기 Jalapeño를 공개했다. 이 칩은 OpenAI가 장기적으로 구축하려는 다세대 컴퓨팅 플랫폼의 첫 단계로 제시됐다.
Jalapeño는 기존 AI 워크로드용 범용 가속기를 변형한 것이 아니라, ChatGPT, Codex, API, 향후 에이전트형 제품에서 필요한 추론 패턴을 바탕으로 처음부터 설계됐다.
OpenAI는 최종 성능을 아직 측정 중이지만, 초기 테스트에서 Jalapeño가 현재 최첨단 수준보다 훨씬 나은 와트당 성능을 낼 것으로 나타났다고 밝혔다.
이 플랫폼은 OpenAI의 모델·커널·서빙 시스템·제품 요구사항과 Broadcom의 실리콘 구현·네트워킹 기술, Celestica의 보드·랙·시스템 전문성을 결합해 개발됐다.
OpenAI는 Jalapeño를 통해 더 빠르고 안정적이며 저렴한 AI 접근성을 제공하고, 향후 2026년 말 초기 배포와 이후 기가와트 규모 확장을 목표로 한다고 설명했다.

🧩 주요 포인트

OpenAI와 Broadcom은 LLM 추론을 중심으로 설계된 첫 AI 가속기 Jalapeño를 공개했다. 이 칩은 OpenAI가 장기적으로 구축하려는 다세대 컴퓨팅 플랫폼의 첫 단계로 제시됐다.
Jalapeño는 기존 AI 워크로드용 범용 가속기를 변형한 것이 아니라, ChatGPT, Codex, API, 향후 에이전트형 제품에서 필요한 추론 패턴을 바탕으로 처음부터 설계됐다.
OpenAI는 최종 성능을 아직 측정 중이지만, 초기 테스트에서 Jalapeño가 현재 최첨단 수준보다 훨씬 나은 와트당 성능을 낼 것으로 나타났다고 밝혔다.
이 플랫폼은 OpenAI의 모델·커널·서빙 시스템·제품 요구사항과 Broadcom의 실리콘 구현·네트워킹 기술, Celestica의 보드·랙·시스템 전문성을 결합해 개발됐다.
OpenAI는 Jalapeño를 통해 더 빠르고 안정적이며 저렴한 AI 접근성을 제공하고, 향후 2026년 말 초기 배포와 이후 기가와트 규모 확장을 목표로 한다고 설명했다.

🧠 상세 정리

1. OpenAI의 첫 추론 전용 칩 공개

OpenAI와 Broadcom은 OpenAI의 첫 인텔리전스 프로세서인 Jalapeño를 공개했다. 이 칩은 OpenAI가 바라보는 미래 LLM 추론 환경을 중심으로 설계된 가속기이며, 두 회사가 함께 구축하는 다세대 컴퓨팅 플랫폼의 첫 AI 가속기로 소개됐다. 발표는 Sam Altman과 Greg Brockman에게 Broadcom의 Hock Tan과 Charlie Kawwas가 Jalapeño를 전달하는 장면과 함께 OpenAI의 풀스택 전략에서 중요한 단계로 설명됐다. 핵심 메시지는 OpenAI가 모델과 제품뿐 아니라 그 아래의 물리적 컴퓨팅 인프라까지 직접 설계 범위에 넣고 있다는 점이다.

2. 현재와 미래 LLM을 겨냥한 백지 설계

Jalapeño는 이전 AI 워크로드에서 출발한 범용 가속기를 LLM에 맞게 조정한 제품이 아니라, 현대 LLM 추론을 위해 처음부터 다시 설계된 칩으로 제시됐다. OpenAI는 자사의 모델 로드맵, 커널, 서빙 시스템, 제품 요구사항, 그리고 LLM의 기본 원리에 대한 이해를 설계의 출발점으로 삼았다고 밝혔다. 동시에 이 칩은 OpenAI 모델에만 닫힌 구조가 아니라, 업계의 현재 및 미래 LLM 추론 요구를 반영해 다양한 LLM에 유연하게 대응하도록 설계됐다고 설명됐다. 연구소에서는 생산 목표 주파수와 전력 조건에서 머신러닝 워크로드가 동작하고 있으며, GPT-5.3-Codex-Spark도 예시로 언급됐다.

3. 성능 목표와 아키텍처 방향

OpenAI는 Jalapeño의 최종 성능을 아직 측정 중이라고 전제하면서도, 초기 테스트에서는 와트당 성능이 현재 최첨단 수준보다 상당히 나을 것으로 나타났다고 밝혔다. 자세한 성능 기술 보고서는 향후 몇 달 안에 발표될 예정이다. 원문은 Jalapeño의 설계가 데이터 이동을 줄이고, 연산·메모리·네트워킹 자원의 균형을 맞춰 이론적 최고 성능에 더 가까운 실제 활용률을 달성하는 데 초점을 둔다고 설명한다. Broadcom은 실리콘 구현과 Tomahawk 네트워킹 실리콘을 포함한 네트워킹 기술을 제공해 이 플랫폼을 대규모 생산으로 연결하는 역할을 맡는다.

4. 풀스택 인프라 전략의 확장

OpenAI는 Jalapeño를 단순한 칩 발표가 아니라 장기적인 풀스택 인프라 전략의 일부로 설명한다. Greg Brockman은 더 많은 컴퓨팅을 확보하면 AI를 더 빠르고 안정적이며 저렴하게 만들 수 있고, 더 중요한 문제 해결에 사용할 수 있다고 말했다. 원문은 OpenAI가 프런티어 모델을 개발하고 그 위에 제품을 만드는 데서 멈추지 않고, 칩 아키텍처, 커널, 메모리 시스템, 네트워킹, 스케줄링, 배포 시스템, 제품 경험까지 같은 목표 아래 최적화하려 한다고 강조한다. 이 목표는 사용자에게 더 넓은 접근성을 제공하는 방향으로 정리된다.

5. 9개월 개발과 소프트웨어·하드웨어 공동 설계

Jalapeño는 초기 설계에서 제조 테이프아웃까지 9개월 만에 공동 개발됐다고 설명된다. OpenAI는 이 맞춤형 AI 가속기 프로그램이 고성능 첨단 반도체 분야에서 매우 빠른 ASIC 개발 주기라고 밝혔다. 이 속도는 OpenAI 엔지니어링 팀의 소프트웨어·하드웨어 공동 개발, Broadcom의 실리콘 구현 전문성, 그리고 설계와 최적화 과정 일부를 가속하는 OpenAI 모델 활용이 결합된 결과로 제시됐다. 원문은 사용자를 위해 제공되는 모델이 미래 모델을 구동할 인프라 개선에도 쓰이고 있다는 점을 강조하며, AI가 더 나은 칩 설계를 빠르게 돕는다면 컴퓨팅 비용을 낮추고 고급 AI 접근성을 넓히는 데 기여할 수 있다고 설명한다.

6. 배포 계획과 사용자 경험에 대한 의미

Jalapeño는 2026년 말 초기 배포를 목표로 하는 다세대 컴퓨팅 플랫폼의 첫 단계로 제시됐다. 이 플랫폼은 OpenAI가 설계한 가속기, Broadcom의 실리콘 구현·네트워킹·연결 기술, Celestica의 보드·랙·시스템 전문성을 결합하며, 이후 여러 세대에 걸쳐 확장될 계획이다. Broadcom의 Hock Tan은 OpenAI와의 협력이 향후 10년 AI에 필요한 물리적 인프라 확장에 대한 근본적 약속이며, Microsoft 및 다른 파트너들과 함께 2026년부터 기가와트 규모 데이터센터 배포를 가능하게 한다고 말했다. OpenAI는 추론이 실제로 AI가 사람에게 도달하는 지점이므로, 비용·속도·신뢰성 개선이 더 빠른 ChatGPT 응답, 더 적은 대기 시간의 Codex 작업, 더 저렴한 API 제품, 수요가 높을 때 더 안정적인 접근성으로 이어질 수 있다고 정리했다.

🧾 핵심 주장 / 시사점

OpenAI가 Jalapeño를 공개한 핵심은 칩 자체보다도 모델, 서빙, 네트워킹, 배포, 제품 경험을 하나의 최적화 목표로 묶는 풀스택 전략을 공식화한 데 있다.
원문은 성능 수치를 확정하지 않고 초기 테스트와 향후 기술 보고서 발표를 구분한다. 따라서 이 발표의 현재 근거는 ‘와트당 성능이 크게 개선될 가능성’이지, 검증 완료된 최종 벤치마크는 아니다.
Jalapeño의 산업적 의미는 LLM 추론이 AI 서비스의 비용과 체감 품질을 좌우하는 병목으로 부상했음을 보여준다는 점이다. OpenAI는 추론 효율 개선을 더 빠른 제품, 더 낮은 비용, 더 안정적인 접근성으로 연결하려 한다.