Frontier Data Centers
🖼️ 인포그래픽
🖼️ 4컷 인포그래픽
💡 한 줄 요약
Epoch AI의 Frontier Data Centers Hub는 위성사진, 허가 문서, 공개 자료를 활용해 대형 AI 데이터센터의 위치, 전력·컴퓨트 용량, 비용, 건설 일정을 추적하는 공개 데이터베이스다.
📌 핵심 요약
- 이 데이터셋은 미국을 중심으로 주요 AI 연구소와 관련된 대형 AI 데이터센터의 건설·운영 현황을 추적하며, 고해상도 위성 이미지와 허가 자료, 기업 공개자료를 근거로 삼는다.
- Epoch AI는 AI 데이터센터를 AI 전용 하드웨어가 배치된 하나 이상의 인접 건물 또는 캠퍼스로 정의하며, 실험·훈련·배포 목적의 AI 모델 운영에 쓰일 수 있다고 설명한다.
- 수집 항목은 위치, 소유자, 사용자 같은 기본 정보뿐 아니라 시간에 따른 전력 용량, 컴퓨트 용량, 자본 비용이며, 앞으로 건물 면적과 물 사용량 같은 지표도 확대할 계획이다.
- 현재 데이터베이스는 전 세계에서 가장 큰 기존 또는 계획 데이터센터 중 일부를 다루며, 2025년 11월 기준 전 세계 칩 제조사가 공급한 AI 컴퓨트의 약 15%를 포함한다고 추정한다.
- 전력·컴퓨트·비용 추정에는 불확실성이 명시되어 있으며, 사용자·소유자 관계가 확실하지 않은 경우에는 ‘Speculative’ 또는 ‘Likely’ 같은 태그로 근거 수준을 구분한다.
🧩 주요 포인트
- 이 데이터셋은 미국을 중심으로 주요 AI 연구소와 관련된 대형 AI 데이터센터의 건설·운영 현황을 추적하며, 고해상도 위성 이미지와 허가 자료, 기업 공개자료를 근거로 삼는다.
- Epoch AI는 AI 데이터센터를 AI 전용 하드웨어가 배치된 하나 이상의 인접 건물 또는 캠퍼스로 정의하며, 실험·훈련·배포 목적의 AI 모델 운영에 쓰일 수 있다고 설명한다.
- 수집 항목은 위치, 소유자, 사용자 같은 기본 정보뿐 아니라 시간에 따른 전력 용량, 컴퓨트 용량, 자본 비용이며, 앞으로 건물 면적과 물 사용량 같은 지표도 확대할 계획이다.
- 현재 데이터베이스는 전 세계에서 가장 큰 기존 또는 계획 데이터센터 중 일부를 다루며, 2025년 11월 기준 전 세계 칩 제조사가 공급한 AI 컴퓨트의 약 15%를 포함한다고 추정한다.
- 전력·컴퓨트·비용 추정에는 불확실성이 명시되어 있으며, 사용자·소유자 관계가 확실하지 않은 경우에는 ‘Speculative’ 또는 ‘Likely’ 같은 태그로 근거 수준을 구분한다.
🧠 상세 정리
1. 데이터셋의 목적과 공개 범위
Frontier Data Centers는 Epoch AI가 운영하는 대형 AI 데이터센터 공개 데이터베이스다. 이 허브는 위성 이미지, 허가 문서, 공개 자료를 이용해 AI 데이터센터의 컴퓨트 규모, 전력 사용, 건설 일정을 추적하는 것을 목표로 한다. 데이터는 내려받을 수 있으며, 전체 데이터셋, 데이터센터 목록, 타임라인, 냉각 장비 관련 자료가 별도 CSV 또는 ZIP 형태로 제공된다. 본문은 이 데이터베이스가 독립적으로 구축되었고, 주요 미국 AI 데이터센터의 건설 흐름을 고해상도 이미지와 문서 기반으로 확인한다는 점을 강조한다.
2. AI 데이터센터의 정의
Epoch AI는 AI 데이터센터를 AI에 특화된 하드웨어를 운영하는 하나 이상의 건물 묶음으로 정의한다. 여기에는 GPU나 Google TPU 같은 맞춤형 칩이 포함될 수 있으며, 이러한 데이터센터는 AI 모델을 실험하고 훈련하며 배포하는 데 사용될 수 있다. 건물 간 거리에 대해 엄격한 기준을 두지는 않지만, 대략 10km 이내를 하나의 기준으로 삼고, 건물들이 네트워크로 연결되어 있거나 같은 소유자 또는 사용자를 공유해야 한다고 설명한다. 또한 여러 건물로 이루어진 캠퍼스와 단일 건물을 별도로 구분하지 않고 모두 데이터센터 단위로 분류한다.
3. 초기 추적 대상과 미국 중심의 이유
데이터베이스의 초기 범위는 미국 내 주요 프런티어 AI 연구소별로 가장 큰 데이터센터 두세 곳을 포괄하는 것을 목표로 한다. 본문에서 언급된 대상 연구소는 Anthropic, Google DeepMind, OpenAI, Meta, xAI다. Epoch AI가 미국 데이터센터를 주로 추적하는 이유는 이전 연구를 바탕으로 가장 큰 데이터센터의 상당수가 미국에 있다고 보기 때문이다. 동시에 한 국가에 집중하면 허가 기준과 문서 형식에 익숙해질 수 있어 방법론을 검증하는 데 도움이 되며, 향후 다른 국가로 범위를 계속 확장하겠다고 밝힌다.
4. 수집 정보와 시간에 따른 추적 방식
Epoch AI는 각 데이터센터에 대해 위치, 소유자, 사용자 같은 일반 정보를 수집한다. 여기에 위성 또는 항공 이미지가 더해지고, 데이터센터가 발전하는 과정에서 핵심 지표가 시간축에 따라 추적된다. 모든 추적 대상 데이터센터에는 총 전력 용량, 컴퓨트 용량, 자본 비용의 타임라인이 포함된다. 본문은 향후 건물 면적과 물 사용량 같은 다른 지표도 점차 포함할 예정이라고 설명하며, 이러한 정보가 어떻게 산출되는지는 별도의 방법론 문서에서 다룬다고 안내한다.
5. 포괄성 추정과 전체 AI 컴퓨트 대비 비중
현재 데이터베이스는 전 세계에서 가장 큰 기존 또는 계획 AI 데이터센터 중 일부를 선별해 다루며, 대부분은 미국에 위치한다. Epoch AI는 2025년 11월 기준 전 세계 칩 제조사가 공급한 AI 컴퓨트 중 약 15%가 이 데이터 허브에 포함되어 있다고 추정한다. 이 추정은 Nvidia가 중국을 제외하고 Hopper GPU 400만 개와 Blackwell GPU 600만 개를 출하했다는 공개 정보를 바탕으로 설명된다. 본문은 전통적 계산 방식에서 Blackwell 수량을 조정하고, 다른 칩 공급량을 더해 총 AI 컴퓨트 재고를 H100e 환산 기준으로 추정한 뒤, 허브가 추적하는 운영 용량 250만 H100e가 전체 출하량의 약 15~17%라고 계산한다.
6. GPU Clusters 데이터베이스와의 차이
본문은 Frontier Data Centers 데이터베이스와 GPU Clusters 데이터베이스의 차이도 설명한다. GPU Clusters 데이터베이스는 AI와 다른 용도에 쓰인 컴퓨팅 클러스터의 폭넓은 역사적 범위를 다루며, 특정 건물이나 캠퍼스 안에 있는 전체 컴퓨트 중 일부만을 나타낼 수 있다. 반면 Frontier Data Centers는 프로젝트 수준에서 AI 데이터센터를 바라보며, 현재와 앞으로의 가장 큰 데이터센터에 초점을 둔다. 또한 허가 문서와 위성 이미지 같은 1차 자료를 더 적극적으로 활용해 개별 데이터센터에 대한 세부성과 정확도를 높이려는 점이 다르며, 두 데이터베이스는 앞으로도 함께 유지될 예정이다.
7. 전력·컴퓨트·비용 추정 방법
각 데이터센터의 전력 추정은 이용 가능한 증거를 바탕으로 이루어진다. 여기에는 허가 문서, 냉각 장비 정보, 기업의 공개 발언이 포함될 수 있다. 컴퓨트 용량은 칩의 종류와 수량이 보고된 경우 그 정보를 기반으로 추정하고, 그렇지 않은 경우에는 전력과 사용 가능성이 높다고 판단되는 칩의 에너지 효율을 바탕으로 계산한다. 비용 추정은 전적으로 전력에 기반하며, 일반적인 와트당 비용 모델을 적용한다. 본문은 세부 산출 방식은 방법론 문서를 참고하라고 안내한다.
8. 불확실성 모델과 신뢰 수준
Epoch AI는 데이터센터의 특정 상태에 대한 수량 추정과 그 상태가 발생하는 시점 모두에 대해 불확실성을 모델링한다. 수량 측면에서 전력 용량 추정은 80% 신뢰수준에서 실제값 또는 계획값의 70%에서 140% 사이에 들어갈 것으로 본다. 컴퓨트 용량은 불확실성 계수가 1.5, 비용은 1.6으로 더 크며, 시점에 대해서는 80% 신뢰수준에서 실제 상태와 6개월 이내 차이라고 설명한다. 이러한 신뢰 수준은 기준값과 추정치의 차이에 관한 데이터와 그 위에 구축한 모델링에 의해 뒷받침되며, 더 많은 데이터센터를 추적하고 연구가 늘어나면 정확도가 개선될 것으로 기대한다.
9. 사용자·소유자 관계의 확실성 표시
데이터센터의 사용자, 소유자, 관련 조직을 표시할 때는 기본적으로 강한 근거가 있는 경우를 전제로 한다. 그러나 특히 데이터센터 사용자와 관련해서는 불확실한 경우가 있으며, 이때 Epoch AI는 ‘Speculative’와 ‘Likely’ 태그를 사용한다. ‘Speculative’는 직접적인 제휴 기록은 없지만 믿을 만한 이유가 있는 경우를 뜻하며, 본문은 Anthropic과 Amazon의 Project Rainier 관련 보도를 예로 든다. ‘Likely’는 제휴에 관한 일부 기록은 있으나 확신이 낮은 경우를 뜻하며, Microsoft Fairwater가 처음에는 OpenAI 모델 훈련에 쓰일 것이라는 발언과 이후 파트너십 약화 맥락을 함께 제시한다.
10. 훈련 실행과 데이터센터 간 네트워킹
본문은 전체 데이터센터가 하나의 AI 모델 훈련에 쓰일 수 있는지에 대해서도 설명한다. 이론적으로는 가능하지만 실제로 항상 그렇게 운영되는 것은 아니며, 데이터센터의 총 용량은 해당 장소에서 수행할 수 있는 훈련 실행 규모의 상한에 더 가깝다고 말한다. 데이터센터는 여러 작업을 병렬로 수행하는 경우가 많고, 하나의 작업에 전체 데이터센터가 투입되더라도 하드웨어 장애로 인해 실제 사용 가능 용량은 약간 줄어든다. 또한 8비트 OP/s로 표시되는 총 컴퓨트 용량은 이론적 피크 성능이며, 실제 계산 성능은 비효율 때문에 보통 그 약 3분의 1 수준이라고 설명한다. 먼 데이터센터 간 분산 훈련은 기술적으로 가능하다는 기존 분석과 기업들의 제안이 있으며, 데이터베이스는 향후 데이터센터 간 네트워크 연결 여부도 추적할 계획이다.
🧾 핵심 주장 / 시사점
- 이 데이터셋의 핵심 가치는 데이터센터 규모를 기업 발표만이 아니라 위성사진, 허가 문서, 냉각 설비 같은 관찰 가능한 근거로 추정한다는 점이다.
- 전력 용량을 컴퓨트와 비용 추정의 중심 변수로 삼기 때문에, AI 인프라 경쟁을 이해하려면 칩 수량뿐 아니라 전력 확보와 건설 일정도 함께 봐야 한다.
- 사용자 관계와 용량 추정에 불확실성 표기를 명시한 점은 데이터베이스가 단정적 목록이 아니라 지속적으로 보정되는 추적·추정 시스템임을 보여준다.
✅ 액션 아이템
- 데이터센터 분석 시 위치·소유자·사용자뿐 아니라 전력 용량, 컴퓨트 용량, 자본 비용, 건설 일정까지 함께 비교한다.
- 데이터 활용 시 ‘Speculative’와 ‘Likely’ 태그를 구분해 소유자·사용자 관계의 근거 수준을 별도로 표시한다.
- 향후 건물 면적과 물 사용량 지표가 추가되면 전력·컴퓨트 중심 분석에 환경·인프라 부담 관점을 보강한다.
❓ 열린 질문
- 미국 중심의 대형 AI 데이터센터 추적 결과가 전 세계 AI 컴퓨트 분포를 얼마나 대표할 수 있을까?
- 전력·컴퓨트·비용 추정의 불확실성은 데이터센터 간 비교나 투자 판단에 어떤 영향을 줄까?
- 건물 면적과 물 사용량 지표가 추가되면 AI 데이터센터의 규모와 부담을 해석하는 방식이 어떻게 달라질까?