long-context-serving 태그 문서 2개 | 우성짱의 문서

우성짱의 문서

Tag2건YouTube 2

#long-context-serving

이 태그와 연결된 문서를 한곳에서 모아보고, 함께 자주 등장하는 연관 태그까지 이어서 탐색할 수 있습니다.

연관 태그

#ai-cost-curve공동문서 1 · 연관도 71%#cheap-long-context공동문서 1 · 연관도 71%#deepseek-v4-pro공동문서 1 · 연관도 71%#gpu-memory-systems공동문서 1 · 연관도 71%#hybrid-attention공동문서 1 · 연관도 71%#kv-cache-costs공동문서 1 · 연관도 71%#llm-inference-infrastructure공동문서 1 · 연관도 71%#long-context-economics공동문서 1 · 연관도 71%#memory-bound-inference공동문서 1 · 연관도 71%#nvidia-gb300-nvl72공동문서 1 · 연관도 71%

딥시크가 미쳤습니다... GPT보다 30배 싼 가격

YouTube2026년 5월 29일

딥시크가 미쳤습니다... GPT보다 30배 싼 가격

딥시크 V4 Pro의 “GPT보다 30배 싼 가격”은 단순 할인보다 긴 컨텍스트와 KV 캐시 비용을 줄여 AI를 오래, 많이, 싸게 돌리려는 인프라 전략에 가깝다.

안될공학 - IT 테크 신기술

#ai-infrastructure #long-context-serving #llm-api-pricing #kv-cache-optimization

EP 96. LLM 추론 인프라와 토큰 경제학

YouTube2026년 5월 8일

EP 96. LLM 추론 인프라와 토큰 경제학

LLM 추론 인프라와 토큰 경제학 의 핵심은 모델 크기보다 긴 컨텍스트·KV cache·batch·메모리 병목을 얼마나 효율적으로 관리하느냐가 실제 비용과 경쟁력을 좌우한다는 점이다.

#llm-inference-infrastructure #token-economics #long-context-serving #gpu-memory-systems