cuda-ipc 태그 문서 1개 | 우성짱의 문서

우성짱의 문서

Tag1건Article 1

#cuda-ipc

이 태그와 연결된 문서를 한곳에서 모아보고, 함께 자주 등장하는 연관 태그까지 이어서 탐색할 수 있습니다.

연관 태그

#host-overhead-bottleneck공동문서 1 · 연관도 100%#ipc-handle-cache공동문서 1 · 연관도 100%#llm-inference-engine공동문서 1 · 연관도 100%#multimodal-inference공동문서 1 · 연관도 100%#performance-benchmark공동문서 1 · 연관도 100%#pytorch공동문서 1 · 연관도 100%#scheduler-hot-path공동문서 1 · 연관도 100%#sglang공동문서 1 · 연관도 100%#throughput-latency-gain공동문서 1 · 연관도 100%#vlm-serving공동문서 1 · 연관도 100%

Boosting multimodal inference performance by >10% with a single Python dictionary

Article2026년 5월 4일

Boosting multimodal inference performance by >10% with a single Python dictionary

Modal은 SGLang의 멀티모달 추론 스케줄러에서 반복적인 CUDA IPC 핸들 열기 비용을 Python dict 캐시로 제거해 Qwen2.5 VL 3B Instruct 단일 H100 벤치마크에서 처리량 16.2%, 평균 지연 10% 이상 개선했다고 설명한다.

#modal #pytorch #sglang #cuda-ipc