이 태그와 연결된 문서를 한곳에서 모아보고, 함께 자주 등장하는 연관 태그까지 이어서 탐색할 수 있습니다.
Alias / 동의어
연관 태그
Nathan Lambert는 Claude Fable 5가 대중에게 공개된 가장 강력한 모델로 보이지만, Anthropic이 일부 안전 조치를 사용자에게 보이지 않게 적용한 방식은 신뢰와 시장 권력의 문제를 드러낸다고 비판한다.
Olmo Hybrid는 attention과 RNN 계열 GDN을 섞은 7B 공개 모델로, 사전학습 효율과 장문 처리 가능성은 크게 보였지만 후학습과 오픈소스 추론 도구에서는 아직 해결해야 할 문제가 많다는 글이다.
이 글은 Langfuse를 로컬에 self hosted로 설치한 뒤 OpenAI 호출 추적, 메타데이터, 세션·사용자 연결, 내장 평가기와 LLM as a Judge 설정까지 직접 실습한 과정을 정리한다.
Responses API의 WebSocket 모드는 Codex식 에이전트 루프에서 반복 API 요청과 상태 재처리 비용을 줄여, 더 빨라진 추론 속도를 실제 사용자 체감 속도로 전달하도록 만든 개선이다.
Retell은 Firecrawl을 활용해 고객 문서와 헬프센터를 LLM이 바로 사용할 수 있는 최신 지식 베이스로 전환하고, AI 전화 상담원이 실제 운영 문서에 맞춰 응답하도록 한다.
LangChain과 Harvey는 법률 에이전트 평가에서 검증기 비용이 병목이 되는 문제를 다루며, 기준별 호출을 배치 검증으로 묶고 더 저렴한 오픈 모델을 활용하면 frontier 모델에 가까운 성능을 유지하면서 비용을 크게 줄일 수 있다고 설명한다.
Parloa는 OpenAI 모델을 활용해 기업용 음성 고객서비스 에이전트를 설계, 시뮬레이션, 평가, 운영하는 AMP 플랫폼을 구축하고 있으며, 실제 운영 환경에서의 신뢰성·지연시간·일관성을 핵심 기준으로 삼고 있다.
Jupyter Agent 프로젝트는 노트북 안에서 코드 실행과 추론을 결합하는 데이터 과학 에이전트를 만들고, Kaggle 노트북 기반 데이터 파이프라인으로 소형 Qwen3 4B 모델의 DABStep 성능을 끌어올리려는 시도다.
프로덕션 AI 시스템의 핵심 병목은 모델 자체보다 토큰·검색·에이전트 루프·평가·컨텍스트를 어떻게 설계하고 측정하느냐에 있다.
ReasoningBank는 에이전트가 성공과 실패 경험에서 일반화 가능한 추론 전략을 추출해 배포 후에도 지속적으로 학습하도록 돕는 메모리 프레임워크다.
Box는 Deep Agents 기반의 부모·자식 에이전트 구조와 미들웨어를 활용해 단일 문서 Q&A를 넘어 기업 전체 콘텐츠 검색, 다중 문서 종합, 보고서 생성까지 수행하는 Box Agent를 구축했다.
NVIDIA Nemotron 3 Nano Omni는 문서, 이미지, 비디오, 오디오를 긴 컨텍스트 안에서 함께 이해하도록 설계된 오픈 웨이트 옴니모달 모델로, 문서 지능·영상/음성 이해·GUI 에이전트 작업에서 높은 정확도와 효율을 내세운다.
Spotify Engineering은 LLM 평가를 A/B 테스트의 대체재가 아니라, 실험 전 후보를 걸러내고 실험 후 판단 기준을 보정하는 ‘평가 퍼널’로 사용해야 한다고 설명한다.
Modal은 SGLang의 멀티모달 추론 스케줄러에서 반복적인 CUDA IPC 핸들 열기 비용을 Python dict 캐시로 제거해 Qwen2.5 VL 3B Instruct 단일 H100 벤치마크에서 처리량 16.2%, 평균 지연 10% 이상 개선했다고 설명한다.
Lyft는 LangGraph 기반 라우터형 멀티 에이전트 구조와 LangSmith 기반 추적·평가·모니터링을 결합해, 고객지원 AI 에이전트 개발을 MLE 중심 작업에서 도메인 전문가가 직접 반복 개선하는 셀프서브 플랫폼으로 전환했다.
이 글은 에이전트형 프로그래밍의 부상 속에서 레거시 현대화, 금융권 규제 복잡성, 주니어 개발자 교육, 인간의 학습, 도구 설계, AI의 위험을 둘러싼 여러 단상과 논점을 엮어 정리한다.
오픈 모델과 폐쇄 모델의 성능 격차는 하나의 벤치마크 점수로 설명하기 어렵고, 과제 유형·훈련 방식·데이터 접근성·실제 제품 채택의 변화에 따라 계속 재정의된다.
Anthropic이 미국 정부 지시에 따라 최신 AI 모델 접근을 외국 국적자에게 중단하자, 인도에서는 해외 프런티어 모델 의존과 ‘주권 AI’ 전략을 둘러싼 논쟁이 다시 불붙었다.
이 글은 기업 AI 확산의 핵심이 더 큰 LLM 자체가 아니라, LLM의 탐색 범위를 줄이고 업무 흐름 안에서 정확하게 작동하도록 이끄는 ‘에이전트 로직’에 있다고 주장한다.
Agent EvalKit은 최종 응답만 보는 평가의 한계를 넘어, AI 에이전트의 도구 호출·중간 상태·근거 충실성까지 추적해 코드 수준 개선으로 연결하는 오픈소스 평가 도구입니다.
스포티파이는 방대한 데이터 웨어하우스를 LLM에 그대로 넣는 대신, 도메인 전문가가 큐레이션한 ‘컨텍스트 레이어’를 통해 신뢰 가능한 데이터 어시스턴트를 구축했다.
이 글은 AI 에이전트용 웹 검색·데이터 추출에서 Parallel AI를 대체할 수 있는 도구로 Firecrawl, Exa, Tavily, Linkup을 제시하되, 제공된 원문 범위에서는 Parallel AI의 구조적 복잡성과 Firecrawl·Exa의 차별점을 중심으로 설명한다.
AI 코딩에서 “루프”란 사람이 계속 프롬프트를 입력하는 대신, 에이전트를 반복 실행·검증·중단시키는 작은 자동화 시스템을 설계하는 방식이며, 핵심은 모델보다 피드백과 통제 구조에 있다.
Cloudflare는 AI Gateway에 달러 기준 지출 한도, 실시간 비용 추적, 신원 기반 예산·정책을 추가해 기업이 통제 불가능해진 AI 비용을 사용자·팀·모델 단위로 파악하고 제한할 수 있게 한다고 발표했다.