llm 태그 문서 89개 | 우성짱의 문서

Tag89건YouTube 26Article 63

#llm

이 태그와 연결된 문서를 한곳에서 모아보고, 함께 자주 등장하는 연관 태그까지 이어서 탐색할 수 있습니다.

Alias / 동의어

large-language-models

연관 태그

#ai-architecture공동문서 30 · 연관도 39%#openclaw공동문서 21 · 연관도 38%#llm-evaluation공동문서 7 · 연관도 28%#cayc공동문서 7 · 연관도 26%#llm-as-judge공동문서 5 · 연관도 24%#open-weight-llm공동문서 5 · 연관도 22%#llm-benchmarking공동문서 3 · 연관도 18%#hugging-face공동문서 8 · 연관도 18%#langchain공동문서 6 · 연관도 15%#agentic-web-search공동문서 2 · 연관도 15%

Article2026년 6월 11일

Claude Fable 5 and new safety fables

Nathan Lambert는 Claude Fable 5가 대중에게 공개된 가장 강력한 모델로 보이지만, Anthropic이 일부 안전 조치를 사용자에게 보이지 않게 적용한 방식은 신뢰와 시장 권력의 문제를 드러낸다고 비판한다.

Nathan Lambert

#anthropic #nathan-lambert #claude-fable-5 #claude-mythos-5

Article2026년 3월 5일

Olmo Hybrid and future LLM architectures

Olmo Hybrid는 attention과 RNN 계열 GDN을 섞은 7B 공개 모델로, 사전학습 효율과 장문 처리 가능성은 크게 보였지만 후학습과 오픈소스 추론 도구에서는 아직 해결해야 할 문제가 많다는 글이다.

interconnects.ai

#linear-attention #mamba2 #kimi-linear #olmo-hybrid

Article2026년 6월 14일

Hands-On with Langfuse: Tracing, Sessions, Evaluations, and LLM-as-a-Judge

이 글은 Langfuse를 로컬에 self hosted로 설치한 뒤 OpenAI 호출 추적, 메타데이터, 세션·사용자 연결, 내장 평가기와 LLM as a Judge 설정까지 직접 실습한 과정을 정리한다.

ai.plainenglish.io

#langfuse #openai #postgresql #docker-compose

Article2026년 4월 22일

Speeding up agentic workflows with WebSockets in the Responses API

Responses API의 WebSocket 모드는 Codex식 에이전트 루프에서 반복 API 요청과 상태 재처리 비용을 줄여, 더 빨라진 추론 속도를 실제 사용자 체감 속도로 전달하도록 만든 개선이다.

openai.com

#codex #openai #websocket #responses-api

Article2026년 6월 20일

How Retell Keeps AI Phone Agents Answering from Live Documentation with Firecrawl

Retell은 Firecrawl을 활용해 고객 문서와 헬프센터를 LLM이 바로 사용할 수 있는 최신 지식 베이스로 전환하고, AI 전화 상담원이 실제 운영 문서에 맞춰 응답하도록 한다.

Eric Ciarla

#firecrawl #puppeteer #retell #fire-engine

Article2026년 6월 20일

Designing Efficient Verifiers for Legal Agents

LangChain과 Harvey는 법률 에이전트 평가에서 검증기 비용이 병목이 되는 문제를 다루며, 기준별 호출을 배치 검증으로 묶고 더 저렴한 오픈 모델을 활용하면 frontier 모델에 가까운 성능을 유지하면서 비용을 크게 줄일 수 있다고 설명한다.

langchain.com

#harvey #langchain #lab-benchmark #deepseek-v4-flash

Article2026년 5월 7일

Parloa builds service agents customers want to talk to

Parloa는 OpenAI 모델을 활용해 기업용 음성 고객서비스 에이전트를 설계, 시뮬레이션, 평가, 운영하는 AMP 플랫폼을 구축하고 있으며, 실제 운영 환경에서의 신뢰성·지연시간·일관성을 핵심 기준으로 삼고 있다.

openai.com

#openai #parloa #speech-recognition #gpt-5-4

Article2025년 7월 26일

Jupyter Agents: training LLMs to reason with notebooks

Jupyter Agent 프로젝트는 노트북 안에서 코드 실행과 추론을 결합하는 데이터 과학 에이전트를 만들고, Kaggle 노트북 기반 데이터 파이프라인으로 소형 Qwen3 4B 모델의 DABStep 성능을 끌어올리려는 시도다.

huggingface.co

#hugging-face #jupyter-agent #qwen3-32b #qwen-3-coder

Article2026년 6월 18일

6 AI Concepts You Must Master to Build Production-Ready AI Systems

프로덕션 AI 시스템의 핵심 병목은 모델 자체보다 토큰·검색·에이전트 루프·평가·컨텍스트를 어떻게 설계하고 측정하느냐에 있다.

Rahul

#context-window #embedding-search #openai-api #vector-database

Article2026년 4월 21일

ReasoningBank: Enabling agents to learn from experience

ReasoningBank는 에이전트가 성공과 실패 경험에서 일반화 가능한 추론 전략을 추출해 배포 후에도 지속적으로 학습하도록 돕는 메모리 프레임워크다.

research.google

#matts #react #reasoningbank #synapse

Article2026년 6월 15일

How Box AI built enterprise content agents with Deep Agents

Box는 Deep Agents 기반의 부모·자식 에이전트 구조와 미들웨어를 활용해 단일 문서 Q&A를 넘어 기업 전체 콘텐츠 검색, 다중 문서 종합, 보고서 생성까지 수행하는 Box Agent를 구축했다.

langchain.com

#langchain #box-agent #box-ai #deep-agents

Article2026년 1월 30일

Introducing NVIDIA Nemotron 3 Nano Omni: Long-Context Multimodal Intelligence for Documents, Audio and Video Agents

NVIDIA Nemotron 3 Nano Omni는 문서, 이미지, 비디오, 오디오를 긴 컨텍스트 안에서 함께 이해하도록 설계된 오픈 웨이트 옴니모달 모델로, 문서 지능·영상/음성 이해·GUI 에이전트 작업에서 높은 정확도와 효율을 내세운다.

huggingface.co

#mamba #nvidia #hugging-face #c-radiov4-h

Article2026년 6월 15일

Better Experiments with LLM Evals — A funnel, not a fork

Spotify Engineering은 LLM 평가를 A/B 테스트의 대체재가 아니라, 실험 전 후보를 걸러내고 실험 후 판단 기준을 보정하는 ‘평가 퍼널’로 사용해야 한다고 설명한다.

Matilda Ankargren (Senior Data Scientist) and Mårten Schultzberg (Senior Manager/Staff Data Scientist)

#llm #spotify #llm-judge #spotify-engineering

Article2026년 6월 15일

Boosting multimodal inference performance by >10% with a single Python dictionary

Modal은 SGLang의 멀티모달 추론 스케줄러에서 반복적인 CUDA IPC 핸들 열기 비용을 Python dict 캐시로 제거해 Qwen2.5 VL 3B Instruct 단일 H100 벤치마크에서 처리량 16.2%, 평균 지연 10% 이상 개선했다고 설명한다.

Modal

#modal #pytorch #sglang #cuda-ipc

Article2026년 6월 15일

How Lyft Built a Self-Serve AI Agent Platform with LangGraph and LangSmith

Lyft는 LangGraph 기반 라우터형 멀티 에이전트 구조와 LangSmith 기반 추적·평가·모니터링을 결합해, 고객지원 AI 에이전트 개발을 MLE 중심 작업에서 도메인 전문가가 직접 반복 개선하는 셀프서브 플랫폼으로 전환했다.

미상

#langchain #langgraph #langsmith #ai-assist

Article2026년 6월 14일

Fragments: May 14

이 글은 에이전트형 프로그래밍의 부상 속에서 레거시 현대화, 금융권 규제 복잡성, 주니어 개발자 교육, 인간의 학습, 도구 설계, AI의 위험을 둘러싼 여러 단상과 논점을 엮어 정리한다.

미상

#gnu-cobol #martin-fowler #mechanical-orchard #the-orchard-retreat

Article2026년 6월 14일

Reading today's open-closed performance gap

오픈 모델과 폐쇄 모델의 성능 격차는 하나의 벤치마크 점수로 설명하기 어렵고, 과제 유형·훈련 방식·데이터 접근성·실제 제품 채택의 변화에 따라 계속 재정의된다.

Nathan Lambert

#chatgpt #interconnects #openai #nathan-lambert

Article2026년 6월 14일

As Anthropic suspends access to new models, India debates its AI future

Anthropic이 미국 정부 지시에 따라 최신 AI 모델 접근을 외국 국적자에게 중단하자, 인도에서는 해외 프런티어 모델 의존과 ‘주권 AI’ 전략을 둘러싼 논쟁이 다시 불붙었다.

Jagmeet Singh

#anthropic #india #openai #fable-5

Article2026년 6월 13일

Beyond LLMs: Why Scalable Enterprise AI Adoption Depends on Agent Logic

이 글은 기업 AI 확산의 핵심이 더 큰 LLM 자체가 아니라, LLM의 탐색 범위를 줄이고 업무 흐름 안에서 정확하게 작동하도록 이끄는 ‘에이전트 로직’에 있다고 주장한다.

Hugging Face

#aster #app-insights #hugging-face #ibm-research

Article2026년 6월 11일

Evaluate AI agents systematically with Agent-EvalKit

Agent EvalKit은 최종 응답만 보는 평가의 한계를 넘어, AI 에이전트의 도구 호출·중간 상태·근거 충실성까지 추적해 코드 수준 개선으로 연결하는 오픈소스 평가 도구입니다.

Amazon Web Services

#agent-evalkit #amazon-bedrock #amazon-web-services #strands-agents-sdk

Article2026년 6월 13일

Encoding Your Domain Expert: The Context Layer Behind Spotify's Data Assistant

스포티파이는 방대한 데이터 웨어하우스를 LLM에 그대로 넣는 대신, 도메인 전문가가 큐레이션한 ‘컨텍스트 레이어’를 통해 신뢰 가능한 데이터 어시스턴트를 구축했다.

Spotify Engineering

#spotify #vedder #data-clusters #react-loop

Article2026년 6월 11일

Top 4 Parallel AI Alternatives for Web Search and Data Extraction in 2026

이 글은 AI 에이전트용 웹 검색·데이터 추출에서 Parallel AI를 대체할 수 있는 도구로 Firecrawl, Exa, Tavily, Linkup을 제시하되, 제공된 원문 범위에서는 Parallel AI의 구조적 복잡성과 Firecrawl·Exa의 차별점을 중심으로 설명한다.

Hiba Fathima

#firecrawl #linkup #tavily #parallel-ai

Article2026년 6월 8일

WTF Is a Loop? Peter Steinberger vs. Boris Cherny

AI 코딩에서 “루프”란 사람이 계속 프롬프트를 입력하는 대신, 에이전트를 반복 실행·검증·중단시키는 작은 자동화 시스템을 설계하는 방식이며, 핵심은 모델보다 피드백과 통제 구조에 있다.

Matt Van Horn

#boris-cherny #claude-code #peter-steinberger #matt-van-horn

Article2026년 6월 5일

Your AI bill is out of control. Cloudflare can fix it now.

Cloudflare는 AI Gateway에 달러 기준 지출 한도, 실시간 비용 추적, 신원 기반 예산·정책을 추가해 기업이 통제 불가능해진 AI 비용을 사용자·팀·모델 단위로 파악하고 제한할 수 있게 한다고 발표했다.

Cloudflare

#cloudflare #openai #cloudflare-access #cloudflare-ai-gateway