vision-language-models 태그 문서 23개

Tag23건YouTube 4Article 19

#vision-language-models

이 태그와 연결된 문서를 한곳에서 모아보고, 함께 자주 등장하는 연관 태그까지 이어서 탐색할 수 있습니다.

연관 태그

#multimodal공동문서 21 · 연관도 89%#gemini-3-5공동문서 2 · 연관도 24%#hugging-face공동문서 5 · 연관도 22%#gemini-omni공동문서 2 · 연관도 21%#adjuster-supervision공동문서 1 · 연관도 21%#aegis-2-0공동문서 1 · 연관도 21%#agent-management-platform공동문서 1 · 연관도 21%#agentic-ai-assistants공동문서 1 · 연관도 21%#agentic-gemini-era공동문서 1 · 연관도 21%#agentic-reasoning공동문서 1 · 연관도 21%

Article2026년 5월 20일

At Google I/O 2026, it’s AI, AI, and more AI

Fortune Tech는 2026년 Google I/O가 검색, 업무 도구, 영상 생성, 웨어러블, 쇼핑까지 전 영역을 AI 중심으로 재편하려는 구글의 방향을 보여준 행사였다고 정리했다.

Andrew Nusca

#google #gemini-omni #gemini-spark #gemini-3-5

Article2025년 1월 23일

Computer-Using Agent

OpenAI의 Computer Using Agent(CUA)는 화면 픽셀을 이해하고 마우스·키보드로 조작하며, Operator가 웹과 컴퓨터 작업을 수행하도록 뒷받침하는 범용 GUI 기반 에이전트 모델이다.

openai.com

#openai #operator #gpt-4o #computer-using-agent

Article2026년 6월 9일

How an Agent Built a 3D Paris Gallery by Chaining Two Hugging Face Spaces

이 글은 코딩 에이전트가 Hugging Face의 두 Gradio Space를 문서화된 호출 인터페이스로 연결해 파리 기념물 이미지를 만들고, 이를 3D Gaussian splat 갤러리로 변환·배포한 과정을 설명한다.

huggingface.co

#gradio #agents-md #hugging-face #hugging-face-spaces

Article2025년 10월 23일

Google Earth AI: Unlocking geospatial insights with foundation models and cross-modal reasoning

Google Earth AI는 위성영상, 인구·이동, 환경 예측 모델과 Gemini 기반 지리공간 추론 에이전트를 결합해 복잡한 현실 문제를 단계적으로 분석하고 실행 가능한 지리공간 인사이트를 제공하려는 Google의 지리공간 AI 체계다.

research.google

#gemini #google-research #google-earth-ai #remote-sensing-foundations

Article2025년 4월 21일

SmolVLA: Efficient Vision-Language-Action Model trained on Lerobot Community Data

SmolVLA는 공개 커뮤니티 로봇 데이터로 학습한 4.5억 파라미터 규모의 오픈소스 Vision Language Action 모델로, 저렴한 하드웨어와 소비자급 장비에서도 학습·추론할 수 있도록 설계됐다.

huggingface.co

#lerobot #smolvla #smolvlm2 #hugging-face

Article2025년 4월 8일

Smol2Operator: Post-Training GUI Agents for Computer Use

Smol2Operator는 작은 비전 언어 모델에 GUI grounding과 행동 추론 능력을 단계적으로 학습시켜, 화면을 이해하고 클릭·입력·스크롤 같은 GUI 행동을 수행하는 에이전트로 발전시키는 공개 재현 가능한 학습 레시피입니다.

huggingface.co

#aguvis #smol2operator #hugging-face #xlangai-aguvis-stage1

Article2025년 7월 1일

Genspark ships no-code personal agents with GPT-4.1 and OpenAI Realtime API

Genspark는 검색 중심 제품에서 벗어나 OpenAI 멀티모달 모델과 Realtime API를 기반으로 텍스트·이미지·음성 작업을 자동화하는 노코드 개인 에이전트 Super Agent를 출시했고, 출시 45일 만에 ARR 3,600만 달러에 도달했다.

openai.com

#genspark #super-agent #gpt-4-1 #openai-realtime-api

Article2025년 12월 15일

NVIDIA brings agents to life with DGX Spark and Reachy Mini

NVIDIA는 CES 2026에서 DGX Spark와 Reachy Mini를 활용해 오픈 모델, 에이전트 프레임워크, 음성·비전·로봇 제어를 결합한 개인형 물리 에이전트 구현 과정을 소개했다.

huggingface.co

#nvidia #dgx-spark #reachy-mini #nemo-agent-toolkit

Article2025년 9월 9일

SafetyKit scales risk agents with OpenAI’s most capable models

SafetyKit은 OpenAI의 GPT 5, GPT 4.1, deep research, CUA를 조합해 사기·규정 위반·위험 콘텐츠를 멀티모달로 검토하는 전용 에이전트를 확장하고, 고객 콘텐츠 100% 검토에서 95% 이상 정확도를 보고했다.

openai.com

#openai #safetykit #gpt-5 #gpt-4-1

Article2026년 4월 27일

Choco automates food distribution with AI agents

Choco는 OpenAI API를 기반으로 이메일·문자·음성·이미지 등 다양한 주문 입력을 구조화된 ERP 주문으로 자동 변환하며, 글로벌 식품 유통망의 수작업 병목을 줄이고 상시 운영 체계를 구축하고 있다.

openai.com

#choco #orderagent #voiceagent #openai-api

Article2026년 5월 7일

Parloa builds service agents customers want to talk to

Parloa는 OpenAI 모델을 활용해 기업용 음성 고객서비스 에이전트를 설계, 시뮬레이션, 평가, 운영하는 AMP 플랫폼을 구축하고 있으며, 실제 운영 환경에서의 신뢰성·지연시간·일관성을 핵심 기준으로 삼고 있다.

openai.com

#openai #parloa #speech-recognition #gpt-5-4

Article2026년 1월 30일

Introducing NVIDIA Nemotron 3 Nano Omni: Long-Context Multimodal Intelligence for Documents, Audio and Video Agents

NVIDIA Nemotron 3 Nano Omni는 문서, 이미지, 비디오, 오디오를 긴 컨텍스트 안에서 함께 이해하도록 설계된 오픈 웨이트 옴니모달 모델로, 문서 지능·영상/음성 이해·GUI 에이전트 작업에서 높은 정확도와 효율을 내세운다.

huggingface.co

#mamba #nvidia #hugging-face #c-radiov4-h

Article2026년 6월 15일

Boosting multimodal inference performance by >10% with a single Python dictionary

Modal은 SGLang의 멀티모달 추론 스케줄러에서 반복적인 CUDA IPC 핸들 열기 비용을 Python dict 캐시로 제거해 Qwen2.5 VL 3B Instruct 단일 H100 벤치마크에서 처리량 16.2%, 평균 지연 10% 이상 개선했다고 설명한다.

Modal

#modal #pytorch #sglang #cuda-ipc

Article2026년 6월 5일

The latest AI news we announced in May 2026

구글은 2026년 5월 발표를 통해 Gemini 3.5와 Gemini Omni를 중심으로 에이전트형 AI, 검색·안드로이드·쇼핑·헬스·하드웨어·과학 분야 전반에 AI 기능을 확대했다고 정리했다.

Google

#google #gemini-app #gemini-omni #gemini-3-5

Article2026년 6월 14일

Nemotron 3.5 Content Safety: Customizable Multimodal Safety for Global Enterprise AI

Nemotron 3.5 Content Safety는 텍스트·이미지·응답을 함께 평가하고, 다국어 지원과 기업별 정책 적용, 감사 가능한 추론 흔적을 하나의 4B 모델 추론 호출로 통합한 콘텐츠 안전 모델이다.

미상

#mlcommons #nvidia #hugging-face #aegis-2-0

Article2026년 6월 9일

Hands-free first notice of loss: Using Strands Agents and Amazon Bedrock AgentCore Browser Tool for intelligent claims intake

이 글은 보험 FNOL 접수에서 사진·영상·문서·음성 메모 같은 비정형 증거를 자동으로 해석·태깅해, 손해사정인이 원자료 검증이 아니라 맥락이 정리된 청구 판단에서 출발하도록 만드는 에이전트 기반 접수 구조를 설명한다.

Amazon Web Services

#amazon-dynamodb #amazon-s3 #nova-act #strands-agents

Article2026년 6월 11일

AI Doesn’t Live in Text Alone

이 글은 음성 AI가 텍스트 AI처럼 발전하려면 인간 말소리의 감정·억양·상호작용을 담은 목적형 고품질 데이터가 필요하다고 설명한다.

Scale AI

#openai #hume-ai #qwen-omni #scale-ai

Article2026년 6월 4일

AMIE gains vision: A research AI agent for multimodal diagnostic dialogue

구글 리서치와 딥마인드는 시각 자료를 요청·해석·추론할 수 있는 다중모달 진단 대화 AI 에이전트 AMIE를 공개하고, 시뮬레이션 진료 평가에서 1차 진료의와 비교한 연구 결과를 제시했다.

Google

#google-deepmind #google-research #primary-care-physicians #multimodal

Article2026년 5월 19일

A new era for AI Search

구글은 AI Mode 성장세를 바탕으로 검색창, 대화형 탐색, 정보 에이전트, 예약·코딩형 기능, 개인 맥락 연결을 결합한 새로운 AI 검색 경험을 발표했다.

Google

#google #ai-mode #ai-overview #google-search

YouTube2026년 5월 14일

20시간째 일하는 모습 생중계 중…Figure 03 라이브가 보여준 휴머노이드의 진짜 시험

Figure 03의 장시간 택배 분류 라이브는 휴머노이드 경쟁의 초점이 “멋진 시연”에서 “교대근무·내구성·양산성·경제성 검증”으로 이동하고 있음을 보여줍니다.

안될공학 - IT 테크 신기술

#energy-infrastructure #figure #vision-language-models #cayc

YouTube2026년 5월 14일

AI 기업들이 대놓고 팔란티어를 베끼기 시작한 충격적인 이유

OpenAI와 Anthropic은 단순히 더 좋은 모델을 파는 단계를 넘어, 팔란티어식 FDE 전략처럼 기업 현장에 들어가 업무를 재설계하고 AI 워크플로우를 제품화하려는 방향으로 움직이고 있다는 것이 영상의 핵심 주장입니다.

묘수의 관점

#energy-infrastructure #ai-safety #anthropic #cayc

YouTube2026년 4월 29일

Demis Hassabis: Agents, AGI & The Next Big Scientific Breakthrough

지속 학습, 장기 추론, 기억의 일부 측면은 아직 해결되지 않았고, 이런 능력들은 AGI에 필수적인 구성 요소로 남아 있다

Y Combinator

#alphafold #deepmind #vision-language-models #change-management

YouTube2026년 3월 4일

뇌과학자가 말하는 AI 시대에도 끝까지 살아남는 5가지 능력 ㅣ 김대식 교수님의 고전 책 5권 추천 ㅣ도서리뷰

인간의 끝까지 남는 경쟁력은 더 나은 계산이 아니라, 불확실성 속에서 방향을 고르고 손실 뒤에 다시 귀환하며 타인을 서사 있는 주체로 대하는 유연성·회복탄력성·목표 설정·연민의 판단 구조다.

책과삶

#openclaw #llm #ai-architecture #vision-language-models