🖼️ 인포그래픽

9 demos of Gemini Omni and Gemini 3.5 in action 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

📰 9 demos of Gemini Omni and Gemini 3.5 in action

💡 한 줄 요약

Google은 Gemini Omni의 대화형 영상 생성·편집 능력과 Gemini 3.5 Flash의 장기 agentic workflow 실행 능력을 9개 데모로 묶어, 생성형 UI·검색 에이전트·개인 AI 에이전트·개발자 API까지 이어지는 제품 방향을 제시했다.

📌 핵심 요약

Google I/O 2026에서 공개된 Gemini Omni는 이미지·오디오·비디오·텍스트를 입력으로 받아 실제 세계 지식에 기반한 고품질 영상을 만들고, 자연어 대화로 영상을 이어서 편집할 수 있는 모델로 소개됐다.
Gemini 3.5 Flash는 속도와 frontier급 지능을 결합해 장기 agentic task, 코딩, 여러 단계의 자동화 workflow에 초점을 맞춘 모델로 설명됐다.
데모는 영상 편집, 장면 재구성, multi-turn 수정, asset rename/categorization, checkout UI 생성, Search의 generative UI, information agent, mini app/dashboard 생성, Gemini Spark 개인 에이전트까지 이어진다.
Google Antigravity harness는 Gemini 3.5 Flash가 supervised subagent와 협업하며 복잡한 문제를 scale 있게 처리하는 실행 환경으로 등장한다.
Gemini Omni Flash와 Gemini 3.5 Flash는 Gemini app, Google Flow, YouTube Shorts, YouTube Create App, Gemini API, Google AI Studio, Android Studio, Gemini Enterprise, AI Mode in Search로 확장 배포된다.

🧩 주요 포인트

Gemini Omni는 텍스트 입력만이 아니라 영상·이미지·오디오·텍스트를 함께 받아 새로운 영상을 생성하고, 자연어 대화를 통해 이전 편집 맥락을 유지하면서 장면·스타일·카메라 각도·오브젝트를 수정하는 방향으로 설계됐다.
Gemini 3.5 Flash는 long-horizon agentic tasks와 coding tasks에 초점을 맞추며, Antigravity harness와 결합해 여러 단계의 workflow를 자동으로 실행하고 structured assets를 동적 기준에 따라 이름 변경·분류하는 데모를 보여준다.
Google Search는 Gemini 3.5 Flash의 agentic coding capability를 활용해 질의에 맞는 custom generative UI, visual tools, simulations, dashboards, trackers, mini apps를 즉석에서 만드는 방향으로 확장된다.
Gemini Spark는 Gemini 3.5와 Antigravity harness 위에서 24/7 동작하는 개인 AI 에이전트로 소개되며 Gmail, Docs, Slides 같은 Workspace 도구와 연결돼 사용자의 지시 아래 실제 작업을 수행한다.
배포 측면에서는 Gemini Omni Flash가 Gemini app·Google Flow·YouTube Shorts·YouTube Create App으로, Gemini 3.5 Flash가 Gemini API·Google AI Studio·Android Studio·Gemini Enterprise·AI Mode in Search로 확장된다.

🧠 상세 정리

1. Gemini Omni: 대화형 영상 생성과 편집

기사의 첫 축은 Gemini Omni다. Google은 Gemini Omni를 “reasoning과 creation이 만나는 모델”로 설명하며, 특히 비디오 생성과 편집을 중심 기능으로 제시한다. 사용자는 이미 촬영한 영상이나 다른 multimodal input을 출발점으로 삼아 자연어로 조명, 카메라 각도, 장면 구성, 오브젝트, 스타일을 바꿀 수 있다. 중요한 점은 각 지시가 이전 지시 위에 누적되고, 캐릭터 일관성·물리적 맥락·장면 기억이 유지된다는 점이다. 이는 단순한 one-shot 영상 생성보다 편집 workflow에 가깝다.

2. Gemini 3.5 Flash: 속도와 agentic 실행 능력의 결합

두 번째 축은 Gemini 3.5 Flash다. Google은 3.5 Flash를 “frontier performance for agents and coding”으로 설명한다. Flash 계열의 빠른 응답성과 대형 flagship 모델에 가까운 작업 수행 능력을 결합해 long-horizon tasks를 처리하는 모델로 포지셔닝한다. 데모에서는 Antigravity 기반으로 정리되지 않은 assets를 동적 기준에 따라 자동으로 rename·categorize하는 multi-step workflow가 제시된다. 이는 모델이 단순 응답을 넘어 파일·분류·코딩·툴 실행을 포함한 운영형 task를 수행하는 방향을 보여준다.

3. Antigravity harness와 supervised subagents

기사에서 Antigravity는 Gemini 3.5 Flash의 agentic 능력을 실제 작업 환경으로 연결하는 harness로 등장한다. Google은 3.5 Flash가 업데이트된 Antigravity harness와 결합될 때 supervised subagents를 배치해 복잡한 문제를 scale 있게 처리할 수 있다고 설명한다. 여기서 핵심은 완전 자율이 아니라 supervision 아래 collaborative subagents가 coding tasks와 multi-step workflow를 reliable하게 수행한다는 점이다. 이는 AI coding agent와 workflow automation의 다음 단계가 단일 chat interface가 아니라 agent harness와 execution control로 이동하고 있음을 시사한다.

4. Search와 generative UI의 결합

Google Search도 중요한 배포 채널로 제시된다. Gemini 3.5 Flash의 agentic coding capability가 Search 안으로 들어오면서, 검색 결과가 단순 링크·요약을 넘어 질문에 맞춘 custom UI, 시뮬레이션, visual tools를 즉석에서 생성하는 형태로 진화한다. 기사에서는 Gyroid pattern을 설명하는 interactive visual, wedding planning이나 fitness routine처럼 반복 방문이 필요한 dashboard·tracker·mini app이 예시로 등장한다. 이는 검색이 정보 검색에서 작업 환경 생성으로 확장되는 방향이다.

5. Gemini Spark와 개인 AI 에이전트

Gemini Spark는 Gemini 3.5와 Antigravity harness 위에서 동작하는 개인 AI 에이전트로 소개된다. 이 에이전트는 24시간 동작하며 사용자의 지시에 따라 digital life를 탐색하고 Gmail, Docs, Slides 같은 Workspace 도구와 연결된다. 예시로 nut-free snacks 목록을 만들고 Instacart에 추가하는 작업이 제시된다. 이는 개인 에이전트가 단순 조언자가 아니라 외부 서비스와 연결된 실행 주체가 되는 방향을 보여준다.

6. 제품 배포와 생태계 확장

마지막으로 Google은 Gemini Omni Flash와 Gemini 3.5 Flash를 광범위한 제품군에 배포한다. Gemini Omni Flash는 Gemini app과 Google Flow, YouTube Shorts, YouTube Create App으로 확장되고, 개발자·기업용 API 배포도 예고된다. Gemini 3.5 Flash는 Gemini API, Google AI Studio, Android Studio, Gemini Enterprise Agent Platform, Gemini Enterprise, AI Mode in Search, Gemini app으로 제공된다. 이 배포 구조는 Google이 모델 발표를 개별 기능이 아니라 consumer app, creator tools, developer tools, enterprise platform 전체에 걸친 product surface로 확장하려 한다는 점을 보여준다.

🧾 핵심 주장 / 시사점

Gemini Omni는 multimodal generation을 “대화형 영상 편집 workflow”로 밀어붙이며, creator tool의 사용 방식을 prompt 한 번에서 연속 편집 대화로 바꿀 가능성이 있다.
Gemini 3.5 Flash는 agentic workflow와 coding task에 초점을 맞추며, 빠른 모델이 단순 저비용 응답용이 아니라 장기 작업 실행 엔진이 될 수 있음을 보여준다.
Search, Workspace, YouTube, Enterprise, developer tools가 같은 모델 계열 위에 연결되면서 Google의 AI 전략은 모델 성능 발표보다 실행 환경과 배포면 통합에 더 가까워지고 있다.

✅ 액션 아이템

Gemini Omni의 영상 생성·편집 데모를 creator workflow 관점에서 분류하고, 기존 video tool 대비 반복 편집·장면 기억·multimodal input이 주는 차이를 정리한다.
Gemini 3.5 Flash가 Antigravity harness에서 수행한 asset rename/categorization 사례를 agentic workflow 평가 기준으로 재해석한다.
Search generative UI, information agent, mini app/dashboard 생성 기능이 기존 검색 UX와 어떻게 달라지는지 사용 시나리오별로 비교한다.
Gemini API, Google AI Studio, Android Studio, Gemini Enterprise Agent Platform 배포 경로를 개발자·기업 도입 관점에서 나누어 추적한다.

❓ 열린 질문

Gemini Omni의 대화형 영상 편집은 실제 production workflow에서 어느 수준까지 장면 일관성과 편집 가능성을 유지할 수 있을까?
3.5 Flash가 long-horizon agentic tasks에 강하다는 주장은 어떤 benchmark보다 실제 supervised workflow 성공률로 검증해야 할까?
Search가 custom UI와 mini app을 즉석 생성할 때 사용자는 결과물을 검색 결과로 볼까, 아니면 임시 application으로 볼까?
Gemini Spark 같은 개인 에이전트가 Workspace와 외부 commerce service를 연결할 때 권한, 감사 로그, 사용자 확인 절차는 어떻게 설계되어야 할까?