YouTubeRiley Brown·2026년 7월 1일·0

I Built a Real AI Jarvis That Controls My Computer

Quick Summary

컴퓨터를 제어하는 Real AI Jarvis는 GPT Realtime 2, Cursor, 도구 호출을 묶어 음성 대화형 데스크톱 에이전트가 실제 작업 흐름까지 확장될 수 있음을 보여준다.

영상 보기

클릭 전까지는 가벼운 미리보기만 먼저 불러옵니다.

원본 열기

🖼️ 인포그래픽

I Built a Real AI Jarvis That Controls My Computer 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

I Built a Real AI Jarvis That Controls My Computer 내용을 설명하는 본문 이미지

💡 한 줄 결론

컴퓨터를 제어하는 Real AI Jarvis는 GPT Realtime 2, Cursor, 도구 호출을 묶어 음성 대화형 데스크톱 에이전트가 실제 작업 흐름까지 확장될 수 있음을 보여준다.

📌 핵심 요점

  1. 이 영상의 핵심은 단순 챗봇이 아니라 음성 명령으로 메뉴 열기, UI 변경, 브라우저 실행, Codex 조작까지 수행하는 개인용 Jarvis형 데스크톱 에이전트를 만드는 과정이다.
  2. Cursor에 긴 자연어 프롬프트를 넣고 GPT Realtime 2, OpenAI API 키, 도구 목록, UI 요구사항을 함께 정의해 Electron 기반 앱을 생성하는 방식이 중심 개발 흐름이다.
  3. 첫 버전은 음성 대화와 얼굴 UI, artifact panel 등 기본 기능은 작동했지만 Mermaid 렌더링 오류, Exa API 키 누락, 검색 결과 표현 방식, UI 완성도 같은 문제가 드러났다.
  4. 이후 반복 프롬프트를 통해 Mermaid 안정화, 웹 검색 API 연결, 메뉴 표시, 스트리밍 마크다운 렌더링, 캐릭터 애니메이션, 작은 컴퓨터 제어 모드 등 사용성과 몰입감을 개선했다.
  5. Jarvis는 썸네일 이미지 생성·편집, 번호 기반 선택, 웹 검색, 다이어그램 생성, 컴퓨터 조작을 한 흐름 안에서 처리하며 개인 제작 워크플로와 업무 자동화 에이전트로 확장될 가능성을 보여줬다.

🧩 배경과 문제 정의

  • 이 영상의 출발점은 개인용 Jarvis형 데스크톱 에이전트를 실제로 만들어 보는 것이다. 목표는 음성 대화, 도구 실행, UI 조작, 컴퓨터 제어가 하나의 데스크톱 앱 안에서 자연스럽게 이어지는 경험을 구현하는 데 있다.
  • 핵심 기술은 GPT Realtime 2 기반의 실시간 음성 상호작용이다. 사용자가 말로 지시하면 에이전트가 즉시 응답하고, 필요하면 브라우저 실행, 메뉴 표시, 화면 요소 변경, 웹 검색, 이미지 생성 같은 도구 호출로 이어진다.
  • 영상은 “코딩을 거의 몰라도 Cursor에 긴 프롬프트를 넣으면 개인용 음성 에이전트를 만들 수 있다”는 가능성을 실험한다. API 키, 앱의 성격, UI 요구사항, 사용할 도구, 컴퓨터 제어 방식 등을 자연어 프롬프트에 포함하는 것이 개발 흐름의 중심이다.
  • 첫 생성 결과는 기본적으로 작동하지만 완성형은 아니다. 웹 검색 API 누락, Mermaid 렌더링 오류, UI 완성도 부족, 결과 표시 방식 문제, 승인 절차로 인한 자동화 흐름 저하 같은 문제가 드러나고, 이후 반복 프롬프트로 기능과 디자인을 개선한다.
  • 최종적으로 Jarvis형 앱은 단순 음성 챗봇을 넘어 컴퓨터 조작, 웹 검색, 메뉴 안내, 썸네일 생성과 편집까지 수행하는 개인 작업 도구로 확장된다. 다만 일부 기능은 아직 개선 여지가 있으며, 검색 결과의 신뢰도나 루머 구분처럼 검증이 필요한 영역도 남아 있다.

🕒 시간순 섹션별 상세정리

  1. 음성 명령으로 UI와 컴퓨터를 조작하는 Jarvis 데모
  • Jary는 사용자의 음성 명령에 따라 메뉴를 열고, 배경색을 바꾸고, 감정 모드를 전환하고, 다시 메뉴를 닫는다. 이 장면은 앱이 텍스트 응답만 하는 챗봇이 아니라 화면 요소를 직접 조작하는 데스크톱 동반자처럼 작동한다는 점을 먼저 보여준다 [00:05]
  • 이어 컴퓨터 제어 모드로 전환한 뒤 기본 브라우저를 열고 Codex를 실행한다. 이를 통해 음성 에이전트가 앱 내부 UI 조작을 넘어 로컬 컴퓨터 작업까지 이어질 수 있다는 사용 사례가 드러난다 [00:30]
  1. Cursor 프로젝트 생성과 GPT Realtime 2 기반 앱 준비
  • 영상은 필요한 코딩 경험이 거의 0에 가깝다는 전제에서 시작한다. 초보자도 Cursor와 긴 프롬프트를 활용하면 개인용 또는 비즈니스용 음성 에이전트를 만들 수 있다는 점이 중요하다 [01:17]
  • GPT Realtime 2는 실시간 대화감이 강한 음성 모델로 묶인다. 사용자가 말하면 에이전트가 즉시 응답하고, 필요할 때 도구 실행까지 연결되는 구조가 앱의 핵심 기반이 된다 [01:32]
  1. 첫 프롬프트에 API 키와 에이전트 요구사항을 담는 설계
  • GPT Realtime 2를 사용하기 위해 OpenAI API 키를 생성하고 프롬프트에 포함해야 한다. 이때 API 키는 민감 정보이므로 안전하게 다뤄야 하며, 공개되거나 공유되지 않도록 관리해야 한다 [03:02]
  • 앱의 이름과 성격은 Ricky로 설정된다. 목표는 사용자가 자연스럽게 말할 수 있고, 백그라운드에서 유용한 일을 처리하며, 개인용 Jarvis처럼 작동하는 데스크톱 동반자를 만드는 것이다 [03:40]
  1. Cursor가 첫 Electron 앱을 만들고 초기 기능을 검증
  • 전체 요구사항을 GPT 5.5 high에 넣고 실행하자 Cursor가 약 10~15분 동안 앱을 생성한다. 긴 자연어 프롬프트가 실제 Electron 데스크톱 앱으로 바뀌는 흐름이 확인된다 [05:25]
  • 생성된 Ricky 앱은 눈을 깜빡이는 얼굴 UI를 갖고 실행된다. 사용자가 음성으로 호출하면 응답하면서, 기본적인 대화형 companion 기능이 작동하기 시작한다 [05:50]
  1. 첫 결과의 문제를 바탕으로 기능·디자인을 대폭 수정
  • 첫 결과를 사용해 본 뒤 Mermaid parse error 방지, Exa API 키 추가, 로컬 노트 유지, 전체 디자인 개편이 다음 수정 요구사항으로 압축된다. 단순히 앱이 켜지는 수준을 넘어 안정성과 사용성을 개선하는 단계로 넘어간다 [08:02]
  • UI 측면에서는 과도하게 둥근 컴포넌트와 버튼 배치를 줄이고, 왼쪽에는 큰 얼굴 영역을, 오른쪽에는 artifact 영역을 두는 50/50 구조가 요구된다. 에이전트의 존재감과 작업 결과 표시 영역을 분리하려는 방향이다 [08:31]
  1. 웹 검색 출력과 메뉴·애니메이션을 다시 다듬는 반복 개선
  • World Cup 최신 뉴스 검색은 작동하지만 결과가 테이블 위주로 표시된다. 이에 따라 웹 검색 결과를 더 미래적인 느낌의 스트리밍 마크다운 텍스트로 렌더링하라는 추가 요구가 생긴다 [10:20]
  • “Show me the menu” 명령을 통해 가능한 기능 목록을 artifact panel에 띄우는 기능이 추가된다. 사용자는 에이전트가 어떤 도구와 조작을 수행할 수 있는지 더 쉽게 확인할 수 있게 된다 [11:07]
  1. 컴퓨터 사용 모드의 실제 조작과 승인 장벽
  • Jarvis가 컴퓨터 사용 모드로 전환한 뒤 Codex를 열고 데스크톱을 직접 조작한다. 이 장면은 음성 명령이 실제 앱 실행과 컴퓨터 조작으로 이어지는 흐름을 보여준다 [12:22]
  • Codex 입력창에 인트로 개선 프롬프트를 넣는 과정에서 앱에 텍스트를 입력하거나 제출할 때마다 명시적 승인이 필요해진다. 이 승인 장벽은 자동화의 속도와 자연스러움을 떨어뜨리는 문제로 드러난다 [12:50]
  1. 음성 기반 썸네일 생성 보드 설계
  • 다음 기능 목표는 본인 이미지를 참조로 사용해 GPT 이미지 모델로 썸네일을 만들고, 생성 결과를 다시 음성으로 편집하는 제작 도구로 확장하는 것이다. Jarvis가 콘텐츠 제작 워크플로에도 들어가기 시작한다 [14:37]
  • 여러 썸네일 버전을 병렬로 만들기 위해 3열 그리드, 번호 기반 선택, 최신 결과를 첫 위치에 배치하는 규칙이 필요해진다. 특정 번호의 이미지를 골라 다시 편집하는 반복 제작 흐름이 핵심이 된다 [15:12]
  1. 번호 기반 이미지 선택과 반복 편집
  • 번호 13 이미지를 전체 화면으로 열고 파란 선글라스를 추가한다. 생성된 이미지는 단순한 최종 결과물이 아니라, 선택 후 다시 수정할 수 있는 작업물로 다뤄진다 [16:57]
  • 번호 15에는 “cute character” 텍스트를 추가하고, 번호 14에는 배경을 파란색·주황색 그라데이션에서 숲 배경으로 바꾼다. 같은 보드 안에서 텍스트 수정과 배경 변경이 모두 처리되는 반복 편집 흐름이 확인된다 [17:12]
  1. 웹 검색과 다이어그램 기능으로 확장되는 Jarvis
  • 썸네일 편집 흐름 이후 웹 검색 메뉴를 열고 Nano Banana 루머의 최신 정보를 요청한다. Jarvis의 기능 범위가 이미지 제작에서 실시간 정보 탐색으로 넓어진다 [17:58]
  • 검색 결과는 확정 정보보다 추측이 많다는 방향으로 압축된다. 따라서 신뢰 가능한 정보와 루머를 구분하고, 검증이 필요한 내용을 분리해 보여주는 보조 기능의 필요성이 드러난다 [18:15]
  1. 프로젝트 공개와 맞춤형 Jarvis 확장 방향
  • 한 번의 작업 세션에서 Cursor와 GPT 실시간 기능을 활용해 Jarvis형 앱을 만들었다는 점이 압축된다. 여기에 GPT 이미지 모델까지 포함되면서, 음성만으로 원하는 제작물을 만드는 개인 워크플로가 가능해진다 [18:47]
  • 썸네일 생성기는 아직 개선 여지가 있지만 실제로 재미있고 유용한 작업 흐름을 만들었다는 결론으로 계속된다. Jarvis는 컴퓨터 제어와 콘텐츠 제작을 함께 처리하는 맞춤형 도구로 확장될 수 있다는 마무리 논지가 드러난다 [19:05]
  1. GitHub 공개와 직접 복제 가능한 Jarvis
  • 썸네일 생성기는 더 다듬을 여지가 있지만, 실제로 써보는 과정 자체가 재미있고 유용한 흐름이었다고 정리한다 [19:07]
  • 컴퓨터 모드를 나가거나 유지하라는 명령을 주고받으며 Jarvis가 화면 제어 상태를 바꾸는 모습을 짧게 확인한다 [19:17]
  • 전체 프로젝트를 GitHub에 올릴 예정이며, 링크를 Cursor에 넣고 clone하면 같은 Jarvis를 만들 수 있다고 안내한다 [19:31]
  • 설명란의 프롬프트를 활용하면 시청자도 자기만의 Jarvis 버전을 만들 수 있다고 덧붙인다 [19:42]
  1. 개인 실험에서 팀용 AI 에이전트로 이어지는 결론
  • 시청자들이 어떤 Jarvis를 만드는지 보고 싶다며, 이메일이나 다른 도구와 연결한 확장 사례를 기대한다고 말한다 [19:48]
  • 뉴욕에 모인 팀이 기업의 업무 안에 AI 에이전트를 도입하도록 돕고 있으며, Slack 안에 에이전트를 붙이는 방식도 언급한다 [20:06]
  • 여러 모델과 오픈소스 모델을 선택해 쓰면서 회사 내부 워크플로를 살펴보고 에이전트를 만들 수 있다고 설명한다 [20:21]
  • 마케팅 에이전트와 팀 전체가 쓸 수 있는 Slack 스킬 구축을 예로 들며, 관심이 있으면 설명란 링크를 보라고 안내하고 영상을 마무리한다 [21:00]

🧾 결론

  • 영상은 “코딩 경험이 거의 없어도 Cursor와 긴 프롬프트를 활용해 음성 기반 데스크톱 AI 에이전트를 만들 수 있다”는 메시지를 중심으로 전개된다.
  • GPT Realtime 2의 실시간 음성 상호작용은 사용자가 말하고, 에이전트가 즉시 응답하며, 필요한 도구를 호출하는 Jarvis형 경험의 핵심 기반으로 제시된다.
  • 실제 구현 과정에서는 첫 생성 결과가 완벽하지 않았고, 웹 검색 API 누락, Mermaid 오류, UI 불편함, 컴퓨터 조작 승인 장벽 같은 문제를 반복 수정으로 해결해 나갔다.
  • 가장 인상적인 확장은 음성만으로 썸네일을 생성하고, 번호를 선택해 선글라스·텍스트·배경 등을 다시 편집하는 제작 보드형 워크플로다.
  • 검증이 필요한 부분은 프로젝트의 실제 GitHub 공개 여부, 각 API 연결 후의 안정성, 컴퓨터 제어 모드에서 승인 장벽을 얼마나 실사용 수준으로 줄였는지다.

📈 투자·시사 포인트

  • 개인용 AI 에이전트 시장은 단순 질의응답보다 음성 인터페이스, 로컬 컴퓨터 제어, 도구 호출, 시각적 작업 패널을 결합한 방향으로 진화할 가능성이 크다.
  • Cursor 같은 AI 개발 도구는 비개발자도 긴 요구사항 프롬프트로 앱을 빠르게 만들고 반복 개선할 수 있게 하며, 소프트웨어 제작 진입장벽을 낮추는 흐름을 보여준다.
  • GPT Realtime 2처럼 자연스러운 실시간 음성 상호작용을 제공하는 모델은 데스크톱 비서, 콘텐츠 제작 보조, 업무 자동화 에이전트의 핵심 인프라로 부각될 수 있다.
  • 이미지 생성·편집, 웹 검색, Mermaid 다이어그램, 로컬 노트 같은 도구가 한 에이전트 안에 묶이면 콘텐츠 제작자의 반복 작업을 줄이는 워크플로 자동화 가치가 커진다.
  • 다만 API 키 관리, 외부 검색 품질, 승인·보안 장벽, 로컬 컴퓨터 제어 권한은 실제 제품화 단계에서 반드시 해결해야 할 리스크로 보인다.
  • 기업 활용 관점에서는 개인 Jarvis를 넘어 Slack, 이메일, 마케팅 콘텐츠 수집, 광고 운영 등 팀 단위 업무 도구와 연결된 공유형 에이전트로 확장될 여지가 있다.

⚠️ 불확실하거나 확인이 필요한 부분

  • GPT Realtime 2, GPT 이미지 모델, Exa API의 정확한 기능 범위·요금·권한 모델은 영상 데모만으로 확정하기 어렵다. 실제 구현 전 공식 문서 확인이 필요하다.
  • “코딩 경험 거의 없이 Cursor 프롬프트만으로 제작 가능”하다는 주장은 영상 사례 기준이며, OS 환경·의존성·API 키·Electron 설정에 따라 재현 난이도가 달라질 수 있다.
  • 컴퓨터 제어 모드에서 브라우저 실행, Codex 입력, 제출 작업이 어느 수준까지 자동화 가능한지는 명시적 승인 장벽 때문에 추가 검증이 필요하다.
  • 자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
  • 영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
  • 검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.

✅ 액션 아이템

  • OpenAI API 키와 Exa API 키를 프롬프트에 직접 노출하지 않는 안전한 저장 방식부터 설계한다.
  • 음성 에이전트가 실행할 수 있는 도구 범위와 승인 필요 작업을 명확히 분리한다.
  • Mermaid 렌더링 실패, 웹 검색 API 누락, 이미지 생성 실패 같은 오류 케이스별 복구 로직을 추가한다.
  • 얼굴 UI, artifact panel, 메뉴 표시, 검색 결과 출력 방식을 실제 작업 흐름 기준으로 단순화한다.

❓ 열린 질문

  • 어떤 작업까지 음성 명령만으로 자동 실행하고, 어떤 작업은 사용자 승인을 반드시 요구해야 하는가?
  • 개인용 Jarvis의 핵심 사용 사례는 컴퓨터 제어, 정보 검색, 콘텐츠 제작, 로컬 기록 관리 중 어디에 우선순위를 둬야 하는가?
  • 웹 검색 결과에서 루머와 확인된 정보를 어떻게 UI상에서 명확히 구분할 것인가?

관련 문서

공통 태그와 주제 흐름을 기준으로 같이 보면 좋은 문서를 이어서 제안합니다.