I Built a Real AI Jarvis That Controls My Computer

🖼️ 인포그래픽

I Built a Real AI Jarvis That Controls My Computer 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 결론

컴퓨터를 제어하는 Real AI Jarvis는 GPT Realtime 2, Cursor, 도구 호출을 묶어 음성 대화형 데스크톱 에이전트가 실제 작업 흐름까지 확장될 수 있음을 보여준다.

📌 핵심 요점

이 영상의 핵심은 단순 챗봇이 아니라 음성 명령으로 메뉴 열기, UI 변경, 브라우저 실행, Codex 조작까지 수행하는 개인용 Jarvis형 데스크톱 에이전트를 만드는 과정이다.
Cursor에 긴 자연어 프롬프트를 넣고 GPT Realtime 2, OpenAI API 키, 도구 목록, UI 요구사항을 함께 정의해 Electron 기반 앱을 생성하는 방식이 중심 개발 흐름이다.
첫 버전은 음성 대화와 얼굴 UI, artifact panel 등 기본 기능은 작동했지만 Mermaid 렌더링 오류, Exa API 키 누락, 검색 결과 표현 방식, UI 완성도 같은 문제가 드러났다.
이후 반복 프롬프트를 통해 Mermaid 안정화, 웹 검색 API 연결, 메뉴 표시, 스트리밍 마크다운 렌더링, 캐릭터 애니메이션, 작은 컴퓨터 제어 모드 등 사용성과 몰입감을 개선했다.
Jarvis는 썸네일 이미지 생성·편집, 번호 기반 선택, 웹 검색, 다이어그램 생성, 컴퓨터 조작을 한 흐름 안에서 처리하며 개인 제작 워크플로와 업무 자동화 에이전트로 확장될 가능성을 보여줬다.

🧩 배경과 문제 정의

이 영상의 출발점은 개인용 Jarvis형 데스크톱 에이전트를 실제로 만들어 보는 것이다. 목표는 음성 대화, 도구 실행, UI 조작, 컴퓨터 제어가 하나의 데스크톱 앱 안에서 자연스럽게 이어지는 경험을 구현하는 데 있다.
핵심 기술은 GPT Realtime 2 기반의 실시간 음성 상호작용이다. 사용자가 말로 지시하면 에이전트가 즉시 응답하고, 필요하면 브라우저 실행, 메뉴 표시, 화면 요소 변경, 웹 검색, 이미지 생성 같은 도구 호출로 이어진다.
영상은 “코딩을 거의 몰라도 Cursor에 긴 프롬프트를 넣으면 개인용 음성 에이전트를 만들 수 있다”는 가능성을 실험한다. API 키, 앱의 성격, UI 요구사항, 사용할 도구, 컴퓨터 제어 방식 등을 자연어 프롬프트에 포함하는 것이 개발 흐름의 중심이다.
첫 생성 결과는 기본적으로 작동하지만 완성형은 아니다. 웹 검색 API 누락, Mermaid 렌더링 오류, UI 완성도 부족, 결과 표시 방식 문제, 승인 절차로 인한 자동화 흐름 저하 같은 문제가 드러나고, 이후 반복 프롬프트로 기능과 디자인을 개선한다.
최종적으로 Jarvis형 앱은 단순 음성 챗봇을 넘어 컴퓨터 조작, 웹 검색, 메뉴 안내, 썸네일 생성과 편집까지 수행하는 개인 작업 도구로 확장된다. 다만 일부 기능은 아직 개선 여지가 있으며, 검색 결과의 신뢰도나 루머 구분처럼 검증이 필요한 영역도 남아 있다.

🕒 시간순 섹션별 상세정리

음성 명령으로 UI와 컴퓨터를 조작하는 Jarvis 데모

Jary는 사용자의 음성 명령에 따라 메뉴를 열고, 배경색을 바꾸고, 감정 모드를 전환하고, 다시 메뉴를 닫는다. 이 장면은 앱이 텍스트 응답만 하는 챗봇이 아니라 화면 요소를 직접 조작하는 데스크톱 동반자처럼 작동한다는 점을 먼저 보여준다 [00:05]
이어 컴퓨터 제어 모드로 전환한 뒤 기본 브라우저를 열고 Codex를 실행한다. 이를 통해 음성 에이전트가 앱 내부 UI 조작을 넘어 로컬 컴퓨터 작업까지 이어질 수 있다는 사용 사례가 드러난다 [00:30]

Cursor 프로젝트 생성과 GPT Realtime 2 기반 앱 준비

영상은 필요한 코딩 경험이 거의 0에 가깝다는 전제에서 시작한다. 초보자도 Cursor와 긴 프롬프트를 활용하면 개인용 또는 비즈니스용 음성 에이전트를 만들 수 있다는 점이 중요하다 [01:17]
GPT Realtime 2는 실시간 대화감이 강한 음성 모델로 묶인다. 사용자가 말하면 에이전트가 즉시 응답하고, 필요할 때 도구 실행까지 연결되는 구조가 앱의 핵심 기반이 된다 [01:32]

첫 프롬프트에 API 키와 에이전트 요구사항을 담는 설계

GPT Realtime 2를 사용하기 위해 OpenAI API 키를 생성하고 프롬프트에 포함해야 한다. 이때 API 키는 민감 정보이므로 안전하게 다뤄야 하며, 공개되거나 공유되지 않도록 관리해야 한다 [03:02]
앱의 이름과 성격은 Ricky로 설정된다. 목표는 사용자가 자연스럽게 말할 수 있고, 백그라운드에서 유용한 일을 처리하며, 개인용 Jarvis처럼 작동하는 데스크톱 동반자를 만드는 것이다 [03:40]

Cursor가 첫 Electron 앱을 만들고 초기 기능을 검증

전체 요구사항을 GPT 5.5 high에 넣고 실행하자 Cursor가 약 10~15분 동안 앱을 생성한다. 긴 자연어 프롬프트가 실제 Electron 데스크톱 앱으로 바뀌는 흐름이 확인된다 [05:25]
생성된 Ricky 앱은 눈을 깜빡이는 얼굴 UI를 갖고 실행된다. 사용자가 음성으로 호출하면 응답하면서, 기본적인 대화형 companion 기능이 작동하기 시작한다 [05:50]

첫 결과의 문제를 바탕으로 기능·디자인을 대폭 수정

첫 결과를 사용해 본 뒤 Mermaid parse error 방지, Exa API 키 추가, 로컬 노트 유지, 전체 디자인 개편이 다음 수정 요구사항으로 압축된다. 단순히 앱이 켜지는 수준을 넘어 안정성과 사용성을 개선하는 단계로 넘어간다 [08:02]
UI 측면에서는 과도하게 둥근 컴포넌트와 버튼 배치를 줄이고, 왼쪽에는 큰 얼굴 영역을, 오른쪽에는 artifact 영역을 두는 50/50 구조가 요구된다. 에이전트의 존재감과 작업 결과 표시 영역을 분리하려는 방향이다 [08:31]

웹 검색 출력과 메뉴·애니메이션을 다시 다듬는 반복 개선

World Cup 최신 뉴스 검색은 작동하지만 결과가 테이블 위주로 표시된다. 이에 따라 웹 검색 결과를 더 미래적인 느낌의 스트리밍 마크다운 텍스트로 렌더링하라는 추가 요구가 생긴다 [10:20]
“Show me the menu” 명령을 통해 가능한 기능 목록을 artifact panel에 띄우는 기능이 추가된다. 사용자는 에이전트가 어떤 도구와 조작을 수행할 수 있는지 더 쉽게 확인할 수 있게 된다 [11:07]

컴퓨터 사용 모드의 실제 조작과 승인 장벽

Jarvis가 컴퓨터 사용 모드로 전환한 뒤 Codex를 열고 데스크톱을 직접 조작한다. 이 장면은 음성 명령이 실제 앱 실행과 컴퓨터 조작으로 이어지는 흐름을 보여준다 [12:22]
Codex 입력창에 인트로 개선 프롬프트를 넣는 과정에서 앱에 텍스트를 입력하거나 제출할 때마다 명시적 승인이 필요해진다. 이 승인 장벽은 자동화의 속도와 자연스러움을 떨어뜨리는 문제로 드러난다 [12:50]

음성 기반 썸네일 생성 보드 설계

다음 기능 목표는 본인 이미지를 참조로 사용해 GPT 이미지 모델로 썸네일을 만들고, 생성 결과를 다시 음성으로 편집하는 제작 도구로 확장하는 것이다. Jarvis가 콘텐츠 제작 워크플로에도 들어가기 시작한다 [14:37]
여러 썸네일 버전을 병렬로 만들기 위해 3열 그리드, 번호 기반 선택, 최신 결과를 첫 위치에 배치하는 규칙이 필요해진다. 특정 번호의 이미지를 골라 다시 편집하는 반복 제작 흐름이 핵심이 된다 [15:12]

번호 기반 이미지 선택과 반복 편집

번호 13 이미지를 전체 화면으로 열고 파란 선글라스를 추가한다. 생성된 이미지는 단순한 최종 결과물이 아니라, 선택 후 다시 수정할 수 있는 작업물로 다뤄진다 [16:57]
번호 15에는 “cute character” 텍스트를 추가하고, 번호 14에는 배경을 파란색·주황색 그라데이션에서 숲 배경으로 바꾼다. 같은 보드 안에서 텍스트 수정과 배경 변경이 모두 처리되는 반복 편집 흐름이 확인된다 [17:12]

웹 검색과 다이어그램 기능으로 확장되는 Jarvis

썸네일 편집 흐름 이후 웹 검색 메뉴를 열고 Nano Banana 루머의 최신 정보를 요청한다. Jarvis의 기능 범위가 이미지 제작에서 실시간 정보 탐색으로 넓어진다 [17:58]
검색 결과는 확정 정보보다 추측이 많다는 방향으로 압축된다. 따라서 신뢰 가능한 정보와 루머를 구분하고, 검증이 필요한 내용을 분리해 보여주는 보조 기능의 필요성이 드러난다 [18:15]

프로젝트 공개와 맞춤형 Jarvis 확장 방향

한 번의 작업 세션에서 Cursor와 GPT 실시간 기능을 활용해 Jarvis형 앱을 만들었다는 점이 압축된다. 여기에 GPT 이미지 모델까지 포함되면서, 음성만으로 원하는 제작물을 만드는 개인 워크플로가 가능해진다 [18:47]
썸네일 생성기는 아직 개선 여지가 있지만 실제로 재미있고 유용한 작업 흐름을 만들었다는 결론으로 계속된다. Jarvis는 컴퓨터 제어와 콘텐츠 제작을 함께 처리하는 맞춤형 도구로 확장될 수 있다는 마무리 논지가 드러난다 [19:05]

GitHub 공개와 직접 복제 가능한 Jarvis

썸네일 생성기는 더 다듬을 여지가 있지만, 실제로 써보는 과정 자체가 재미있고 유용한 흐름이었다고 정리한다 [19:07]
컴퓨터 모드를 나가거나 유지하라는 명령을 주고받으며 Jarvis가 화면 제어 상태를 바꾸는 모습을 짧게 확인한다 [19:17]
전체 프로젝트를 GitHub에 올릴 예정이며, 링크를 Cursor에 넣고 clone하면 같은 Jarvis를 만들 수 있다고 안내한다 [19:31]
설명란의 프롬프트를 활용하면 시청자도 자기만의 Jarvis 버전을 만들 수 있다고 덧붙인다 [19:42]

개인 실험에서 팀용 AI 에이전트로 이어지는 결론

시청자들이 어떤 Jarvis를 만드는지 보고 싶다며, 이메일이나 다른 도구와 연결한 확장 사례를 기대한다고 말한다 [19:48]
뉴욕에 모인 팀이 기업의 업무 안에 AI 에이전트를 도입하도록 돕고 있으며, Slack 안에 에이전트를 붙이는 방식도 언급한다 [20:06]
여러 모델과 오픈소스 모델을 선택해 쓰면서 회사 내부 워크플로를 살펴보고 에이전트를 만들 수 있다고 설명한다 [20:21]
마케팅 에이전트와 팀 전체가 쓸 수 있는 Slack 스킬 구축을 예로 들며, 관심이 있으면 설명란 링크를 보라고 안내하고 영상을 마무리한다 [21:00]

🧾 결론

영상은 “코딩 경험이 거의 없어도 Cursor와 긴 프롬프트를 활용해 음성 기반 데스크톱 AI 에이전트를 만들 수 있다”는 메시지를 중심으로 전개된다.
GPT Realtime 2의 실시간 음성 상호작용은 사용자가 말하고, 에이전트가 즉시 응답하며, 필요한 도구를 호출하는 Jarvis형 경험의 핵심 기반으로 제시된다.
실제 구현 과정에서는 첫 생성 결과가 완벽하지 않았고, 웹 검색 API 누락, Mermaid 오류, UI 불편함, 컴퓨터 조작 승인 장벽 같은 문제를 반복 수정으로 해결해 나갔다.
가장 인상적인 확장은 음성만으로 썸네일을 생성하고, 번호를 선택해 선글라스·텍스트·배경 등을 다시 편집하는 제작 보드형 워크플로다.
검증이 필요한 부분은 프로젝트의 실제 GitHub 공개 여부, 각 API 연결 후의 안정성, 컴퓨터 제어 모드에서 승인 장벽을 얼마나 실사용 수준으로 줄였는지다.

📈 투자·시사 포인트

개인용 AI 에이전트 시장은 단순 질의응답보다 음성 인터페이스, 로컬 컴퓨터 제어, 도구 호출, 시각적 작업 패널을 결합한 방향으로 진화할 가능성이 크다.
Cursor 같은 AI 개발 도구는 비개발자도 긴 요구사항 프롬프트로 앱을 빠르게 만들고 반복 개선할 수 있게 하며, 소프트웨어 제작 진입장벽을 낮추는 흐름을 보여준다.
GPT Realtime 2처럼 자연스러운 실시간 음성 상호작용을 제공하는 모델은 데스크톱 비서, 콘텐츠 제작 보조, 업무 자동화 에이전트의 핵심 인프라로 부각될 수 있다.
이미지 생성·편집, 웹 검색, Mermaid 다이어그램, 로컬 노트 같은 도구가 한 에이전트 안에 묶이면 콘텐츠 제작자의 반복 작업을 줄이는 워크플로 자동화 가치가 커진다.
다만 API 키 관리, 외부 검색 품질, 승인·보안 장벽, 로컬 컴퓨터 제어 권한은 실제 제품화 단계에서 반드시 해결해야 할 리스크로 보인다.
기업 활용 관점에서는 개인 Jarvis를 넘어 Slack, 이메일, 마케팅 콘텐츠 수집, 광고 운영 등 팀 단위 업무 도구와 연결된 공유형 에이전트로 확장될 여지가 있다.

⚠️ 불확실하거나 확인이 필요한 부분

GPT Realtime 2, GPT 이미지 모델, Exa API의 정확한 기능 범위·요금·권한 모델은 영상 데모만으로 확정하기 어렵다. 실제 구현 전 공식 문서 확인이 필요하다.
“코딩 경험 거의 없이 Cursor 프롬프트만으로 제작 가능”하다는 주장은 영상 사례 기준이며, OS 환경·의존성·API 키·Electron 설정에 따라 재현 난이도가 달라질 수 있다.
컴퓨터 제어 모드에서 브라우저 실행, Codex 입력, 제출 작업이 어느 수준까지 자동화 가능한지는 명시적 승인 장벽 때문에 추가 검증이 필요하다.
자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.