Genspark ships no-code personal agents with GPT-4.1 and OpenAI Realtime API

🖼️ 인포그래픽

Genspark ships no-code personal agents with GPT-4.1 and OpenAI Realtime API 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 요약

Genspark는 검색 중심 제품에서 벗어나 OpenAI 멀티모달 모델과 Realtime API를 기반으로 텍스트·이미지·음성 작업을 자동화하는 노코드 개인 에이전트 Super Agent를 출시했고, 출시 45일 만에 ARR 3,600만 달러에 도달했다.

📌 핵심 요약

Genspark는 원래 정보를 종합·구조화하는 AI 검색 엔진으로 출발했지만, 2024년 말부터 사용자가 단순한 답변보다 피치덱, 영상 스크립트, 후속 이메일 같은 실제 결과물을 요구하는 방향으로 이동하자 2025년 4월 에이전트형 AI로 전환했다.
Super Agent는 코딩 없이 간단한 프롬프트만으로 전화 걸기, 슬라이드 제작, 영상 생성, 보고서 요약 등 현실 세계의 복합 작업을 수행하도록 설계된 자율형 개인 에이전트다.
시스템 내부에서는 9개의 특화 대규모 언어 모델과 80개 이상의 통합 도구를 조율하며, GPT-4.1은 긴 문서 처리와 구조화된 출력, 지시 이행에 활용되고 GPT-image-1은 이미지 생성에 쓰인다.
Call For Me 기능은 OpenAI Realtime API와 음성-음성 기능을 활용해 실제 전화 통화를 자연스럽게 처리하며, 일본에서는 퇴사 전화를 대신 걸어주는 사례가 화제가 됐다.
Genspark는 20명 규모의 팀과 유료 광고 없이 제품 확산과 입소문만으로 Super Agent 출시 45일 만에 ARR 3,600만 달러를 달성했고, 앞으로 AI 브라우저와 형식이 풍부한 AI 문서 생성 영역으로 확장하려 한다.

🧩 주요 포인트

Genspark는 원래 정보를 종합·구조화하는 AI 검색 엔진으로 출발했지만, 2024년 말부터 사용자가 단순한 답변보다 피치덱, 영상 스크립트, 후속 이메일 같은 실제 결과물을 요구하는 방향으로 이동하자 2025년 4월 에이전트형 AI로 전환했다.
Super Agent는 코딩 없이 간단한 프롬프트만으로 전화 걸기, 슬라이드 제작, 영상 생성, 보고서 요약 등 현실 세계의 복합 작업을 수행하도록 설계된 자율형 개인 에이전트다.
시스템 내부에서는 9개의 특화 대규모 언어 모델과 80개 이상의 통합 도구를 조율하며, GPT-4.1은 긴 문서 처리와 구조화된 출력, 지시 이행에 활용되고 GPT-image-1은 이미지 생성에 쓰인다.
Call For Me 기능은 OpenAI Realtime API와 음성-음성 기능을 활용해 실제 전화 통화를 자연스럽게 처리하며, 일본에서는 퇴사 전화를 대신 걸어주는 사례가 화제가 됐다.
Genspark는 20명 규모의 팀과 유료 광고 없이 제품 확산과 입소문만으로 Super Agent 출시 45일 만에 ARR 3,600만 달러를 달성했고, 앞으로 AI 브라우저와 형식이 풍부한 AI 문서 생성 영역으로 확장하려 한다.

🧠 상세 정리

1. 검색에서 결과 실행 중심 에이전트로의 전환

Genspark는 처음에 소비자와 전문가가 정보를 종합하고 구조화하도록 돕는 AI 검색 엔진으로 출발했다. 그러나 2024년 말부터 사용자의 요구는 단순히 ‘이 시장을 요약해 달라’는 답변형 요청에서 피치덱, 영상 스크립트, 후속 이메일처럼 실제 산출물을 요구하는 방향으로 바뀌었다. 동시에 모델의 긴 컨텍스트 처리, 추론 능력, 멀티모달 API가 발전하면서 정보 검색을 넘어 전체 워크플로를 자동화할 가능성이 커졌다. 이 사용자 수요와 기술 준비도의 변화가 맞물리며 Genspark는 2025년 4월 검색 중심 전략에서 벗어나 에이전트형 AI를 전면에 내세우는 결정을 했다.

2. Super Agent의 노코드 자율 작업 구조

2025년 4월 Genspark가 출시한 Super Agent는 전화 걸기, 슬라이드 디자인, 영상 생성 등 다양한 작업을 수행하는 완전 자율형 노코드 어시스턴트로 소개된다. 사용자는 내부 모델이나 도구 구성을 이해할 필요 없이 ‘치과에 전화해 줘’, ‘이 보고서를 요약해 줘’, ‘슬라이드 덱을 만들어 줘’처럼 원하는 결과를 말하면 된다. 플랫폼 내부에서는 9개의 특화 대규모 언어 모델과 80개 이상의 통합 도구가 작업별로 조율되며, 각 과제에 가장 적합한 구성 요소가 동적으로 배정된다. 핵심은 사용자가 워크플로를 만들거나 설정을 조정하지 않아도 복잡한 실행 과정을 시스템이 대신 처리한다는 점이다.

3. OpenAI 모델과 API가 맡는 핵심 역할

Super Agent의 중심에는 OpenAI의 멀티모달 모델과 Realtime API가 있다. GPT-4.1은 연구 작업과 구조화된 출력에 활용되며, 향상된 지시 이행 능력과 100만 토큰 컨텍스트 창을 통해 긴 문서를 잘라내지 않고 처리할 수 있게 한다. 엄격한 JSON 출력은 후속 도구가 안정적으로 사용할 수 있는 구조화 응답을 만들기 위한 장치로 설명되고, 자동 프롬프트 캐싱은 여러 단계로 이루어진 작업에서 지연 시간과 API 비용을 줄이는 데 도움이 된다. 이미지 생성에는 OpenAI API를 통한 GPT-image-1 모델이 사용되며, 이 조합이 텍스트·이미지·음성에 걸친 작업 자동화를 가능하게 한다.

4. 실제 전화 통화를 수행하는 Call For Me 사례

Super Agent에서 특히 주목받은 기능 중 하나는 실제 전화를 대신 걸고 대화를 이어가는 Call For Me다. 이 기능은 예약, 배송 일정 변경 같은 상황에서 미리 정해진 스크립트나 어색한 전환 없이 자연스러운 대화를 처리하도록 설계됐다. OpenAI Realtime API와 음성-음성 기능이 실시간 대화를 맡고, 별도의 섀도 모델이 메시지 큐를 통해 상호작용을 모니터링하고 안내하는 이중 구조가 사용된다. 이 방식 덕분에 통화 중 대기 음악이 나오거나 상대방의 답변이 모호한 경우에도 빠르고 일관된 응답이 가능하다고 설명된다. 일본에서는 사용자가 고용주에게 퇴사 전화를 대신 걸도록 요청한 사례가 바이럴되며, AI 에이전트가 다룰 수 있는 인간적 상호작용의 범위를 보여줬다.

5. 콘텐츠 제작과 멀티모달 워크플로 확장

Super Agent는 전화 통화뿐 아니라 개인화된 콘텐츠 제작에도 활용된다. 예를 들어 사용자가 vaporwave 스타일의 피치덱을 요청하면 에이전트가 슬라이드를 작성하고, GPT-image-1으로 스타일화된 커버 이미지를 생성한 뒤 최종 덱으로 조립한다. 영상 작업에서는 장면별 스크립트를 작성하고 이미지를 생성한 다음 인스타그램에 올릴 수 있는 짧은 영상 형태로 구성할 수 있다. 이러한 사례는 OpenAI의 멀티모달 기능, Genspark의 빠른 실행력, 그리고 OpenAI 스타트업 팀과의 협업이 결합된 결과로 제시된다. Genspark는 OpenAI 솔루션 아키텍트들과 정기적으로 만나 모범 사례를 공유하고 워크플로를 조정하며 모델 성능을 최적화했다고 설명한다.

6. 빠른 성장과 향후 제품 방향

Super Agent는 출시 후 45일 만에 ARR 3,600만 달러에 도달했으며, 이 성장은 20명 규모 팀과 유료 광고 없이 이루어진 것으로 강조된다. 원문은 이러한 성장을 제품의 바이럴 확산과 입소문이 이끈 유기적 성과로 설명한다. 접근성도 중요한 요인으로 제시되는데, 사용자는 워크플로를 직접 설계하거나 설정을 조정할 필요 없이 필요한 일을 말하기만 하면 된다. Genspark는 앞으로 사용자가 탐색 중인 콘텐츠 전체에 대해 행동하는 AI 브라우저와 형식이 풍부한 문서를 생성하는 AI docs 같은 새 범주로 확장하려 한다. 회사는 OpenAI API가 빠르게 만들고 더 빠르게 출시하는 방식의 핵심 기반으로 남을 것이라고 밝힌다.

🧾 핵심 주장 / 시사점

이 사례의 핵심은 AI 제품 경쟁이 ‘답변 품질’에서 ‘실제 업무 실행 능력’으로 이동하고 있다는 점이다. Genspark의 전환은 검색형 인터페이스만으로는 사용자의 결과물 중심 요구를 충분히 충족하기 어렵다는 판단을 보여준다.
노코드 경험은 모델·도구·API의 복잡성을 사용자에게 숨기는 방향으로 진화하고 있다. Super Agent는 내부적으로 여러 모델과 80개 이상의 도구를 조율하지만, 사용자는 간단한 요청만 입력하도록 설계되어 접근성을 성장 요인으로 삼았다.
전화 통화처럼 실시간성, 모호한 응답, 인간적 부담이 큰 작업이 에이전트 사례로 부상했다는 점이 중요하다. 이는 에이전트형 AI의 가치가 문서 생성이나 검색 보조를 넘어 현실 세계의 대화형 실행으로 확장되고 있음을 보여준다.