Extract Web Data at Scale With Parallel Agents

💡 한 줄 요약

Firecrawl은 /agent 엔드포인트에 병렬 처리 기능을 도입해 수백~수천 개의 웹 데이터 질의를 동시에 실행하고, 빠른 검색과 심층 에이전트 조사를 자동으로 결합해 대규모 데이터 보강을 쉽게 만들었다.

📌 핵심 요약

Firecrawl은 기존 /agent가 복잡한 웹사이트를 탐색하고 데이터를 수집할 수 있었지만, 한 번에 하나의 질의만 처리해 대규모 작업에는 병목이 있었다고 설명한다.
새로운 Parallel Agents는 수백~수천 개의 /agent 질의를 동시에 배치 처리해 기업 정보 보강, 경쟁사 조사, 제품 데이터셋 구축 같은 작업을 몇 분 단위로 확장할 수 있게 한다.
핵심 방식은 ‘intelligent waterfall’로, 각 셀마다 Spark-1 Fast를 통한 즉시 검색을 먼저 시도하고, 필요한 경우에만 Spark-1 Mini 기반의 전체 /agent 조사로 자동 전환한다.
사용자는 CSV 스프레드시트나 JSON 입력을 사용할 수 있으며, 셀이 실시간으로 채워지고 성공·진행·실패 상태가 색상으로 표시되는 인터페이스를 통해 결과를 확인할 수 있다.
가격은 빠른 경로의 경우 셀당 10크레딧이며, 즉시 검색이 실패해 전체 조사가 필요한 경우에만 표준 Spark-1 Mini /agent 요금이 적용된다.

🧩 주요 포인트

Firecrawl은 기존 /agent가 복잡한 웹사이트를 탐색하고 데이터를 수집할 수 있었지만, 한 번에 하나의 질의만 처리해 대규모 작업에는 병목이 있었다고 설명한다.
새로운 Parallel Agents는 수백~수천 개의 /agent 질의를 동시에 배치 처리해 기업 정보 보강, 경쟁사 조사, 제품 데이터셋 구축 같은 작업을 몇 분 단위로 확장할 수 있게 한다.
핵심 방식은 ‘intelligent waterfall’로, 각 셀마다 Spark-1 Fast를 통한 즉시 검색을 먼저 시도하고, 필요한 경우에만 Spark-1 Mini 기반의 전체 /agent 조사로 자동 전환한다.
사용자는 CSV 스프레드시트나 JSON 입력을 사용할 수 있으며, 셀이 실시간으로 채워지고 성공·진행·실패 상태가 색상으로 표시되는 인터페이스를 통해 결과를 확인할 수 있다.
가격은 빠른 경로의 경우 셀당 10크레딧이며, 즉시 검색이 실패해 전체 조사가 필요한 경우에만 표준 Spark-1 Mini /agent 요금이 적용된다.

🧠 상세 정리

1. Firecrawl /agent의 병렬 처리 도입

글은 Firecrawl이 Firecrawl Skill과 CLI 공개에 이어 /agent 엔드포인트에 병렬 처리를 도입했다는 소식으로 시작한다. 이 기능은 수백 개 또는 수천 개의 질의를 동시에 실행할 수 있게 해, 웹 데이터 수집과 데이터 보강 작업의 처리량을 크게 높이는 데 초점이 있다. 저자는 Parallel Agents가 Spark-1 Fast 모델을 기반으로 대규모 데이터셋을 몇 분 안에 보강할 수 있다고 설명한다. 사용자는 하나의 프롬프트를 작성하고 실행하면, playground에서 데이터가 실시간으로 채워지는 과정을 볼 수 있다.

2. 기존 순차 처리의 한계

Firecrawl의 기존 /agent는 복잡한 웹사이트를 검색하고 탐색하며, 접근하기 어려운 위치에 있는 정보까지 찾아내는 기능으로 개발자들에게 호응을 얻었다. 그러나 문제는 /agent가 한 번에 하나의 질의만 처리한다는 점이었다. 예를 들어 500개 기업의 투자 단계와 연락처를 보강하려면 500개의 질의를 순차적으로 실행해야 하고, 200개 경쟁사의 기능과 역량을 비교할 때도 같은 병목이 발생한다. Clay 같은 도구로 여러 소스를 연결하고 fallback 로직을 구성할 수도 있지만, 글은 그런 방식이 상당한 시간과 노력을 요구한다고 지적한다.

3. Intelligent waterfall: 빠른 경로와 심층 조사

Parallel Agents의 핵심 차별점은 intelligent waterfall 방식이다. 각 셀에 대해 가장 빠른 방법을 먼저 시도하고, 그 방식으로 충분하지 않을 때만 전체 /agent 조사로 자동 업그레이드한다. 빠른 경로는 Spark-1 Fast 모델이 담당하며, 알려진 기업 정보, 투자 단계, 표준 연락처처럼 일반적인 질의에 대해 즉시 검색을 수행한다. 반면 더 복잡한 질의, 찾기 어려운 정보, 동적 콘텐츠, 여러 단계를 거치는 웹 탐색이 필요한 경우에는 Spark-1 Mini 기반의 전체 /agent 경로가 사용된다. 사용자는 이 라우팅을 직접 설정할 필요가 없고 Firecrawl이 자동으로 처리한다.

4. 스프레드시트 기반 실시간 작업 방식

글은 Parallel Agents가 JSON만 요구하는 방식이 아니라 CSV 형식의 스프레드시트 인터페이스를 제공한다는 점을 강조한다. 사용자는 익숙한 표 형식으로 입력 데이터를 다루고, 질의가 완료되는 즉시 각 셀이 채워지는 모습을 실시간으로 확인할 수 있다. 상태 표시는 직관적으로 구성되어 있으며, 초록색은 성공, 노란색은 진행 중, 빨간색은 실패를 의미한다. 이 방식은 대규모 배치 작업의 진행 상황을 눈으로 확인하게 해 주며, 별도의 워크플로 빌딩 없이 하나의 프롬프트와 데이터 스키마만으로 실행할 수 있게 한다.

5. 주요 활용 사례

Firecrawl은 Parallel Agents의 대표 사용 사례로 기업 정보 보강, 경쟁사 조사, 제품 데이터 추출을 제시한다. 기업 정보 보강에서는 회사명을 입력하면 투자 단계, 직원 수, 연락처 같은 정보가 자동으로 채워지며, 알려진 기업은 빠른 검색으로 처리되고 표준 데이터베이스에 없는 스타트업 정보는 /agent가 찾아낸다. 경쟁사 조사에서는 여러 기업의 기능, 역량, 시장 포지셔닝을 비교해 인텔리전스 보고서를 만들 수 있다. 제품 데이터 추출에서는 전자상거래 브랜드의 카탈로그, 사양, 가격, 리뷰를 대규모로 수집하고, 페이지네이션과 제품 상세 페이지 탐색까지 처리해 구조화된 데이터셋으로 정리한다.

6. 가격 구조와 시작 방법

가격 설명은 예측 가능한 대규모 데이터 보강을 강조한다. Spark-1 Fast를 사용하는 빠른 경로는 셀당 10크레딧이 부과되고, 즉시 검색으로 해결되지 않아 전체 조사가 필요한 경우에는 표준 Spark-1 Mini /agent 가격이 적용된다. intelligent waterfall은 비용을 자동으로 최적화해, 사용자가 모든 질의에 대해 심층 조사를 지불하지 않도록 설계되어 있다. 시작하려면 Agent Playground로 이동해 CSV를 업로드하거나, 여러 엔티티에 대해 원하는 필드를 채우도록 /agent에 요청하면 된다. playground는 사용 사례가 Parallel Agents에 적합한지 자동으로 판단하며, 결과는 CSV 또는 JSON 형식으로 볼 수 있다.

🧾 핵심 주장 / 시사점

이 기능의 핵심 가치는 웹 탐색 능력 자체보다, 기존 단일 질의형 에이전트를 대규모 표 형식 작업으로 확장했다는 데 있다.
Spark-1 Fast와 Spark-1 Mini를 자동으로 나누어 쓰는 구조는 속도와 비용, 조사 깊이 사이의 균형을 사용자가 직접 설계하지 않아도 되게 만든다.
CSV 기반 실시간 인터페이스는 개발자뿐 아니라 리서치·영업·데이터 운영 담당자가 대규모 웹 데이터 보강을 더 쉽게 실행하도록 만드는 제품적 장치다.

✅ 액션 아이템

/agent 병렬 처리 도입 시, 기업 보강·경쟁사 조사·제품 데이터셋 구축처럼 수백~수천 개 질의를 동시에 돌릴 수 있는 표 기반 사용 사례부터 선별한다.
CSV 업로드 기반 실험을 설계해 funding stage, employee count, contact email 같은 다중 필드 보강이 실제로 몇 분 단위로 처리되는지 확인한다.
비용 추정에는 셀당 Spark-1 Fast 10크레딧을 기본값으로 두고, Spark-1 Mini로 전환되는 셀 비율을 별도 측정 항목으로 둔다.

❓ 열린 질문

어떤 질의가 Spark-1 Fast 즉시 검색으로 끝나고, 어떤 질의가 Spark-1 Mini 전체 조사로 자동 전환되는지 내부 기준을 관찰할 수 있는가?
Agent Playground가 어떤 조건에서 사용 사례를 Parallel Agents에 적합하다고 판단하는지, 사용자가 사전에 예측하거나 조정할 수 있는가?
순차 처리 병목을 줄이는 대신, 수천 개 질의를 동시에 실행할 때 실패 상태·진행 상태·재시도 처리는 어떤 방식으로 관리되는가?