Smol2Operator: Post-Training GUI Agents for Computer Use

🖼️ 인포그래픽

Smol2Operator: Post-Training GUI Agents for Computer Use 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 요약

Smol2Operator는 작은 비전-언어 모델에 GUI grounding과 행동 추론 능력을 단계적으로 학습시켜, 화면을 이해하고 클릭·입력·스크롤 같은 GUI 행동을 수행하는 에이전트로 발전시키는 공개 재현 가능한 학습 레시피입니다.

📌 핵심 요약

이 글은 SmolVLM2-2.2B-Instruct를 출발점으로 삼아, 원래 GUI grounding 능력이 없는 경량 비전-언어 모델을 GUI 자동화 에이전트로 훈련하는 과정을 설명합니다.
핵심 목표는 최고 성능 모델을 만드는 것이 아니라, 데이터 처리부터 모델 학습, 평가, 공개 리소스까지 전체 절차를 보여 주며 VLM에 GUI grounding 능력을 부여하는 방법을 재현 가능하게 제시하는 것입니다.
여러 GUI 자동화 데이터셋은 함수 이름, 인자 구조, 액션 분류가 서로 달라 그대로 통합 학습하기 어렵기 때문에, 글은 이를 하나의 통일된 action space로 변환하는 파이프라인을 먼저 강조합니다.
통일된 데이터에서는 mobile.home, pyautogui.click 같은 서로 다른 표현이 navigate_home, click, type, drag 등 일관된 함수와 인자 형태로 정리되며, 좌표는 이미지 크기에 덜 의존하도록 정규화됩니다.
학습은 두 단계로 구성됩니다. Phase 1은 smolagents/aguvis-stage-1 데이터로 화면 요소 위치와 GUI 행동을 연결하는 지각 능력을 학습시키고, Phase 2는 이후 agentic reasoning 능력을 강화하는 방향으로 소개됩니다.

🧩 주요 포인트

이 글은 SmolVLM2-2.2B-Instruct를 출발점으로 삼아, 원래 GUI grounding 능력이 없는 경량 비전-언어 모델을 GUI 자동화 에이전트로 훈련하는 과정을 설명합니다.
핵심 목표는 최고 성능 모델을 만드는 것이 아니라, 데이터 처리부터 모델 학습, 평가, 공개 리소스까지 전체 절차를 보여 주며 VLM에 GUI grounding 능력을 부여하는 방법을 재현 가능하게 제시하는 것입니다.
여러 GUI 자동화 데이터셋은 함수 이름, 인자 구조, 액션 분류가 서로 달라 그대로 통합 학습하기 어렵기 때문에, 글은 이를 하나의 통일된 action space로 변환하는 파이프라인을 먼저 강조합니다.
통일된 데이터에서는 mobile.home, pyautogui.click 같은 서로 다른 표현이 navigate_home, click, type, drag 등 일관된 함수와 인자 형태로 정리되며, 좌표는 이미지 크기에 덜 의존하도록 정규화됩니다.
학습은 두 단계로 구성됩니다. Phase 1은 smolagents/aguvis-stage-1 데이터로 화면 요소 위치와 GUI 행동을 연결하는 지각 능력을 학습시키고, Phase 2는 이후 agentic reasoning 능력을 강화하는 방향으로 소개됩니다.

🧠 상세 정리

1. 문제의식: GUI 자동화와 비전-언어 모델의 도전

글은 GUI 자동화를 컴퓨터 비전의 어려운 최전선 중 하나로 제시합니다. 모델이 사용자 인터페이스를 보고 직접 상호작용할 수 있게 되면, AI 에이전트는 모바일, 데스크톱, 웹 환경을 탐색할 수 있습니다. 이를 위해서는 단순히 화면을 인식하는 것만으로는 부족하고, 화면 안의 요소를 정확히 찾아 클릭하거나 입력하는 저수준 행동으로 바꾸는 능력이 필요합니다. 저자들은 이러한 능력이 향후 디지털 상호작용 방식을 바꿀 수 있다고 설명하며, 작은 VLM도 적절한 학습 절차를 통해 GUI-grounded skill을 획득할 수 있음을 보여 주려 합니다.

2. 목표: SOTA보다 전체 학습 과정의 공개와 재현성

이 작업의 목적은 최고 성능의 모델을 주장하는 데 있지 않습니다. 글은 데이터 처리, 모델 학습, 결과 모델, 데모, 데이터셋, 도구를 모두 공개해 전체 과정을 재현 가능하게 만드는 데 초점을 둡니다. 기준 모델로는 SmolVLM2-2.2B-Instruct가 사용되는데, 이 모델은 작고 강력한 비전-언어 모델이지만 처음에는 GUI 작업을 위한 grounding 능력이 없습니다. 따라서 저자들은 이 모델을 적절한 사례로 삼아, 다단계 post-training 전략이 어떻게 화면 이해와 GUI 행동 능력을 부여하는지 보여 줍니다.

3. 훈련 전략: 지각에서 행동 추론으로 가는 두 단계

글은 전체 접근을 두 단계 학습 과정으로 설명합니다. 먼저 Phase 1에서는 모델에 GUI grounding 능력을 주입해, 스크린샷 속 요소와 클릭·입력 같은 실행 가능한 행동을 연결하도록 만듭니다. 이후 Phase 2에서는 Supervised Fine-Tuning을 통해 agentic reasoning 능력을 강화한다고 소개합니다. 원문에서 자세히 펼쳐진 부분은 주로 Phase 1과 데이터 변환이며, Phase 2는 지각에서 인지로 확장되는 다음 단계로 배치됩니다. 이 과정의 평가는 ScreenSpot-v2 같은 지각 벤치마크를 사용해 화면 요소를 이해하고 위치를 찾는 능력을 확인하는 방식으로 설명됩니다.

4. 핵심 난점: 서로 다른 GUI 데이터셋의 불일치한 action space

여러 GUI 자동화 데이터셋을 함께 사용할 때 가장 큰 문제 중 하나는 action representation이 표준화되어 있지 않다는 점입니다. 어떤 데이터셋은 mobile.home이나 mobile.open_app처럼 모바일 중심의 함수 형태를 쓰고, 다른 데이터셋은 pyautogui.click, pyautogui.write처럼 데스크톱 자동화 프레임워크의 표현을 사용합니다. 함수 이름뿐 아니라 인자 이름, 인자 순서, 액션 분류도 달라 하나의 모델이 일관된 패턴을 배우기 어렵습니다. 저자들은 이런 이질성을 해결하지 않으면 다양한 GUI 환경을 아우르는 통합 학습 데이터의 품질이 떨어진다고 봅니다.

5. 해결 방식: 함수 파싱과 action conversion으로 통합 형식 구축

저자들은 AGUVIS에서 사용된 공개 데이터셋인 xlangai/aguvis-stage1과 xlangai/aguvis-stage2를 바탕으로, 이를 하나의 통일된 action space로 변환하는 데이터 처리 파이프라인을 구현합니다. utils/function_parser.py는 여러 형식의 함수 호출을 추출하고 파싱하며, 복잡한 인자 구조와 다양한 함수 시그니처를 처리할 수 있도록 설계됩니다. preprocessing/action_conversion.py는 원래의 action 표현을 표준화된 함수명과 인자 구조로 바꿉니다. 이 과정에서 불필요하거나 중복된 행동을 제거하고, 인자 이름을 정리하며, 모델이 학습할 수 있는 응집력 있는 액션 어휘를 만듭니다.

6. 구체적 변환: 모바일·데스크톱 행동을 공통 함수로 정리

원문은 실제 변환 예시를 통해 통합 action space의 의미를 보여 줍니다. mobile.home은 navigate_home으로, mobile.open_app은 open_app으로, mobile.long_press는 long_press로 정리됩니다. 데스크톱 쪽에서는 pyautogui.click이 click으로, pyautogui.doubleClick이 double_click으로, pyautogui.hotkey가 press로, pyautogui.write가 type으로 변환됩니다. 스크롤의 경우 원래 page 값 같은 표현을 direction과 amount로 바꾸며 방향을 감지하는 식의 정리도 포함됩니다. 이렇게 통합된 표현은 모바일과 데스크톱의 차이를 유지하면서도 모델 입장에서는 일관된 행동 패턴을 학습할 수 있게 만듭니다.

7. 정규화 좌표의 이유: 이미지 크기 변화에 강한 grounding

GUI 행동에서 좌표는 매우 중요하지만, 원문은 원시 픽셀 좌표를 그대로 텍스트 액션 데이터에 넣는 방식의 한계를 지적합니다. 예를 들어 click(x=302, y=63) 같은 표현은 특정 이미지 크기에 묶여 있어, VLM이 이미지를 리사이즈하면 좌표가 깨지고 별도의 조정이 필요해집니다. 그래서 이 작업은 좌표를 이미지 크기에 대한 상대값, 즉 [0,1] 범위의 정규화 좌표로 표현합니다. 정규화 좌표는 해상도가 달라져도 유효성을 더 잘 유지하므로, 다양한 이미지 크기와 전처리 조건에서 데이터셋의 일관성을 높이는 데 중요합니다.

8. Action Space Converter: 사용자 정의 액션 어휘로 재매핑

저자들은 통합 action space를 만든 데서 멈추지 않고, 사용자가 자신의 환경에 맞게 action vocabulary를 다시 조정할 수 있는 Action Space Converter도 제공합니다. 이 도구는 함수 이름, 인자 이름, 인자 값 변환, 기본값 설정 등을 매핑할 수 있게 해 줍니다. 예를 들어 click(x=0.5, y=0.3)을 touch(x_coord=0.5, y_coord=0.3)처럼 바꾸거나, type(text='hello world')를 write(content='hello world')로 바꿀 수 있습니다. 이를 통해 연구자와 실무자는 훈련 데이터를 특정 플랫폼, 자동화 프레임워크, 배포 환경의 명명 규칙에 맞춰 빠르게 조정할 수 있습니다.

9. Phase 1: 화면 요소와 행동을 연결하는 GUI grounding 학습

Phase 1은 smolagents/aguvis-stage-1 데이터셋을 사용해 모델에 GUI grounding을 도입하는 단계입니다. 이 데이터는 낮은 수준의 지시와 실행 가능한 행동을 코드 형태로 연결하며, 예시로 사용자가 'click on more button'이라고 하면 assistant가 click(x=0.8875, y=0.2281) 같은 행동을 내놓는 구조를 가집니다. 각 샘플은 스크린샷과 multi-turn user/assistant 상호작용을 연결해, 모델이 대화 흐름 안에서 세밀한 행동 grounding을 배우도록 합니다. fine-tuning 중에는 손실 계산 시 assistant의 답변을 제외한 나머지를 마스킹한다고 설명됩니다.

10. 공개 결과물과 실험 방향

이 작업은 변환된 데이터셋을 smolagents/aguvis-stage-1과 smolagents/aguvis-stage-2로 공개하며, 학습 레시피와 데이터 처리 도구, 모델, 데모까지 함께 제공한다고 밝힙니다. Phase 1의 본격 학습 전에는 최적 설정을 찾기 위해 ablation study를 수행했다고 설명되며, 이미지 크기와 좌표 표현 방식에 대한 실험도 언급됩니다. 테스트한 이미지 크기는 384px, 768px, 1152px로 제시됩니다. 원문 제공 범위에서는 이후 좌표 시스템 분석의 세부 결과가 잘려 있지만, 전체 흐름상 데이터 통일, grounding 학습, 평가를 통해 작은 VLM을 GUI 에이전트로 발전시키는 재현 가능한 절차가 중심입니다.

🧾 핵심 주장 / 시사점

이 글의 핵심 가치는 모델 구조 자체보다 데이터 표현의 일관성에 있습니다. 서로 다른 GUI 자동화 데이터셋을 통합 action space로 정리하는 과정이 없으면, 작은 VLM은 동일한 의미의 행동을 여러 다른 문법으로 학습해야 하므로 grounding 학습의 효율이 낮아질 수 있습니다.
정규화 좌표를 사용하는 설계는 GUI 에이전트 학습에서 매우 실용적인 선택입니다. 화면 크기와 이미지 리사이즈가 계속 바뀌는 VLM 학습 환경에서는 픽셀 좌표보다 상대 좌표가 데이터 재사용성과 배포 안정성을 높입니다.
Action Space Converter는 이 작업을 특정 연구 레시피에 머물지 않게 만드는 요소입니다. 사용자가 자신의 모바일, 데스크톱, 웹 자동화 프레임워크에 맞춰 액션 어휘를 바꿀 수 있으므로, 공개 데이터셋을 다양한 GUI 에이전트 실험의 기반으로 활용하기 쉬워집니다.

✅ 액션 아이템

Inconsistent Action Spaces One와 GUI가 바꾸는 업무·제품 흐름을 0%, 41%, 58% 같은 원문 근거로 분해해 실제 적용 범위를 점검한다.
GUI와 0%의 연결 지점을 기준으로 사용자 경험, 운영 비용, 보안·책임 경계를 나눠 검토한다.
후속 발표나 운영 데이터가 나오면 Inconsistent Action Spaces One의 GUI 실행 성과를 원문에서 제시한 지표와 다시 비교한다.

❓ 열린 질문

Inconsistent Action Spaces One의 GUI 변화가 실제 사용자 워크플로에 자리 잡으려면 0%, 41%, 58% 중 어떤 지표가 먼저 개선되어야 할까?
GUI와 0% 조합은 다른 조직이나 제품 환경에서도 같은 효과를 낼 수 있을까?
Inconsistent Action Spaces One가 GUI의 신뢰성을 증명하려면 어떤 후속 데이터나 운영 사례를 공개해야 할까?