ArticleFlorian Brand·2026년 6월 4일·0

What does OSWorld tell us about AI’s ability to use computers?

Quick Summary

OSWorld는 AI가 Ubuntu 환경에서 실제 컴퓨터 작업을 수행하는 능력을 재는 유용한 벤치마크지만, 과제 갱신, 터미널·스크립트 대체 가능성, 지시문 모호성 때문에 점수 해석에는 상당한 주의가 필요하다.

What does OSWorld tell us about AI’s ability to use computers? 관련 대표 이미지

🖼️ 인포그래픽

What does OSWorld tell us about AI’s ability to use computers? 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

What does OSWorld tell us about AI’s ability to use computers? 내용을 설명하는 본문 이미지

💡 한 줄 요약

OSWorld는 AI가 Ubuntu 환경에서 실제 컴퓨터 작업을 수행하는 능력을 재는 유용한 벤치마크지만, 과제 갱신, 터미널·스크립트 대체 가능성, 지시문 모호성 때문에 점수 해석에는 상당한 주의가 필요하다.

📌 핵심 요약

  • OSWorld는 대규모 언어모델에게 작업 지시와 Ubuntu 가상머신을 제공하고, 모델이 실제 컴퓨터 조작을 통해 목표 상태를 달성했는지 평가하는 컴퓨터 사용 벤치마크다.
  • 벤치마크가 포화된다는 것은 모델이 Linux 기반 환경과 LibreOffice, Chrome, GIMP 같은 오픈소스 애플리케이션에서 비교적 단순하고 현실적인 작업을 수행할 수 있음을 뜻한다.
  • 다만 OSWorld의 과제 지시와 평가 함수는 시간이 지나며 계속 수정되고 있어, 서로 다른 시점의 점수를 직접 비교하면 실제 모델 능력 향상과 벤치마크 수정 효과가 섞일 수 있다.
  • OSWorld의 상당수 작업은 GUI 조작만을 요구하지 않으며, 일부는 터미널만으로 가능하고 또 다른 일부는 Python 스크립트나 소프트웨어 패키지를 활용해 GUI 사용을 크게 줄일 수 있다.
  • 많은 작업 지시가 다소 모호하고 일부 과제에는 심각한 오류도 있어, OSWorld 점수는 순수한 컴퓨터 조작 능력뿐 아니라 지시 해석 능력, 코드 사용 능력, 벤치마크 상태의 영향을 함께 반영한다.

🧩 주요 포인트

  1. OSWorld는 대규모 언어모델에게 작업 지시와 Ubuntu 가상머신을 제공하고, 모델이 실제 컴퓨터 조작을 통해 목표 상태를 달성했는지 평가하는 컴퓨터 사용 벤치마크다.
  2. 벤치마크가 포화된다는 것은 모델이 Linux 기반 환경과 LibreOffice, Chrome, GIMP 같은 오픈소스 애플리케이션에서 비교적 단순하고 현실적인 작업을 수행할 수 있음을 뜻한다.
  3. 다만 OSWorld의 과제 지시와 평가 함수는 시간이 지나며 계속 수정되고 있어, 서로 다른 시점의 점수를 직접 비교하면 실제 모델 능력 향상과 벤치마크 수정 효과가 섞일 수 있다.
  4. OSWorld의 상당수 작업은 GUI 조작만을 요구하지 않으며, 일부는 터미널만으로 가능하고 또 다른 일부는 Python 스크립트나 소프트웨어 패키지를 활용해 GUI 사용을 크게 줄일 수 있다.
  5. 많은 작업 지시가 다소 모호하고 일부 과제에는 심각한 오류도 있어, OSWorld 점수는 순수한 컴퓨터 조작 능력뿐 아니라 지시 해석 능력, 코드 사용 능력, 벤치마크 상태의 영향을 함께 반영한다.

🧠 상세 정리

1. OSWorld가 측정하려는 것

OSWorld는 AI 시스템이 디지털 동료가 되기 위해 필요한 ‘컴퓨터 사용 능력’을 평가하려는 벤치마크다. 모델은 작업 지시문과 Ubuntu 가상머신을 받고, 해당 환경 안에서 필요한 행동을 수행해야 한다. 과제는 사람이 만든 것뿐 아니라 포럼, 튜토리얼 등 현실적인 자료에서 가져온 사례도 포함한다. 평가는 모델이 어떤 중간 과정을 거쳤는지가 아니라, 최종적으로 지정된 목표 상태를 달성했는지를 기준으로 한다. 따라서 OSWorld는 단순한 텍스트 문제 풀이가 아니라, 운영체제와 애플리케이션 상태를 실제로 바꾸는 능력을 보려는 시도라고 할 수 있다.

2. 평가 환경과 과제 구성

OSWorld의 각 과제는 작업 설명과 Ubuntu 가상머신으로 구성되며, 가상머신은 빈 데스크톱에서 시작할 수도 있고 특정 애플리케이션이 이미 열린 상태일 수도 있다. 머신은 인터넷에 연결되어 있고, 모델은 평가 스캐폴드가 제공하는 일반 프롬프트와 머신 상태 정보를 바탕으로 행동한다. 모델은 pyautogui를 이용해 마우스와 키보드를 프로그램적으로 제어하는 Python 코드를 작성하는 방식으로 환경과 상호작용한다. 전체 과제 수는 361개이며, 약 8%는 애플리케이션이 지원하지 않는 요청처럼 의도적으로 완료 불가능하게 설계되어 있다. 이런 경우 모델은 과제가 불가능하다고 판단하고 말해야 한다.

3. 시간에 따라 바뀌는 벤치마크의 문제

원문은 OSWorld의 가장 중요한 해석상 문제 중 하나로 과제 지시문이 계속 업데이트된다는 점을 지적한다. 2025년 7월의 주요 릴리스에서는 대부분의 과제 지시와 평가 함수가 수정되었고, 그 이후에도 약 10%의 과제 지시가 추가로 변경되었다. 오류를 고치는 노력 자체는 긍정적이지만, 비실시간 벤치마크에서 이렇게 데이터가 계속 바뀌면 시점 간 점수 비교의 의미가 약해진다. 예를 들어 이전에는 오류 때문에 불필요하게 어렵거나 불가능했던 과제가 수정되면, 모델이 실제로 더 똑똑해지지 않았더라도 점수가 오른 것처럼 보일 수 있다. 따라서 OSWorld의 시간별 리더보드 변화는 모델 능력 향상만으로 해석하기 어렵다.

4. 포화가 의미하는 실제 능력의 범위

OSWorld에서 거의 만점에 가까운 성과를 낸다는 것은 모델이 Linux 기반 환경에서 단순하고 현실적인 업무를 수행할 수 있음을 뜻한다. 예시로는 문서에 페이지 번호를 추가하거나, 스프레드시트에서 CSV 파일을 내보내거나, 이미지 편집기에서 배경 레이어를 특정 색으로 채우는 작업이 있다. 원문은 OSWorld 과제가 사람들이 컴퓨터에서 자주 수행하는 실무 흐름을 꽤 잘 반영한다고 평가한다. 그러나 대부분의 과제는 인간 기준으로 비교적 간단하며, 더 큰 활동의 하위 단계에 해당하는 경우가 많다. 즉 포화는 ‘일반적인 디지털 업무 전반의 완전한 자동화’라기보다, 특정 환경에서 짧고 실용적인 작업들을 안정적으로 처리한다는 의미에 가깝다.

5. 과제 난이도와 작업 길이

OSWorld의 과제는 대체로 짧은 편이다. 원문이 인용한 분석에 따르면, 각 과제를 완료하는 데 필요한 최소 원자 행동 수는 대부분 10단계 미만이었다. 중간값에 해당하는 예시는 GIMP에서 이미 열린 이미지의 배경 레이어를 초록색으로 채우고 객체 레이어는 그대로 두는 작업으로, 약 6단계가 필요하다. 반대로 훨씬 드문 긴 과제의 예로는 객관식 시험 답안을 채점하고 세부 점수를 스프레드시트에 기록하는 작업이 있으며, 이 경우 104단계가 필요할 수 있다. 전체적으로 20단계를 넘는 과제는 약 12%, 50단계를 넘는 과제는 약 5%에 불과해, 원문은 작업 길이가 모델 간 성능 차이의 핵심 원인일 가능성은 크지 않다고 본다.

6. 애플리케이션 다양성과 Linux 중심성

OSWorld는 웹 브라우저, 코드 편집기, 스프레드시트, 이미지 편집기 등 다양한 애플리케이션을 포함한다. 약 3분의 1의 과제는 여러 애플리케이션을 오가며 수행해야 하며, 예를 들어 파일을 다운로드한 뒤 다른 프로그램에서 처리하는 식의 흐름이 있다. 다만 모든 과제는 Ubuntu와 LibreOffice, Chrome, GIMP 같은 오픈소스 또는 무료 애플리케이션을 기반으로 한다. 현실에서는 Windows와 Microsoft Office 사용 비중이 훨씬 크므로, OSWorld가 가장 흔한 컴퓨터 사용 환경을 직접 대표한다고 보기는 어렵다. 그럼에도 원문은 이 차이가 큰 문제는 아닐 수 있다고 본다. 모델 개발자들이 더 널리 쓰이는 운영체제와 애플리케이션에 집중한다면 오히려 OSWorld 점수가 실제 관련 능력보다 뒤처질 수도 있고, 도메인 전이가 어느 정도 가능하다는 근거도 있기 때문이다.

7. 터미널과 Python이 점수 해석을 흐리는 방식

컴퓨터 사용 벤치마크라고 하면 흔히 GUI에서 마우스로 클릭하고 메뉴를 조작하는 모습을 떠올리지만, OSWorld의 거의 절반은 GUI 상호작용이 거의 없거나 크게 줄어들 수 있다. 약 15%의 과제는 터미널만으로 완료할 수 있으며, 예를 들어 멈춘 LibreOffice Writer를 명령줄에서 강제 종료하는 작업이 있다. 또 VS Code 확장 설치처럼 GUI로도 할 수 있지만 터미널 명령으로도 가능한 과제도 존재한다. 여기에 더해 약 30%의 과제는 원래 GUI 흐름이 의도된 것처럼 보이더라도 Python 스크립트로 상당 부분을 대체할 수 있다. 스프레드시트의 빈 칸을 위 셀 값으로 채우는 작업처럼, 모델이 파일과 환경을 파악한 뒤 openpyxl 같은 패키지로 직접 수정하면 인간의 일반적 GUI 작업 방식과 다른 경로로 목표 상태에 도달할 수 있다.

8. 모호한 지시문과 해석 능력의 비중

원문은 OSWorld의 많은 지시문이 처음 보면 다소 모호하다고 말한다. 자세히 보면 합리적인 추정이 가능하고 그 추정이 정답 상태와 맞는 경우도 많지만, 때로는 그 해석 자체가 과제에서 가장 어려운 부분이 된다. 예시로 프레젠테이션에서 특정 슬라이드의 첫 번째 텍스트박스를 오른쪽, 가운데, 왼쪽으로 정렬하라는 지시가 제시된다. 여기서 ‘정렬’이 텍스트박스 안의 텍스트 정렬을 뜻하는지, 아니면 텍스트박스 객체 자체의 위치 정렬을 뜻하는지 불분명하다. 이런 모호성은 실제 인간이 AI 비서에게 주는 불완전한 요청과 닮았다는 점에서 현실적이지만, 벤치마크 점수가 순수한 조작 능력뿐 아니라 의도 추론 능력을 상당히 반영하게 만든다.

9. 점수 차이를 해석할 때의 결론

원문이 도달하는 핵심 결론은 OSWorld가 유용하고 현실적인 벤치마크이지만, 점수 차이를 단순하게 읽어서는 안 된다는 것이다. 어떤 모델의 점수가 올랐다면 그것은 GUI 기반 컴퓨터 사용 능력이 향상되었기 때문일 수도 있지만, 벤치마크 데이터 수정, 터미널 사용 능력, Python 스크립트 작성 능력, 모호한 지시문 해석 능력 때문일 수도 있다. 또한 약 10%의 과제는 인터넷의 실시간 데이터에 의존하므로 웹사이트 변화에 따라 난이도나 완료 가능성이 달라질 수 있고, 약 10%의 과제에는 심각한 오류가 있어 유효하지 않을 수 있다. 저자들은 이런 한계를 지적하면서도, 현실성과 엄밀성을 동시에 갖춘 컴퓨터 사용 벤치마크를 만드는 일이 매우 어렵다고 인정한다. 따라서 OSWorld는 중요한 진전 지표이되, 그 포화나 순위 변화는 맥락을 붙여 신중히 해석해야 한다.

🧾 핵심 주장 / 시사점

  • OSWorld 점수는 ‘AI가 GUI를 잘 쓴다’는 단일 지표가 아니라, 터미널 사용, 코드 작성, 지시 해석, 환경 적응 능력이 섞인 복합 지표로 보는 편이 더 정확하다.
  • 벤치마크가 계속 수정되는 상황에서는 리더보드의 시간별 상승을 모델 발전의 직접 증거로 보기 어렵고, 같은 버전·같은 조건에서의 비교가 특히 중요하다.
  • OSWorld가 포화되더라도 그것은 Ubuntu와 오픈소스 앱에서 짧고 현실적인 작업을 잘한다는 의미이지, 모든 운영체제와 업무 환경에서 인간 수준의 디지털 동료가 완성되었다는 뜻은 아니다.

✅ 액션 아이템

  • OSWorld 점수를 해석할 때 벤치마크 버전, 과제 수정 이력, 평가 함수 변경 여부를 함께 기록해 모델 성능 향상과 데이터셋 변경 효과를 분리한다.
  • computer-use agent 평가에서는 GUI 조작 능력뿐 아니라 터미널 사용, Python 스크립트 작성, 지시문 해석 능력을 별도 항목으로 나눠 비교한다.
  • Ubuntu·LibreOffice·Chrome·GIMP 중심의 결과를 실제 업무 환경에 적용하기 전 Windows, Microsoft Office, 사내 SaaS 같은 목표 환경과의 전이 가능성을 따로 검증한다.

❓ 열린 질문

  • OSWorld가 포화될 때 그것은 일반적인 컴퓨터 사용 자동화의 진전인가, 아니면 특정 Ubuntu 기반 짧은 작업 묶음의 최적화인가?
  • 터미널과 Python 스크립트로 우회 가능한 과제를 computer-use benchmark에 포함할 때, GUI 조작 능력과 문제 해결 능력은 어떻게 분리해 평가해야 할까?
  • 계속 수정되는 벤치마크에서 모델 간 점수 차이를 신뢰하려면 어떤 버전 고정과 재현성 기준이 필요할까?

관련 문서

공통 태그와 주제 흐름을 기준으로 같이 보면 좋은 문서를 이어서 제안합니다.