AI가 프리랜서 작업에서 97%의 시간 실패, 새로운 '원격 노동 지수' 표시

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

2026/07/10 08:51

AI가 프리랜서 작업에서 97%의 시간 실패, 새로운 '원격 노동 지수' 표시

AI 결함 — Mininyx Doodle/iStock/Getty Images Plus

ZDNET을 팔로우하세요: 우리를 선호 소스로 추가하세요 Google에서.

ZDNET의 주요 시사점

AI에게는 실제 사람이 이미 완료한 작업이 주어졌습니다.
AI는 인간 노동자에 비해 비참하게 실패했습니다.
하지만 AI는 점점 더 똑똑해지고 있다.

AI에 대한 많은 두려움 중 하나는 AI가 사람들의 직업을 대체할 것이라는 점입니다. 그리고 새로운 연구에 따르면 그러한 두려움이 근거가 없는 것은 아니지만 적어도 현재로서는 과장되었을 수 있다고 합니다.

원격 노동 지수

인공지능이 인간만큼 효과적으로 프로젝트를 완료할 수 있는지 여부를 측정하기 위해 연구자 그룹은 여러 AI에 수행할 일련의 작업 프로젝트를 제공했습니다. 실제 원격 프리랜서 작업자가 이미 수행한 프로젝트에는 게임 개발, 제품 디자인, 아키텍처, 데이터 분석 및 비디오 애니메이션이 포함되었습니다.

보다 구체적으로 작업에는 다음과 같은 과제가 포함되었습니다.

세계 행복 보고서의 데이터를 탐색하기 위한 대화형 대시보드를 구축하세요.
새로운 이어버드 디자인과 케이스의 기능을 보여주는 3D 애니메이션을 제작해 보세요.
무료 서비스 회사의 제품을 광고하는 2D 애니메이션 비디오를 만듭니다.
기존 PDF 설계를 기반으로 컨테이너 주택의 건축 계획과 3D 모델을 개발합니다.
플레이어가 떨어지는 물체를 합쳐 최고 레벨의 아이템에 도달하는 양조 테마 버전의 "수박 게임"을 구축하세요.
IEEE 컨퍼런스를 위해 제공된 기능과 방정식을 사용하여 논문 형식을 지정하세요.

또한: Gemini, Perplexity 및 Grok AI에 대해 ChatGPT의 Deep Research를 테스트하여 어느 것이 가장 좋은지 확인했습니다.

다양한 난이도를 포함하는 실제 사람들이 수행하는 작업에는 $10,000의 비용이 들고 완료하는 데 100시간 이상이 걸렸습니다. AI 자동화가 인간이 수행하는 원격 작업과 어떻게 비교되는지 측정하기 위해 연구원들은 원격 노동 지수(RLI)라는 벤치마크를 설정했습니다.

AI 모델의 성능

연구원들이 설명했듯이 RLI의 목적은 원격 작업 플랫폼에서 수백 개의 길고 실제적이고 경제적으로 가치 있는 프로젝트를 자동화하는 AI의 능력을 테스트하는 것입니다.

또한: ChatGPT Plus는 $20의 가치가 있나요? Free 및 Pro 요금제와 비교해 보았는데, 여기에 제 조언이 있습니다.

연구에 사용된 AI 모델은 Manus, Grok 4, Sonnet 4.5, GPT-5, ChatGPT 에이전트 및 Gemini 2.5 Pro였습니다.

그렇다면 그들은 어떻게 공연했는가? 별로 좋지 않습니다.

연구원들은 "AI 시스템이 기존의 많은 벤치마크를 포화시켰지만, 최첨단 AI 에이전트가 RLI에서 거의 바닥 수준의 성능을 발휘한다는 사실을 발견했습니다."라고 밝혔습니다. "가장 성능이 뛰어난 모델의 자동화율은 2.5%에 불과합니다. 이는 현대 AI 시스템이 위탁 작업으로 받아들여질 만큼의 품질 수준으로 대부분의 프로젝트를 완료하지 못한다는 것을 보여줍니다."

마누스가 2.5%의 성과율로 가장 좋은 성적을 거두었습니다. Grok 4와 Sonnet 4.5는 2.1%로 동점을 기록했고, GPT-5가 1.7%로 그 뒤를 이었고, ChatGPT 에이전트가 1.3%로 그 뒤를 이었습니다. Gemini는 0.8%로 꼴찌를 기록했습니다.

또한: AI가 당신의 일을 위해 다가오고 있나요? 당신의 두려움을 달래줄 수 있는 노동 지표 하나를 소개합니다.

연구원 중 한 명인 Dan Hendrycks는 X의 게시물을 통해 테스트와 결과에 대해 설명했습니다. Hendrycks는 AI가 똑똑하기는 하지만 아직 그다지 유용하지 않으며 전체 자동화 비율이 3% 미만이라는 점을 인정했습니다.

AI가 업무에 실패한 이유를 설명하기 위해 Hendrycks는 많은 AI 기능이 부족하다고 말했습니다. AI는 장기 기억 저장 장치가 없기 때문에 현장에서 학습하지 않습니다. 게다가 AI의 시각적 능력은 제한되어 있어 여러 작업을 수행하는 데 필요한 기술입니다.

꾸준히 개선 중

이 모든 것은 AI로 대체될 것을 걱정하는 근로자들에게는 좋은 소식으로 들립니다. 오른쪽? 글쎄, 아직 이력서를 찢지 마세요. 이 테스트에는 다소 고급 기술이 필요한 창의적인 작업이 구체적으로 포함되었습니다. AI가 다른 유형의 작업과 프로젝트를 더 쉽게 처리할 가능성이 높습니다. 게다가 AI는 점점 더 똑똑해지고 더 많은 능력을 갖추게 될 것입니다.

또한: 새로운 직업이 필요하신가요? 이러한 AI 역할은 미국에서 가장 빠르게 성장하고 있다고 LinkedIn은 말합니다.

연구원들은 "완전한 자동화 비율은 낮지만 우리의 분석에 따르면 모델은 꾸준히 개선되고 있으며 이러한 복잡한 작업의 진행 상황은 측정 가능하다는 것을 보여줍니다."라고 말했습니다. "이는 AI 자동화의 궤적을 추적하기 위한 공통 기반을 제공하여 이해관계자가 그 영향을 사전에 탐색할 수 있도록 해줍니다."

네, 만약을 대비해 이력서를 최신 상태로 유지하는 것이 가장 좋습니다.