忍者ブログ

mshencity

새로운 연구에 따르면 AI는 아직 사무용으로 적합하지 않습니다.



마이크로소프트 CEO 사티아 나델라가 생성 AI가 지식 업무를 대신할 것이라고 예측한 지 거의 2년이 지났지만 오늘날 일반적인 로펌이나 투자 은행을 둘러보면 여전히 인력이 많은 부분을 담당하고 있다. "추론"과 "계획"에 대한 모든 과장된 광고에도 불구하고 훈련 데이터 회사인 Mercor의 새로운 연구는 로봇 혁명이 정체된 이유를 정확하게 설명합니다. AI는 실제 작업의 지저분함을 처리할 수 없습니다.





"대체" 이론에 대한 현실 점검





Mercor는 APEX-Agents라는 새로운 벤치마크를 발표했는데 이는 잔인합니다. AI에게 시를 쓰거나 수학 문제를 풀도록 요구하는 일반적인 테스트와 달리 이 테스트는 변호사, 컨설턴트, 은행가의 실제 쿼리를 사용합니다. 이는 모델이 다양한 유형의 정보 사이를 이동해야 하는 완전한 다단계 작업을 수행하도록 요청합니다.





결과는? Gemini 3 Flash 및 GPT-5.2와 같은 시장에서 가장 뛰어난 모델조차도 25%의 정확도를 달성할 수 없습니다. Gemini는 24%로 선두를 달리고 있으며 GPT-5.2가 23%로 바로 뒤를 이었습니다. 대부분의 다른 사람들은 십대에 갇혀있었습니다.





AI가 '사무실 테스트'에 실패한 이유





Mercor CEO Brendan Foody는 문제가 원시 지능이 아니라고 지적합니다. 그것은 맥락입니다. 현실 세계에서는 답이 은쟁반에 담겨 제공되지 않습니다. 변호사는 Slack 스레드를 확인하고, PDF 정책을 읽고, 스프레드시트를 살펴본 다음 모든 내용을 종합하여 GDPR 준수에 관한 질문에 답해야 합니다.





인간은 이러한 컨텍스트 전환을 자연스럽게 수행합니다. AI는 정말 끔찍한 것으로 밝혀졌습니다. 이러한 모델이 "흩어진" 소스에서 정보를 찾도록 강요하면 모델은 혼란스러워지거나 잘못된 답변을 제공하거나 완전히 포기하게 됩니다.





'신뢰할 수 없는 인턴'





직업 안정에 대해 걱정하는 사람에게는 이것이 약간의 안도감을 줍니다. 연구에 따르면 현재 AI는 노련한 전문가라기보다는 일의 4분의 1 정도만 제대로 해내는 신뢰할 수 없는 인턴처럼 기능하는 것으로 나타났습니다.





즉, 진행 속도가 엄청나게 빠릅니다. Foody는 불과 1년 전만 해도 이러한 모델의 점수가 5%에서 10% 사이였다고 언급했습니다. 이제 그들은 24%를 기록하고 있습니다. 그래서 그들은 아직 운전할 준비가 되지 않았지만 우리가 예상했던 것보다 훨씬 빠르게 운전하는 법을 배우고 있습니다. 하지만 현재로서는 "지식 작업" 혁명은 봇이 멀티태스킹 방법을 배울 때까지 보류됩니다.






PR

コメント

プロフィール

HN:
No Name Ninja
性別:
非公開

P R