Google의 Gemini 챗봇이 전체 뉴스 매체를 조작하고 허위 보고서를 게시한 것으로 밝혀진 후 한 달 동안 진행된 실험에서 뉴스 소스로서 생성 AI 도구의 신뢰성에 대한 새로운 우려가 제기되었습니다. 이 결과는 조사를 수행한 The Conversation에 의해 처음 보고되었습니다.
이 실험은 컴퓨터 과학을 전문으로 하는 저널리즘 교수가 주도했으며 4주 동안 7개의 생성 AI 시스템을 테스트했습니다. 매일 도구는 퀘벡에서 가장 중요한 다섯 가지 뉴스 이벤트를 나열 및 요약하고 중요도에 따라 순위를 매기고 소스로 직접 기사 링크를 제공하도록 요청 받았습니다. 테스트된 시스템 중에는 Google의 Gemini, OpenAI의 ChatGPT, Claude, Copilot, Grok, DeepSeek 및 Aria가 있습니다.

가장 눈에 띄는 실패는 Gemini가 가상의 뉴스 매체를 발명한 것과 관련이 있습니다. examplefictif.ca – 그리고 2025년 9월 퀘벡에서 발생한 스쿨버스 운전사들의 파업을 허위로 보고했습니다. 실제로는 기술적 문제로 인해 Lion Electric 버스가 철수하면서 혼란이 발생했습니다. 이것은 고립된 사건이 아니었습니다. 실험 중에 수집된 839개의 응답에서 AI 시스템은 정기적으로 가상의 출처를 인용하고, 깨지거나 불완전한 URL을 제공하거나, 실제 보고를 잘못 표현했습니다.
로이터 연구소 디지털 뉴스 보고서에 따르면 2024년 캐나다인의 6%가 생성 AI를 뉴스 소스로 의존했습니다. 이러한 도구가 사실을 환각시키거나, 보고를 왜곡하거나, 결론을 만들어내는 경우, 특히 응답이 명확한 면책 조항 없이 자신있게 제시되는 경우 잘못된 정보를 퍼뜨릴 위험이 있습니다.
사용자에게 위험은 실용적이고 즉각적입니다. 응답의 37%만이 완전하고 합법적인 소스 URL을 포함했습니다. 절반 미만의 경우에서 요약이 완전히 정확했지만, 많은 경우 부분적으로만 정확하거나 미묘하게 오해의 소지가 있었습니다. 어떤 경우에는 AI 도구가 지원되지 않는 '생성적 결론'을 추가하여 이야기에 인간 소스에서 언급한 적이 없는 '다시 시작된 논쟁' 또는 '강조된 긴장'이 있다고 주장했습니다. 이러한 추가 사항은 통찰력 있게 들릴 수도 있지만 단순히 존재하지 않는 이야기를 만들 수도 있습니다.

일부 도구는 망명 신청자 처우를 잘못 보고하거나 주요 스포츠 행사의 승자를 잘못 식별하는 등 실제 이야기를 왜곡했습니다. 다른 사람들은 여론 조사나 개인적인 상황에서 기본적인 사실적 실수를 저질렀습니다. 종합적으로, 이러한 문제는 생성 AI가 여전히 뉴스 요약과 맥락 창안을 구별하는 데 어려움을 겪고 있음을 시사합니다.
앞으로 The Conversation이 제기한 우려 사항은 업계 전반에 대한 보다 폭넓은 검토와 일치합니다. 22개 공공 서비스 미디어 조직의 최근 보고서에 따르면 AI로 생성된 뉴스 답변의 거의 절반에 소싱 문제부터 주요 부정확성에 이르기까지 중요한 문제가 포함되어 있는 것으로 나타났습니다. AI 도구가 검색 및 일상 정보 습관에 더욱 통합됨에 따라 이번 조사 결과는 분명한 경고를 강조합니다. 즉, 뉴스의 경우 생성 AI는 기껏해야 신뢰할 수 있는 기록 소스가 아니라 출발점으로 취급되어야 한다는 것입니다.