
이달 초 OpenAI는 ChatGPT 내에 건강에 초점을 맞춘 새로운 공간을 도입하여 사용자가 의료 데이터, 질병, 피트니스와 같은 민감한 주제에 대해 질문할 수 있는 보다 안전한 방법을 제시했습니다. 출시 당시 강조된 헤드라인 기능 중 하나는 Apple Health, MyFitnessPal 및 Peloton과 같은 앱의 데이터를 분석하여 장기적인 추세를 파악하고 개인화된 결과를 제공하는 ChatGPT Health의 기능이었습니다. 그러나 새로운 보고서에 따르면 OpenAI는 해당 데이터에서 신뢰할 수 있는 통찰력을 얻는 데 이 기능이 얼마나 효과적인지 과장했을 수 있습니다.
워싱턴 포스트(Washington Post)의 Geoffrey A. Fowler가 실시한 초기 테스트에 따르면 ChatGPT Health에 10년간의 Apple Health 데이터에 대한 액세스 권한이 부여되었을 때 챗봇은 기자의 심장 건강에 F 등급을 매겼습니다. 그러나 평가를 검토한 후 심장 전문의는 이를 "근거가 없다"고 말했으며 기자의 실제 심장 질환 위험은 극히 낮다고 말했습니다.
Scripps 연구소의 Eric Topol 박사는 ChatGPT Health의 기능에 대해 솔직하게 평가하면서 이 도구는 의학적 조언을 제공할 준비가 되어 있지 않으며 신뢰할 수 없는 스마트워치 지표에 너무 많이 의존하고 있다고 말했습니다. ChatGPT의 등급은 VO2 최대치 및 심박수 변동성에 대한 Apple Watch 추정치에 크게 의존했습니다. 둘 다 알려진 제한 사항이 있으며 장치와 소프트웨어 빌드에 따라 크게 다를 수 있습니다. 독립적인 연구에 따르면 Apple Watch VO2 max 추정치는 종종 낮은 수준이지만 ChatGPT는 이를 여전히 건강 상태가 좋지 않음을 나타내는 명확한 지표로 취급했습니다.
문제는 여기서 끝나지 않았습니다. 기자가 ChatGPT Health에 동일한 평가 작업을 반복하도록 요청했을 때 점수는 대화 전반에 걸쳐 F와 B 사이에서 변동했으며, 챗봇은 때때로 접근 가능한 최근 혈액 검사 보고서를 무시하고 때로는 기자의 나이와 성별과 같은 기본 세부 정보를 잊어버렸습니다. 이번 달 초에 출시된 Anthropic의 Claude for Healthcare도 비슷한 일관성을 보여 C와 B 마이너스 사이에서 등급을 매겼습니다.
OpenAI와 Anthropic은 그들의 도구가 의사를 대체하기 위한 것이 아니며 단지 일반적인 맥락을 제공하기 위한 것이라고 강조했습니다. 그럼에도 불구하고 두 챗봇 모두 심혈관 건강에 대한 자신감 있고 고도로 개인화된 평가를 제공했습니다. 이러한 권위와 불일치의 조합은 건강한 사용자에게 겁을 주거나 건강하지 않은 사용자를 거짓으로 안심시킬 수 있습니다. AI는 결국 장기적인 건강 데이터에서 귀중한 통찰력을 얻을 수 있지만, 초기 테스트에 따르면 수년간의 피트니스 추적 데이터를 이러한 도구에 입력하면 현재 명확성보다 혼란이 더 많이 발생합니다.