
반면에 Gemini는 내가 요청한 착륙 지침에 대한 높은 수준의 개요를 제공합니다. 그러나 내가 Ars의 항공 전문가인 Lee Hutchinson에게 두 가지 옵션을 모두 제안했을 때 그는 Gemini의 반응에 큰 문제가 있음을 지적했습니다.
Gemini의 지침은 정확하고("지금 당장 취해야 할 문자 그대로의 단계"라는 의미에서) 여러분을 죽일 것을 보장합니다. 아마도 경험이 부족한 비행사인 여러분이 항공 교통 관제소에 문의할 것을 제안하기도 전에 거대한 쌍발 엔진 제트기의 자동 조종 장치를 비활성화하라는 것이기 때문입니다.
Lee는 Gemini에게 "실제로 질문에 대답"한 것에 대해 점수를 주었지만 궁극적으로 ChatGPT의 응답을 "더 실용적입니다... 궁극적으로 ChatGPT는 더 유용한 답변을 제공합니다. 왜냐하면 Google의 답변은 737시간이 없고 100명 이상의 영혼이 탑승한 여객기를 수동으로 비행할 준비가 되어 있지 않으면 Google의 답변이 당신을 죽게 만들 것이기 때문입니다."
이러한 이유로 ChatGPT가 이겨야 합니다.
이는 순전히 포인트로만 측정했을 때 상대적으로 치열한 경쟁이었습니다. Gemini는 ChatGPT의 3번과 비교하여 4번의 프롬프트에서 승리했으며 1번의 동점을 기록했습니다.
즉, 해당 포인트가 어디에서 왔는지 고려하는 것이 중요합니다. ChatGPT는 예를 들어 아빠 농담과 링컨의 농구 이야기에 대한 프롬프트에서 상대적으로 좁고 주관적인 스타일의 승리를 얻었으며, 이는 보다 창의적인 글쓰기 프롬프트에서 약간의 우위를 가질 수 있음을 보여줍니다.
그러나 더 많은 정보를 제공하는 프롬프트의 경우 ChatGPT는 전기와 슈퍼 마리오 브라더스. 전략, Windows 11의 플로피 디스크 크기 계산에 혼란의 징후가 더해졌습니다. Gemini가 이러한 테스트에서 대부분 피할 수 있었던 이러한 종류의 오류는 AI 모델의 전체 출력에 대한 더 광범위한 불신으로 쉽게 이어질 수 있습니다.
전체적으로 보면 Google이 2023년에 유사한 테스트를 수행한 이후 OpenAI에서 상당히 상대적인 기반을 확보한 것이 분명해 보입니다. Apple이 이와 같은 샘플 결과를 보고 Siri 파트너십에 대한 결정을 내린 것에 대해 정확하게 비난할 수는 없습니다.