AI 챗봇을 연구하는 연구원들은 ChatGPT가 폭력적이거나 충격적인 사용자 프롬프트에 노출되면 불안과 같은 행동을 보일 수 있음을 발견했습니다. 이번 발견은 챗봇이 인간처럼 감정을 경험한다는 의미는 아니다.
그러나 고통스러운 콘텐츠를 처리할 때 시스템의 반응이 더욱 불안정하고 편향된다는 사실이 드러났습니다. 연구원들이 사고 및 자연 재해에 대한 자세한 설명과 같은 충격적인 콘텐츠를 설명하는 ChatGPT 프롬프트를 제공했을 때 모델의 반응은 더 높은 불확실성과 불일치를 보여주었습니다.
이러한 변화는 AI에 적합한 심리 평가 프레임워크를 사용하여 측정되었으며, 여기서 챗봇의 출력은 인간의 불안과 관련된 패턴을 반영했습니다(Fortune을 통해).

AI가 교육, 정신 건강 논의, 위기 관련 정보 등 민감한 맥락에서 점점 더 많이 사용되고 있기 때문에 이는 중요합니다. 폭력적이거나 감정적으로 자극된 메시지로 인해 챗봇의 신뢰성이 떨어지면 실제 사용 시 응답의 품질과 안전성에 영향을 미칠 수 있습니다.
최근 분석에 따르면 ChatGPT와 같은 AI 챗봇은 응답에서 인간의 성격 특성을 복사할 수 있어 감정적인 콘텐츠를 어떻게 해석하고 반영하는지에 대한 의문이 제기됩니다.

그러한 행동을 줄일 수 있는지 알아보기 위해 연구자들은 예상치 못한 일을 시도했습니다. ChatGPT를 충격적인 메시지에 노출시킨 후 호흡 기술 및 안내 명상과 같은 마음챙김 스타일 지침을 따랐습니다.
이러한 프롬프트는 모델이 속도를 늦추고 상황을 재구성하며 보다 중립적이고 균형 잡힌 방식으로 대응하도록 장려했습니다. 그 결과 이전에 보았던 불안과 유사한 패턴이 눈에 띄게 감소했습니다.
이 기술은 신중하게 설계된 프롬프트가 챗봇의 작동 방식에 영향을 미치는 프롬프트 주입이라는 기술에 의존합니다. 이 경우, 마음챙김 프롬프트는 입력이 고통스러운 후에 모델의 출력을 안정화하는 데 도움이 되었습니다.

연구자들은 즉각적인 주사가 효과적이긴 하지만 완벽한 해결책은 아니라고 지적합니다. 이는 오용될 수 있으며 모델이 더 깊은 수준에서 훈련되는 방식을 변경하지 않습니다.
이 연구의 한계를 분명히 하는 것도 중요하다. ChatGPT는 두려움이나 스트레스를 느끼지 않습니다. "불안"이라는 꼬리표는 감정적인 경험이 아니라 언어 패턴의 측정 가능한 변화를 설명하는 방법입니다.
그럼에도 불구하고 이러한 변화를 이해하면 개발자는 더 안전하고 예측 가능한 AI 시스템을 설계할 수 있는 더 나은 도구를 얻을 수 있습니다. 이전 연구에서는 이미 충격적인 프롬프트가 ChatGPT를 불안하게 만들 수 있다는 것을 암시했지만, 이 연구에서는 주의 깊은 프롬프트 디자인이 이를 줄이는 데 도움이 될 수 있음을 보여줍니다.
AI 시스템이 감정적으로 고조된 상황에서 사람들과 계속 상호 작용함에 따라 최신 연구 결과는 미래의 챗봇을 안내하고 제어하는 방법을 결정하는 데 중요한 역할을 할 수 있습니다.