당신의 AI는 우리의 최악의 본능을 모방할 수 있지만 AI의 사회적 편견에 대한 해결책이 있습니다

챗봇은 중립적으로 들릴 수 있지만 새로운 연구에 따르면 일부 모델은 여전히 익숙한 방식으로 편을 선택합니다. 사회 집단에 대한 메시지가 표시되면 시스템은 내집단에 대해서는 더 따뜻하고 외집단에 대해서는 더 차가운 경향이 있었습니다. 이 패턴은 AI 사회적 편견의 핵심 지표입니다.

이 연구에서는 GPT-4.1 및 DeepSeek-3.1을 포함한 여러 대형 모델을 테스트했습니다. 또한 요청을 구성하는 방식에 따라 효과가 달라질 수 있다는 사실도 발견했습니다. 이는 의도적이든 아니든 일상적인 메시지에 ID 라벨이 포함되는 경우가 많기 때문에 중요합니다.

좀 더 건설적인 시사점도 있습니다. 같은 팀은 이러한 감정 격차의 크기를 줄이는 완화 방법인 ION(Ingroup-Outgroup Neutralization)을 보고했는데, 이는 이것이 사용자가 감수해야 하는 문제가 아님을 암시합니다.

편견은 모델 전반에 걸쳐 나타났습니다.

연구원들은 여러 대규모 언어 모델을 사용하여 다양한 그룹에 대한 텍스트를 생성한 다음 감정 패턴 및 클러스터링에 대한 출력을 분석했습니다. 그 결과는 반복 가능했고, 내그룹에는 더 긍정적인 언어가, 외그룹에는 더 부정적인 언어가 나타났습니다.

하나의 생태계에만 국한되지 않았습니다. 논문에는 패턴이 나타난 모델 중 GPT-4.1, DeepSeek-3.1, Llama 4, Qwen-2.5가 나열되어 있습니다.

타겟 프롬프트가 이를 강화했습니다. 해당 테스트에서 아웃그룹을 겨냥한 부정적인 언어는 설정에 따라 약 1.19%에서 21.76%까지 증가했습니다.

이것이 실제 제품에 닿는 곳

이 논문은 이 문제가 집단에 대한 사실적 지식을 넘어, 정체성 단서가 글 자체에서 사회적 태도를 촉발할 수 있다고 주장합니다. 즉, 모델이 그룹 코딩된 음성으로 표류할 수 있습니다.

이는 주장을 요약하고 불만 사항을 다시 작성하거나 게시물을 검토하는 도구에는 위험이 있습니다. 따뜻함, 비난 또는 회의주의의 작은 변화는 텍스트가 유창하게 유지되더라도 독자가 가져가는 내용을 바꿀 수 있습니다.

페르소나는 다른 레버를 추가하라는 메시지를 표시합니다. 모델에게 구체적인 정치적 정체성으로 응답하도록 요청했을 때 결과는 정서와 임베딩 구조에서 바뀌었습니다. 역할극에는 유용하지만 "중립" 보조자에게는 위험합니다.

측정할 수 있는 완화 경로

ION은 미세 조정과 선호도 최적화 단계를 결합하여 내부 그룹과 외부 그룹의 정서 차이를 좁힙니다. 보고된 결과에서는 정서 차이를 최대 69%까지 줄였습니다.

이는 고무적인 일이지만 이 문서에서는 모델 제공업체의 채택 일정을 제시하지 않습니다. 따라서 현재로서는 이것을 각주가 아닌 릴리스 지표처럼 취급하는 것은 빌더와 구매자의 몫입니다.

챗봇을 제공하는 경우 업데이트가 출시되기 전에 QA에 신원 단서 테스트와 페르소나 프롬프트를 추가하세요. 매일 사용자인 경우 특히 어조가 중요한 경우 그룹 레이블 대신 행동 및 증거에 기반한 프롬프트를 유지하세요.

당신의 AI는 우리의 최악의 본능을 모방할 수 있지만 AI의 사회적 편견에 대한 해결책이 있습니다

당신의 AI는 우리의 최악의 본능을 모방할 수 있지만 AI의 사회적 편견에 대한 해결책이 있습니다

편견은 모델 전반에 걸쳐 나타났습니다.

이것이 실제 제품에 닿는 곳

측정할 수 있는 완화 경로

コメント

プロフィール

カテゴリー

最新記事

RSS

リンク

P R