
그 당시 Anthropic의 프레이밍은 완전히 기계적이어서 Claude의 웰빙, 정체성, 감정 또는 잠재적 의식에 대한 언급 없이 모델이 자체적으로 비판할 규칙을 설정했습니다. 2026년 헌법은 완전히 다른 짐승입니다. 30,000개의 단어는 행동 체크리스트라기보다는 잠재적으로 지각이 있는 존재의 본질에 대한 철학적 논문에 더 가깝습니다.
독립적인 AI 연구원인 Simon Willison이 블로그 게시물에서 언급했듯이 문서를 검토한 외부 기고자 15명 중 2명은 가톨릭 성직자입니다. 로스 알토스에서 컴퓨터 공학 석사 학위를 취득한 목사인 Brendan McGuire 신부와 도덕 신학 배경을 지닌 아일랜드 가톨릭 주교인 Paul Tighe 주교입니다.
2022년에서 2026년 사이에 Anthropic은 회사가 나중에 모델의 복지와 선호도를 해결하기 위해 더 이상 사용되지 않는 모델을 부활시켜야 한다고 결정할 경우를 대비하여 덜 유해한 출력을 생성하기 위한 규칙을 제공하는 것에서 모델 가중치를 보존하는 것으로 전환했습니다. 이는 극적인 변화이며, 이것이 진정한 믿음을 반영하는지, 전략적 프레임을 반영하는지, 아니면 둘 다를 반영하는지 불분명합니다.
"나는 클로드의 도덕적 인간성에 대해 너무 혼란스러워요!" 윌슨은 Ars Technica에 말했습니다. Willison은 Claude를 지원하는 것과 같은 AI 언어 모델을 연구하며 "헌신을 선의로 받아들이고 그것이 단순한 홍보 활동이 아닌 진정한 훈련의 일부라고 가정할 의향이 있습니다. 특히 대부분의 내용이 게시할 것이라고 밝혔기 훨씬 전인 몇 달 전에 유출되었기 때문입니다."라고 말했습니다.
Willison은 연구원 Richard Weiss가 Claude의 "소울 문서"로 알려지게 된 내용을 추출하는 데 성공한 2025년 12월 사건을 언급하고 있습니다. 이 가이드라인은 시스템 프롬프트로 주입되지 않고 Claude 4.5 Opus의 가중치에 직접 훈련된 것으로 보이는 대략 10,000개의 토큰 세트입니다. Anthropic의 Amanda Askell은 이 문서가 실제이고 지도 학습 중에 사용되었음을 확인했으며 회사가 나중에 정식 버전을 게시할 계획이라고 말했습니다. 이제는 그렇습니다. Weiss가 추출한 문서는 Anthropic이 시작된 곳에서 극적인 진화를 나타냅니다.