Columbia Engineering의 연구원들은 온라인 비디오를 연구하여 Emo라는 인간과 유사한 로봇이 말과 노래를 립싱크하도록 훈련시켰습니다. 이는 이제 기계가 단순히 관찰만으로 복잡한 인간 행동을 학습할 수 있는 방법을 보여줍니다.
Emo는 완전한 인간형 몸체가 아니라 인간이 의사소통하는 방식을 탐구하기 위해 제작된 매우 현실적인 로봇 얼굴입니다. 얼굴은 실리콘 피부로 덮여 있으며 입술, 턱, 뺨을 움직이는 26개의 독립적으로 제어되는 안면 모터로 구동됩니다.
이러한 모터를 통해 Emo는 자연스러운 말하기와 노래에 중요한 24개의 자음과 16개의 모음을 포함하는 상세한 입 모양을 형성할 수 있습니다. 목표는 로봇이 거의 인간처럼 보이지만 얼굴 움직임이 목소리와 일치하지 않기 때문에 여전히 불안함을 느끼는 불쾌한 계곡 효과를 줄이는 것이었습니다.
[embed]https://www.youtube.com/watch?v=nhFU5KHA2fw[/embed]
학습 과정은 단계적으로 진행되었습니다. 먼저 Emo는 거울을 통해 자신의 모습을 보면서 모터를 움직여 자신의 얼굴을 탐색했습니다. 이는 시스템이 모터 명령이 얼굴 모양을 어떻게 변경하는지 이해하는 데 도움이 되었습니다.
그런 다음 연구원들은 소리와 움직임을 연결하는 학습 파이프라인을 도입했습니다. Emo는 사람들이 말하고 노래하는 모습이 담긴 YouTube 동영상을 몇 시간 동안 시청했고, AI 모델은 오디오와 눈에 보이는 입술 동작 간의 관계를 분석했습니다.
언어나 의미에 초점을 맞추는 대신 시스템은 말의 원래 소리를 연구했습니다. 얼굴 동작 변환기는 학습된 패턴을 실시간 모터 명령으로 변환했습니다.
이러한 접근 방식을 통해 Emo는 영어뿐만 아니라 프랑스어, 아랍어, 중국어 등 한번도 훈련받지 않은 언어에서도 립싱크를 할 수 있었습니다. 같은 방법이 노래에도 적용되었는데, 모음이 늘어지고 리듬이 바뀌기 때문에 더 어렵습니다.

연구원들은 미래의 로봇이 사람들과 함께 일하려면 자연스럽게 의사소통해야 하기 때문에 이것이 중요하다고 말합니다. 이러한 발전은 가정과 직장을 위한 로봇에 대한 관심이 빠르게 높아지면서 이루어졌습니다.
CES 2026에서는 직장에 바로 투입될 준비가 되어 있는 Boston Dynamics의 Atlas 휴머노이드부터 식사를 준비하고 세탁을 할 수 있는 SwitchBot의 가사 중심 로봇, 일상 생활을 더 쉽게 만들어주는 LG의 곧 출시될 홈 어시스턴트 로봇에 이르는 데모를 통해 이러한 추진력이 전면적으로 나타났습니다.
로봇에게 인간과 같은 감성을 부여하는 인공 피부와 같은 진보를 추가하고 사실적인 립싱크와 결합하면 로봇이 어떻게 기계처럼 느껴지지 않고 사회적 동반자처럼 느껴지기 시작했는지 쉽게 알 수 있습니다. Emo는 여전히 연구 프로젝트이지만 언젠가는 로봇이 우리가 보고 듣는 것과 같은 방식으로 인간의 기술을 배울 수 있음을 보여줍니다.