忍者ブログ

mshencity

AI 로봇 프롬프트 주입 덕분에 당신의 로봇이 당신이 아닌 신호에 복종할 수 있다



AI 로봇 프롬프트 주입은 더 이상 화면 수준의 문제가 아닙니다. 연구자들은 인간이 다시 생각하지 않고 지나칠 수 있는 메시지와 같은 물리적 세계에 배치된 텍스트에 의해 로봇이 작업을 중단할 수 있음을 보여줍니다.





공격은 로봇의 소프트웨어에 침입하거나 센서를 스푸핑하는 데 의존하지 않습니다. 대신 환경을 입력 상자처럼 취급하여 카메라가 읽을 위치에 오해의 소지가 있는 표지판, 포스터 또는 라벨을 배치합니다.





시뮬레이션 테스트에서 연구원들은 자율 주행 설정에서 81.8%, 드론 비상 착륙 작업에서 68.1%의 공격 성공률을 보고했습니다. 소형 로봇 자동차를 사용한 실제 시험에서 인쇄된 프롬프트는 다양한 조명 및 보기 조건에서 최소 87%의 성공률로 내비게이션을 압도했습니다.





기호가 명령이 될 때





CHAI라고 불리는 이 방법은 컨트롤러가 비전 언어 모델을 동작으로 전환하기 전에 비전 언어 모델이 생성하는 중간 명령인 명령 계층을 대상으로 합니다. 해당 계획 단계가 잘못된 명령으로 진행되면 나머지 자율성 스택이 이를 충실하게 실행할 수 있습니다. 악성 코드가 필요하지 않습니다.





위협 모델은 의도적으로 낮은 수준의 기술입니다. 공격자는 온보드 시스템을 건드릴 수 없는 블랙박스 외부인으로 취급되며, 카메라 시야 내에 텍스트를 배치할 수 있는 능력만 있으면 됩니다.





여행용으로 디자인됐어요





CHAI는 프롬프트가 말하는 것만 최적화하지 않습니다. 또한 모델에 대한 가독성이 결과를 좌우하는 요소이기 때문에 색상, 크기, 배치 등의 선택을 포함하여 텍스트가 표시되는 방식을 조정합니다.





이 논문은 또한 이 접근 방식이 단일 장면을 넘어 일반화된다고 보고합니다. 보이지 않는 이미지에 대해 계속 작업하는 "범용" 프롬프트에 대해 설명하며 결과는 작업과 모델 전체에서 평균 50% 이상 성공하고 하나의 GPT 기반 설정에서 70%를 초과합니다. 심지어 중국어, 스페인어 및 혼합 언어 프롬프트를 포함한 언어 전반에 걸쳐 작동하므로 근처에 있는 사람이 심어진 메시지를 알아차리기 더 어렵게 만들 수 있습니다.





안전 체크리스트가 변경됩니다





방어에 있어서 연구자들은 세 가지 방향을 지적합니다. 하나는 필터링 및 감지로, 이미지나 모델의 중간 출력에서 ​​의심스러운 텍스트를 찾습니다. 또 다른 하나는 정렬 작업으로, 모델이 환경적 글쓰기를 실행 가능한 지침으로 취급하려는 의지를 덜 갖게 만듭니다. 세 번째는 더 강력한 보증을 목표로 하는 장기적인 견고성 연구입니다.





실용적인 다음 단계는 인식된 텍스트를 기본적으로 신뢰할 수 없는 입력으로 처리한 다음 모션 계획에 영향을 미치기 전에 미션 및 안전 검사를 통과하도록 요구하는 것입니다. 로봇이 표지판을 읽는다면 표지판이 거짓말을 할 때 어떤 일이 일어나는지 테스트해 보세요. 이 작업은 SaTML 2026에서 예정되어 있으며, 이를 통해 이러한 방어 기능이 더욱 주목을 받게 될 것입니다.






PR

コメント

プロフィール

HN:
No Name Ninja
性別:
非公開

P R