忍者ブログ

mshencity

OpenAI, AI 코딩 에이전트 작동 방식에 대한 기술적 세부 정보 유출





OpenAI와 Anthropic 모두 GitHub에서 코딩 CLI 클라이언트를 오픈 소스화하여 개발자가 구현을 직접 검사할 수 있도록 하는 반면, ChatGPT 또는 Claude 웹 인터페이스에서는 동일한 작업을 수행하지 않는다는 점은 주목할 가치가 있습니다.


루프 내부의 공식적인 모습


Bolin의 게시물은 사용자, AI 모델 및 모델이 코딩 작업을 수행하기 위해 호출하는 소프트웨어 도구 간의 상호 작용을 조율하는 핵심 논리인 "에이전트 루프"에 중점을 둡니다.


지난 12월에 쓴 것처럼 모든 AI 에이전트의 중심에는 반복되는 주기가 있습니다. 에이전트는 사용자로부터 입력을 받아 모델에 대한 텍스트 프롬프트를 준비합니다. 그런 다음 모델은 사용자를 위한 최종 답변을 생성하거나 도구 호출(예: 셸 명령 실행 또는 파일 읽기)을 요청하는 응답을 생성합니다. 모델이 도구 호출을 요청하면 에이전트는 이를 실행하고 출력을 원래 프롬프트에 추가한 후 모델을 다시 쿼리합니다. 이 프로세스는 모델이 도구 요청을 중단하고 대신 사용자에게 보조 메시지를 생성할 때까지 반복됩니다.


이러한 반복 프로세스는 어딘가에서 시작되어야 하며 Bolin의 게시물은 Codex가 모델 추론을 처리하는 OpenAI의 Responses API로 전송된 초기 프롬프트를 구성하는 방법을 보여줍니다. 프롬프트는 시스템, 개발자, 사용자 또는 보조자 등 우선 순위를 결정하는 역할이 할당된 여러 구성 요소로 구성됩니다.


지침 필드는 사용자 지정 구성 파일이나 CLI와 함께 번들로 제공되는 기본 지침에서 나옵니다. 도구 필드는 셸 명령, 계획 도구, 웹 검색 기능 및 MCP(Model Context Protocol) 서버를 통해 제공되는 사용자 지정 도구를 포함하여 모델이 호출할 수 있는 기능을 정의합니다. 입력 필드에는 샌드박스 권한, 선택적 개발자 지침, 현재 작업 디렉터리와 같은 환경 컨텍스트, 마지막으로 사용자의 실제 메시지를 설명하는 일련의 항목이 포함되어 있습니다.




PR

コメント

プロフィール

HN:
No Name Ninja
性別:
非公開

P R