忍者ブログ

mshencity

고급 AI 모델을 훈련하는 DeepSeek의 새로운 방법이 어떻게 모든 것을 혼란에 빠뜨릴 수 있습니까?

게티이미지-2198893086
플라비오 코엘료/ 게티를 통한 순간

ZDNET을 팔로우하세요: 우리를 선호 소스로 추가하세요 Google에서.


ZDNET의 주요 시사점

  • DeepSeek은 Manifold-Constrained Hyper-Connection을 선보였습니다. HC.
  • 막대한 비용을 들이지 않고도 LLM을 확장할 수 있는 방법을 제공합니다.
  • 회사는 R2 모델 출시를 2025년 중반으로 연기했습니다.

새해가 시작되기 직전에 AI 세계에는 고급 모델 훈련을 위한 획기적인 새로운 방법이 소개되었습니다.

중국 AI 회사 DeepSeek의 연구원 팀은 수요일에 Manifold-Constrained Hyper-Connections, 즉 Manifold-Constrained Hyper-Connections라는 내용을 설명하는 논문을 발표했습니다. 줄여서 HC는 엔지니어가 일반적으로 필요한 막대한 계산 비용 없이 대규모 언어 모델을 구축하고 확장할 수 있는 경로를 제공할 수 있습니다.

또한: DeepSeek의 새 모델은 독점 AI에 대한 최신 타격입니까?

DeepSeek은 1년 전 OpenAI의 o1 기능에 필적하고 적은 비용으로 훈련된 모델인 R1을 출시하면서 문화적 주목을 받았습니다. 이번 출시는 미국 기반 기술 개발자들에게 충격으로 다가왔습니다. 최첨단 AI 모델을 훈련하는 데 막대한 자본과 컴퓨팅 리소스에 대한 접근이 반드시 필요한 것은 아니라는 점을 보여줬기 때문입니다.

새로운 HC 논문은 작년 중반에 예상되었지만 중국의 고급 AI 칩에 대한 제한된 접근과 모델 성능에 대한 회사 CEO Liang Wenfeng의 우려로 인해 연기된 것으로 알려진 DeepSeek의 향후 모델 R2의 기술 프레임워크로 밝혀질 수 있습니다.

도전

연구원들이 아직 동료 검토를 거치지 않은 연구 결과를 공유할 수 있는 인기 있는 온라인 리소스인 사전 인쇄 서버 사이트 arXiv에 게시된 DeepSeek의 새 논문은 AI 모델의 확장성을 방해하는 복잡하고 중요한 기술적 격차를 해소하려는 시도입니다.

또한: Mistral의 최신 오픈 소스 릴리스는 대형 모델보다 소형 모델에 베팅합니다. 그 이유는 다음과 같습니다.

LLM은 신경망을 기반으로 구축되었으며, 이는 여러 계층에서 신호를 보존하도록 설계되었습니다. 문제는 더 많은 레이어가 추가될수록 신호가 더 많이 감쇠되거나 저하될 수 있으며 노이즈로 변할 위험이 더 커진다는 것입니다. 이는 전화 게임과 비슷합니다. 더 많은 사람이 추가될수록 원본 메시지가 혼동되거나 변경될 가능성이 높아집니다.

그렇다면 핵심 과제는 가능한 한 많은 계층에서 신호를 보존할 수 있는 모델을 구축하는 것입니다. 또는 DeepSeek 연구원이 새 논문에서 설명하는 것처럼 "가소성과 안정성 사이의 균형을 더 잘 최적화"하는 것입니다.

해결책

DeepSeek CEO Liang Wenfeng을 포함한 새 논문의 저자는 ByteDance 연구자들이 2024년에 도입한 프레임워크인 초연결(HC)을 기반으로 구축했습니다. 이 프레임워크는 신경망의 계층이 서로 정보를 공유할 수 있는 채널 수를 다양화합니다. 그러나 HC는 번역 과정에서 원래 신호가 손실될 위험이 있습니다. (전화 게임에 점점 더 많은 사람이 추가되는 것을 다시 생각해 보십시오.) 또한 메모리 비용이 높아 대규모로 구현하기가 어렵습니다.

또한: DeepSeek이 AI 세계를 다시 뒤흔들 수도 있습니다. - 우리가 알고 있는 것

그만큼 HC 아키텍처는 모델 내의 초연결성을 제한하여 메모리 문제를 피하면서 HC로 인한 정보 복잡성을 유지함으로써 이 문제를 해결하는 것을 목표로 합니다. 결과적으로 이는 소규모이고 현금이 부족한 개발자에게도 실용적이고 확장 가능한 방식으로 매우 복잡한 모델을 교육할 수 있습니다.

왜 중요한가요?

2025년 1월 R1 릴리스와 마찬가지로 HC 프레임워크는 AI 진화의 새로운 방향을 암시할 수 있습니다.

지금까지 AI 경쟁에서는 가장 크고 돈이 풍부한 기업만이 첨단 모델을 구축할 수 있다는 것이 지배적인 통념이었습니다. 그러나 DeepSeek은 해결 방법이 가능하며 획기적인 엔지니어링을 통해서만 획기적인 발전을 이룰 수 있음을 지속적으로 보여주었습니다.

회사가 새로운 연구 결과를 발표했다는 사실 HC 방법은 특히 많은 기대를 모으고 있는 R2 모델(출시 날짜는 공식적으로 발표되지 않음)에서 사용하게 될 경우 소규모 개발자가 널리 채택할 수 있음을 의미합니다.

PR

コメント

プロフィール

HN:
No Name Ninja
性別:
非公開

P R