엔비디아의 새로운 AI 모델은 로봇이 단순히 명령을 수행하는 것을 넘어, 상황을 판단하고 자율적으로 협업하는 '엠바디드 AI(Embodied AI)' 시대를 예고하고 있다.
젠슨 황(Jensen Huang) 엔비디아(Nvidia) CEO가 지난해 예고했던 '피지컬 AI(Physical AI)'의 시대가 마침내 현실로 다가왔다.
2026년 1월 6일(현지시간) 미국 라스베이거스에서 열린 CES 2026에서 엔비디아는 단순한 소프트웨어 기반의 대규모 언어 모델(LLM)을 넘어, 물리적 세계에서 로봇이 스스로 판단하고 행동하게 만드는 혁신적인 AI 모델들을 대거 공개했다.
이번 발표의 핵심은 로봇의 두뇌 역할을 하는 차세대 비전 언어 모델(VLM)인 '코스모스 리즌 2(Cosmos Reason 2)'와 이를 뒷받침하는 확장된 네모트론(Nemotron) 제품군이다.
엔비디아는 이를 통해 챗봇 인터페이스에 머물던 AI를 물리적 실체를 가진 로봇과 자율 시스템으로 확장하며, 글로벌 AI 패권 경쟁의 전장을 '현실 세계'로 옮겨왔다.
물리적 세계를 이해하는 두뇌, '코스모스 리즌 2'
엔비디아가 이번 CES 2026에서 공개한 '코스모스 리즌 2'는 지난해 발표된 '코스모스 리즌 1'을 잇는 최신 버전으로, 엠바디드 추론(Embodied Reasoning)을 위해 설계된 비전 언어 모델(VLM)이다. 기존 모델이 2차원적 온톨로지(Ontology, 존재론적 개념 체계)에 기반했다면, 이번 모델은 기업들이 애플리케이션을 더욱 유연하게 맞춤화할 수 있도록 기능을 대폭 강화했다.
특히 주목할 점은 '계획 수립(Planning)' 능력이다. 소프트웨어 기반의 AI 에이전트가 디지털 워크플로우를 논리적으로 처리하듯, 코스모스 리즌 2는 물리적 형태를 가진 에이전트(로봇)가 다음 행동을 스스로 계획하고 실행할 수 있게 한다. 이는 단순히 시각적 입력을 처리하는 구글의 팔리젬마(PaliGemma)나 미스트랄의 픽스트랄 라지(Pixtral Large)와 같은 경쟁 모델들과 차별화되는 지점이다.
현재 시장에 출시된 VLM 중 추론(Reasoning) 능력까지 완벽하게 지원하는 모델은 극히 드물며, 엔비디아는 이미 허깅페이스(Hugging Face)의 비디오 물리 추론 리더보드에서 선두를 달리고 있다.
카리 브리스키(Kari Briski) 엔비디아 생성형 AI 소프트웨어 부문 부사장은 "로봇 공학은 변곡점에 도달했다"며, "우리는 단일 작업에 국한된 전문가 로봇에서 '제너럴리스트 스페셜리스트(Generalist Specialist)' 시스템으로 이동하고 있다"고 강조했다. 이는 광범위한 기초 지식과 고도화된 특정 작업 수행 능력을 동시에 갖춘 로봇의 등장을 의미하며, 코스모스 리즌 2가 바로 그 예측 불가능한 물리적 세계를 탐색하는 핵심 두뇌 역할을 수행하게 된다.
시뮬레이션부터 배포까지, '심투리얼(Sim-to-Real)' 가속화
엔비디아는 모델뿐만 아니라 로봇 훈련을 위한 환경 조성에도 박차를 가하고 있다. 이번에 함께 공개된 '코스모스 트랜스퍼(Cosmos Transfer)'의 새 버전은 개발자들이 로봇 훈련용 시뮬레이션을 생성할 수 있도록 지원하는 모델이다.
물리적 AI, 즉 로봇과 자율주행차를 구축하기 위해서는 단순한 모델 이상의 자원이 필요하다. AI가 학습하고 개선되기 위해서는 방대한 데이터와 이를 시뮬레이션할 수 있는 컴퓨팅 파워가 필수적이다.
엔비디아는 세계 최대 규모의 개방형 데이터셋 컬렉션을 구축하고, 개발자들이 애플리케이션에 맞는 AI를 목적에 맞게 구축(Purpose-build)할 수 있도록 개방형 라이브러리와 훈련 스크립트를 제공하고 있다.
브리스키 부사장은 "엔비디아의 로드맵은 모든 오픈 모델에 걸쳐 동일한 자산 패턴을 따른다"며, 엔터프라이즈 생태계가 디지털 세계와 물리적 세계 모두에서 에이전트에게 데이터, 훈련, 추론을 공급하는 거대한 순환 구조를 형성하고 있음을 시사했다.
현재 엔비디아는 코스모스 외에도 로봇 공학용 오픈 추론 비전-언어-행동(VLA) 모델인 '그루트(Gr00t)'와 에이전트 AI를 위한 네모트론 모델 등을 통해 물리적 AI 포트폴리오를 완성해가고 있다.
네모트론(Nemotron)의 진화: 더 빠르고, 더 안전하게
디지털과 물리적 경계를 허무는 엔비디아의 전략은 '네모트론' 패밀리의 확장에서도 드러난다. 엔비디아는 이번 행사에서 ▲네모트론 스피치(Speech) ▲네모트론 RAG ▲네모트론 세이프티(Safety) 등 3종의 신규 모델을 발표했다.
'네모트론 스피치'는 실시간 자막 및 음성 AI 애플리케이션을 위해 초저지연 음성 인식을 제공하며, 기존 음성 모델 대비 10배 빠른 처리 속도를 자랑한다. 이는 로봇이 인간과 실시간으로 소통하는 데 필수적인 요소다.
'네모트론 RAG'는 임베딩(Embedding) 모델과 리랭크(Rerank) 모델로 구성되어 있으며, 이미지를 이해하여 데이터 에이전트에게 더욱 풍부한 멀티모달 인사이트를 제공한다. 특히 대규모 다국어 텍스트 임베딩 벤치마크(MMTab)에서 우수한 성능을 입증했으며, 적은 컴퓨팅 파워 메모리로도 강력한 다국어 처리 능력을 보여준다. 이는 지연 시간 없이 대량의 요청을 처리해야 하는 시스템에 최적화된 것이다.
마지막으로 '네모트론 세이프티'는 AI 에이전트가 실수로 개인 식별 정보를 유출하지 않도록 민감한 데이터를 감지하는 안전장치 역할을 한다.
KBR Insight: 물리적 AI의 '아이폰 모멘트'가 오는가
2026년 엔비디아의 행보는 명확하다. PC와 스마트폰 안에 갇혀 있던 AI를 끄집어내어, 걷고 움직이고 물건을 집는 '물리적 실체'에 지능을 부여하는 것이다. 이는 과거 모바일 혁명이 일어났던 시점과 유사하다. 엔비디아는 하드웨어(GPU/Jetson), 플랫폼(Isaac/Omniverse), 그리고 이제는 두뇌(Cosmos/Nemotron)까지 '피지컬 AI'의 풀스택(Full-stack)을 장악하려 하고 있다. 국내 로봇 및 AI 기업들 또한 단순한 하드웨어 제조를 넘어, 이러한 고도화된 추론 모델을 어떻게 자사 제품에 최적화하여 탑재할 것인지에 대한 전략적 고민이 시급한 시점이다.
엔비디아는 CES 2026을 통해 AI가 더 이상 모니터 속의 텍스트 생성기가 아님을 선언했다.
코스모스 리즌 2와 네모트론의 진화는 로봇이 인간의 언어를 이해하고, 복잡한 물리적 환경에서 스스로 계획하며, 안전하게 임무를 수행하는 미래를 앞당기고 있다.
이제 AI 경쟁력은 누가 더 똑똑한 챗봇을 만드느냐가 아니라, 누가 더 유능한 '물리적 에이전트'를 현실 세계에 구현해내느냐에 달려 있다. 젠슨 황이 주창한 '피지컬 AI' 시대는 이미 시작되었다.
© 코리아비즈니스리뷰(Korea Business Review) All Rights Reserved.

![디지털을 넘어 물리적 세계로 확장된 AI.[이미지 = 코리아비즈니스리뷰 DB]](https://epzvqcvbpcduaglyoici.supabase.co/storage/v1/object/public/news-images/legacy-cgi/2026/01/07/1767776246_94801.jpg)