issue-briefing

구글, '제미나이 3' 전격 공개... AI 추론 성능 새 역사 쓰며 경쟁 구도 재편

구글이 최신 독점 프론티어 모델군인 '제미나이 3(Gemini 3)' 를 전격 공개하며 인공지능(AI) 경쟁 구도의 새로운 전환점을 맞았다. 2023년 제미나이 라인업 출시 이후 가장 포괄적인 이번 발표는 AI 모델의 추론 능력(Reasoning) 과 멀티모달(Multimodal) 성능에서 전례 없는 도약을 보여주었다.

박찬호 기자입력 2025년 11월 20일수정 2026년 7월 20일

구글의 최신 플래그십 모델 제미나이 3 가 선보인 '딥 싱크' 모드 작동 모습. [사진 = 코리아비즈니스리뷰 DB] 이 모드는 다단계 가설 생성과 정교한 추론 과정을 통해 복잡한 수학·과학 문제 및 추상적 규칙 유추(ARC-AGI-2) 성능을 비약적으로 끌어올려 에이전트 AI 시대의 핵심 동력으로 평가받는다.

구글이 최신 독점 프론티어 모델군인 '제미나이 3(Gemini 3)'를 전격 공개하며 인공지능(AI) 경쟁 구도의 새로운 전환점을 맞았다.

2023년 제미나이 라인업 출시 이후 가장 포괄적인 이번 발표는 AI 모델의 추론 능력(Reasoning)과 멀티모달(Multimodal) 성능에서 전례 없는 도약을 보여주었다.

핵심 모델인 '제미나이 3 프로(Gemini 3 Pro)'는 공개 직후 다수의 독립 벤치마크에서 글로벌 선두를 차지했으며, 특히 고차원적 사고를 위한 '제미나이 3 딥 싱크(Gemini 3 Deep Think)' 모드는 복잡한 수학, 과학 및 추상적 문제 해결 능력에서 AI 지능의 한계를 넘어섰다는 평가를 받는다.

구글은 자체 개발한 TPU 하드웨어와 데이터 센터 인프라, 그리고 소비자 제품에 대한 통제력을 바탕으로, 제미나이 3를 검색(Search)부터 개발자 플랫폼(Vertex AI, AI Studio), 그리고 새로운 에이전트 중심 개발 환경인 '안티그래비티(Antigravity)'까지 광범위하게 적용하며 풀스택(Full-Stack) AI 역량을 과시하고 있다.

AI 성능 지표 리더보드 석권... '지능의 새로운 시대' 선언

제미나이 3 프로는 출시와 동시에 AI 성능 지표에서 전례 없는 약진을 기록했다.

독립 벤치마킹 및 분석 기관인 아티피셜 애널리시스(Artificial Analysis)는 제미나이 3 프로에 73점을 부여하며, 종전 모델인 제미나이 2.5 프로가 기록했던 60점에서 비약적인 상승을 이끌어냈고, 구글을 글로벌 AI 리더의 위치에 올려놓았다. 아티피셜 애널리시스는 "구글이 처음으로 가장 지능적인 모델을 보유하게 되었다"고 평가했다.

또 다른 독립 리더보드 사이트인 LMArena에서도 제미나이 3 프로는 텍스트 추론, 비전, 코딩, 웹 개발을 포함한 모든 주요 평가 트랙에서 세계 1위를 차지하며 경쟁 모델들을 압도했다. 특히 텍스트 추론 성능을 나타내는 LMArena Elo 점수에서 제미나이 3 프로는 1501점을 기록하며, 거대 언어 모델(LLM) 사상 최초로 1500점 고지를 돌파하는 기념비적인 성과를 달성했다.

이는 불과 몇 시간 전 공개된 xAI의 그록-4.1-싱킹(Grok-4.1-thinking) 모델(1484점)과 기존의 제미나이 2.5 프로(1451점)는 물론, 클로드 4.5급 시스템까지 모두 뛰어넘은 수치이다. 또한, LMArena는 제미나이 2.5 프로 대비 비전 성능은 70점, 웹 개발 작업에서는 280점 상승했다는 결과를 발표하며, 이전 제미나이 모델이 상대적으로 약세를 보였던 영역에서 구조적인 성능 향상을 이뤘음을 입증했다.

수학·과학·추상 추론: 딥 싱크 모드의 충격적 성과

제미나이 3의 성능 향상은 특히 고난도 추론 영역에서 가장 두드러지게 나타났다. 장시간에 걸친 추론과 다중 가설 검증에 특화된 '제미나이 3 딥 싱크' 모드는 AI 연구계에 큰 파장을 일으켰다.

수학 및 과학 추론 벤치마크인 AIME 2025에서 제미나이 3 프로는 도구 없이 95%를 기록했으며, 코드 실행을 활용했을 때는 100%의 정확도를 달성하며 전작(88%) 대비 크게 개선되었다. 고난도 전문 지식 질의응답 벤치마크인 GPQA Diamond에서도 91.9%에 도달하며 86.4%였던 전작을 넘어섰다.

가장 충격적인 결과는 AI 연구원 프랑수아 숄레(François Chollet)가 개발한 ARC-AGI-2 벤치마크에서 나왔다. ARC-AGI-2는 모델이 훈련 데이터에 의존하지 않고, 제시된 몇 가지 입출력 예시만으로 추상적인 규칙을 유추하고 새로운 문제에 적용하는 일반화(Generalization) 능력을 측정한다.

이 어려운 벤치마크에서 제미나이 3 프로는 31.1%를 기록했으며, 딥 싱크 버전은 무려 45.1%라는 경이로운 수치를 달성했다. 이는 이전 프론티어 모델들이 일반적으로 10%대 중반에서 20%대 초반의 점수를 기록했던 것과 비교하면 비약적인 발전이며, 딥 싱크 아키텍처가 다단계 가설 생성, 검증, 수정 등 복잡한 사고 과정을 매우 효과적으로 수행할 수 있음을 입증하는 것이다.

에이전트 AI로의 대전환: '안티그래비티'와 다단계 자동화

이번 제미나이 3의 출시는 단순한 대화형 AI를 넘어, 사용자의 고수준 지침을 해석하여 여러 단계의 작업을 계획하고 실행하는 에이전트 AI(Agentic AI) 시대로의 전환을 의미한다.

에이전트 컴퓨터 사용 능력의 핵심 벤치마크인 ScreenSpot-Pro 점수가 제미나이 2.5 프로의 11.4%에서 3 프로는 72.7%로 급상승했다. 이는 제미나이 3의 향상된 공간 추론 능력이 화면 요소를 해석하고 반응하는 컴퓨터 사용 자동화를 지원함을 시사한다.

에이전트 코딩 능력의 지표인 SWE-Bench Verified 점수 역시 59.6%에서 76.2%로 크게 올랐다. 또한, 장기 의사 결정 과정에서의 안정성과 일관성을 측정하는 Vending-Bench 2 점수는 제미나이 2.5 프로의 $573.64에서 3 프로는 $5,478.16로 대폭 개선되어, 장기 실행 작업에서의 신뢰성이 강화되었음을 보여준다.

구글은 제미나이 3의 이러한 에이전트 역량을 기반으로 '제미나이 에이전트(Gemini Agent)'를 출시했다.

이 시스템은 지메일, 캘린더 등 구글 생태계 전반에서 다단계 작업을 조정하며, 복잡한 워크플로우를 계획하고 실행하지만, 민감한 작업을 수행하기 전에는 반드시 사용자 승인을 요구하는 안전장치를 갖췄다.

더불어 개발자들은 새로운 에이전트 중심 개발 환경인 '안티그래비티(Antigravity)' 내에서 제미나이 3와 협업하며 코드 생성, UI 프로토타이핑, 디버깅 등의 풀스택(Full-Stack) 작업을 통합적으로 수행할 수 있게 되었다.

제너레이티브 인터페이스와 멀티모달의 도약

제미나이 3는 단순히 텍스트를 생성하는 수준을 넘어, 시각적이고 인터랙티브한 결과물을 생성하는 제너레이티브 인터페이스(Generative Interface) 기능을 도입했다.

구글 검색 AI 모드(Search AI Mode)에서 Visual Layout은 질의에 맞춰 이미지, 다이어그램, 모듈이 포함된 구조화된 페이지를 생성하며, Dynamic View는 계산기, 시뮬레이션, 인터랙티브 그래프 등 기능적 사용자 인터페이스(UI) 구성 요소를 생성한다. 이러한 기능은 구글 검색 AI 모드를 통해 전 세계적으로 제공되어, 사용자가 정보를 정적인 텍스트가 아닌 시각적이고 상호작용적인 형식으로 접할 수 있게 한다.

멀티모달 성능 역시 전반적으로 향상되었다. MMMU-Pro에서 68%에서 81%로, Video-MMMU에서 83.6%에서 87.6%로 점수가 상승했다. 특히, 높은 프레임 속도의 비디오 이해 능력 개선은 빠르게 움직이는 장면을 분석하거나 몇 시간에 걸친 영상 속에서 내러티브를 합성하는 장기 컨텍스트 비디오 리콜을 가능하게 하여, 엔터프라이즈 환경 및 자율 시스템 분야에서의 활용도를 높일 것으로 기대된다.

인사이트 박스: 한국 기업의 AI 도입 전략, 추론 능력 강화가 핵심

한국 기업 및 개발자는 이번 제미나이 3 출시를 단순한 성능 경쟁으로만 봐서는 안 된다. 핵심은 '추론(Reasoning)'과 '에이전트화(Agentization)'다. 기존 AI가 '정보 검색 도우미' 역할에 머물렀다면, 제미나이 3는 '복잡한 문제를 스스로 해결하는 작업자'로 진화했다.

국내 기업들은 단순한 챗봇 구현을 넘어, 복잡한 비즈니스 프로세스(예: 재무 예측, 공급망 모델링, 고객 지원 자동화)에 AI 에이전트를 통합하는 '롱-호라이즌 플래닝(Long-Horizon Planning)' 전략에 집중해야 한다.

구체적으로는 제미나이 3 프로가 보여준 멀티모달 문서 이해 능력(법률 검토, 복잡한 양식 처리)과 에이전트 코딩 툴을 활용하여 엔지니어링 사이클을 단축하고, 공간 추론 능력을 활용한 로보틱스, 자율 시스템 분야에 대한 선제적인 투자를 고려하는 것이 실질적인 경쟁력 강화 방안이 될 것이다.

API 가격 경쟁력과 기업 도입 전망

구글은 제미나이 3 프로의 API 가격을 공개하며, 이전 모델 대비 다소 높은 프리미엄 가격 정책을 예고했다.

프리뷰 기준으로, 20만 토큰 이하 프롬프트의 경우 입력 토큰당 $2.00 / 1M 토큰, 출력 토큰당 $12.00 / 1M 토큰으로 책정되어, 총 비용은 백만 토큰당 $14.00에 달한다. 20만 토큰을 초과하는 장문 프롬프트의 경우 입력 $4.00 / 1M 토큰, 출력 $18.00 / 1M 토큰으로 가격이 더욱 상승한다.

이러한 가격은 제미나이 2.5 프로($1.25 / $10.00, 총 $11.25) 대비 상당한 인상이며, 경쟁 모델인 GPT-5.1의 총 비용($11.25)보다는 높고, 클로드 오퍼스 4.1의 총 비용($90.00)보다는 현저히 낮게 책정되어 미드-하이 레인지에 위치한다.

가격 경쟁 측면에서 저렴한 중국계 모델이나 오픈소스 모델과의 경쟁이 불가피하지만, 압도적인 성능 향상, 특히 추론 능력과 에이전트 기능의 신뢰성 덕분에 고부가가치 엔터프라이즈(Enterprise) 시장에서는 도입이 가속화될 것으로 예상된다.

구글은 제미나이 3 딥 싱크, 확장된 컨텍스트 윈도우, 제너레이티브 인터페이스 및 도구 호출에 대한 구체적인 가격은 아직 발표하지 않았으며, 대규모 배포를 계획하는 기업들은 최종 운영 비용 산출을 위해 향후 가격 공개를 주시하고 있다.

제미나이 3는 구글의 하드웨어(TPU), 데이터 센터 인프라, 소비자 제품을 통합하는 풀스택(Full-Stack) AI 전략의 정점이며, AI가 단순한 도우미에서 복잡한 작업을 능동적으로 수행하는 운영 AI(Operational AI)로 진화했음을 증명한다.

복잡한 추론, 멀티모달 이해, 그리고 에이전트 코딩 능력의 비약적 발전은 소비자 및 엔터프라이즈 영역 전반에 걸쳐 혁신적인 변화를 예고하며, 구글이 공격적으로 AI 분야에서의 입지를 확장하는 중요한 이정표가 될 전망이다.

KBR Access

KBR News 월 열람 가능 횟수를 모두 사용했습니다

비회원은 KBR News 콘텐츠를 제한된 범위에서 열람할 수 있습니다. 계속 읽으려면 Free가입 또는 멤버십 안내를 확인해 주세요.

이번 달 열람 현황: 3 / 3건 사용

Free가입 멤버십 안내 1건 열람권 3,900원