기록

xAI Grok-3: 일론 머스크의 신규 AI 모델 그록3 알아보기

February 19, 2025

by 에루샤

서론

2025년 2월 17일, 일론 머스크의 AI 연구 기업 xAI가 최신 AI 모델 Grok-3를 공식 출시했다.

이전 버전인 Grok-2보다 월등히 향상된 연산 능력과 추론 성능을 갖춘 Grok-3는 출시와 동시에 AI 시장에서 큰 반향을 일으키고 있다고 한다.

요즘 GPT-4.5니 딥시크니, AI 시장의 큰 변화가 지속적으로 다가오는 입장에서 정보를 어느 정도 팔로업할 필요가 있다고 느껴서 본 글에서는 Grok-3의 주요 특징, 성능 벤치마크를 알아보고 그리고 향후 전망을 내 나름대로 생각해서 글을 정리해보려 한다.

AI 관련된 부분에 대해서는 어느 정도 지식만 가지고 있는 사람으로써의 관점으로 봐주시면 되겠다.

Grok-3의 주요 특징

Grok-3는 기존 Grok-2의 성능을 크게 개선한 AI로, 특히 추론 분야를 더 강화했다고 한다.

별도로 딥서치 기능도 지원한다고 하는데, 테스트해 본 사람들 입장에서는 그렇게까지 드라마틱하지 않다는 평가가 많다.

대략적으로 Grok-3의 특징을 정리하면 아래와 같다.

압도적인 연산 능력

Grok-3는 Grok-2 대비 10배 이상의 연산 능력을 갖추었으며, 엔비디아 H100 GPU 20만 개를 활용한 훈련을 진행했다. 이는 기존 AI 모델 대비 가장 큰 규모의 훈련 환경을 제공한다. 대규모 연산 리소스를 기반으로, 보다 정밀한 모델 최적화가 가능해졌다는 점이 핵심이다.

최고 수준의 AI 모델과 경쟁

Grok-3는 Gemini 2.0 Pro, DeepSeek V3, Claude 3.5 Sonnet, GPT-4o 등의 최신 AI 모델과 비교해도 우수한 성능을 보여준다. 특히 특정 분야에서는 OpenAI의 GPT 모델보다 높은 성능을 보인다는 평가도 있다.

강화된 추론(Reasoning) 모델

AIME 2025 벤치마크 기준에서 Grok-3의 Reasoning Beta 모델이 **최고 점수(93점)**를 기록했다. 이는 Grok-3가 논리적 문제 해결과 수학적 사고 능력에서 두각을 나타낸다는 것을 의미한다.

DeepSearch 기능

실시간 검색을 통해 인터넷과 소셜 미디어 데이터를 분석하고 요약해주는 기능을 제공한다. 다만, 현재 유저들 피드백에 따르면 완벽하지는 않은 수준.

선 넘는 모드(Unhinged Mode)

유머와 풍자를 포함한 자유로운 대화 스타일을 지원하는 기능이 추가되었다. 기존 AI 모델들이 피했던 민감한 주제에 대해서도 보다 자유롭게 답변하는 것이 특징이다.

API 공개 및 음성 모드 추가

Grok-3 API는 몇 주 내 공개될 예정이며, 네이티브 음성 모드를 추가하여 감정을 이해하고 자연스러운 대화를 지원할 계획이다. 단순한 TTS 수준이 아니라, 문맥 기반 감정 표현까지 가능하도록 설계되었다고 한다.

뭐 이런 AI류 발표의 대부분이 이런 느낌이다보니 그냥 동급세대 모델들보다 뛰어나다라는 느낌으로 받아들이면 되는것 같다.

성능 비교 및 벤치마크

이런 류의 성능 비교는 보통 수치로 말하기 마련인데, 여기서는 발표에서 제공한 수치를 기반으로 정리하고자 한다.

Reasoning + Test-Time Compute (AIME 2025 기준)

최근 공개된 AIME 2025 성능 비교에서 Grok-3 Reasoning Beta는 93점을 기록하며 최고 성능을 보였다.

AIME는 수학 능력 테스트로, 문제 해결 과정에서 추론 능력과 풀이 실행 시간을 기반으로 점수화하는 평가 기준이다. 시장에 나와 있는 최신 추론 모델인 o3-mini보다 더 높은 점수를 받았다고 한다.

실제로 라이브 데모에서는 “테트리스”와 “뿌요뿌요”의 특징을 결합한 게임 코드를 요청했고, 10분간의 추론 후 실행 가능한 결과물을 생성했다. 그리고 실제 게임이 정상적으로 실행되는 장면을 시연해 보였다.

당장 나보고 테트리스 정도만 만들라해도 아득할거같은데, 테트리스 룰과 뿌요뿌요룰이 합쳐진 게임을 만들어버리다니 아무리 미리 준비했다고쳐도 진짜 대단하다고 생각이 되는 부분이었다.

이걸 보고 있자니, 나도 Grok-3의 코딩 추론 능력이 상당히 강력하다고 생각이 들었다.

시각적으로도 꽤나 강렬한 데모였고...

일반 벤치마크 (수학, 과학, 코딩)

Grok-3의 수학, 과학, 코딩 분야 벤치마크에서도 최상위권 성능을 기록했다고 한다.

테스트 유저들의 피드백을 보면, 코딩 관련해서는 라이브 데모에서 보았듯이 강력한 성능을 발휘하지만, 딥서치를 활용한 AI 생성 작업에서는 다소 아쉬운 부분이 있다고 한다.

즉, 모든 분야에서 완벽한 모델이라기보다는, 특정 분야에서 강점을 가지는 AI라고 보면 될 듯하다.

뭐 이런 지표야 당연히 신기술 발표하는곳에서는 기존꺼보다 좋은걸 피력해야하니까 나는 좀 걸러듣는 타입이긴하다.

AI 챗봇 랭킹 (Arena Score)

Grok-3의 Early 모델은 챗봇 랭킹에서 1,402점을 기록하며 1위를 차지했다.

특히 "Unhinged Mode"라는 차별점을 내세운 만큼, 챗봇 분야에서도 두각을 보인다는 평가가 있었지만...

디시인사이드 "그록3 성능 한짤요약" 발췌

디시인사이드 "그록3 성능 한짤 요약"을 보면… 실제 성능이 기대만큼은 아닌 듯하다.

아마도 딥서치 능력이 부족해서 환각(잘못된 정보 생성)이 종종 발생하는 게 아닐까 싶다.

자기들 발표에는 SNS나 실시간 컨텐츠등의 딥서치를 이용해서 의미있는 추론과 퀄리티 있는 답변을 내놓는다 하던데...

Grok-3 구독 모델 및 제공 방식

그리고 출시 하루 만에 프리미엄 서비스 가격이 2배로 올랐다...

Grok-3에 대해 알아볼때만해도 프리미엄+가 월 25,000원이었는데, 이 글을 쓰는 오늘(19일) 다시 확인해보니 월 50,000원 수준까지 올랐다.

뭐 얘내 정책이고 요즘 챗봇형 AI가 다 유료 구독제라고는 하지만 솔직히 부담스럽긴 하다.

여기 상단에 Grok 3 beta가 보인다고 한다.

프리미엄+ 요금제면 베타 이용가능

현재 Grok-3을 사용하려면 X(구 트위터)에서 프리미엄+ 요금제를 구독해야만 가능하다고 한다. 향후 "SuperGrok"이라는 전용 요금제가 추가될 예정이며, 전용 사이트에서 독립적으로 사용할 수 있는 모델이 될 가능성이 높다.

Grok

Grok is a free AI assistant designed by xAI to maximize truth and objectivity. Grok offers real-time search, image generation, trend analysis, and more.

https://grok.com

추후 API 공개 후에는 기업 및 개발자들도 Grok-3를 활용할 수 있다고하는데...

유료 요금제라 솔직히 부담스럽게 느껴지기는 한다.

결론

Grok-3는 압도적인 연산 능력과 최신 AI 기술을 바탕으로 AI 시장에서 강력한 경쟁력을 확보한것으로 보인다.

특히, 챗봇 분야와 추론 성능에서 OpenAI, Google 등 기존 선두 기업을 위협할 수준으로 성장했다.

챗봇 분야는 OpenAI가 워낙 꽉 쥐고 있는 영역인데 트위터와 결합한 그록의 챗봇 접근환경은 ChatGPT 못지않게 꽤나 강력한 시장이 될것으로 보인다.

향후 API 공개 및 음성 모드 추가 등 지속적인 기능 향상이 이루어진다면, AI 업계에서 그록3의 영향력은 더욱 커질 것으로 기대되긴 하나 살인적인 요금제가 발목을 잡지는 않을지 걱정도 되기 마련이다.

개인적으로 충분히 AI 시장에 큰 파장을 일으킬만한 사건이긴한데, 오픈AI과 같이 클로즈드 소스 방식에 요금제 방식을 채택하다보니 일반적으로 접근하기 힘들지 않을까 생각이든다.

챗지피티도 프로 요금제내고 이러니저러니 욕먹고 있는 상황이니 말이다.

나조차도 그냥 그록3의 성능이나 기술력을 보고 대단하다고는 생각하지만서도 이미 챗지피티를 사용하는 입장에서 또 하나의 구독모델을 늘리는것도 부담이 된다 생각이 드니 참 이게 좋다라고 말하기에는 미묘하다고 생각이든다.

#AI