기록

xAI Grok 4 (그록4) 라이브 스트리밍 리뷰

July 10, 2025

by 에루샤

오늘 7월 10일 오전 12시에 트위터 라이브에서 xAI에서 개발한 그록 3 이후의 차기모델인 그록4 발표가 있었다.

해당 라이브는 30분정도로 그록4의 업그레이드된 부분과 벤치마크, 특출난 기능에 대해 발표하며 간단한 테스트 정도가 이루어지는 내용으로 진행되었다.

발표는 일론 머스크와 더불어 성능, 벤치, API, 음성 등 각 분야의 발표 대표자와 같이 토론형식의 발표로 진행되었다.

본 리뷰에서는 관련된 내용에 대해 간략하게 짚고 넘어가보도록 하자.

1. AI 추론 모델과 그록의 발전사항

그록 2, 3 거기에 이은 이번 4버전의 성능을 비교한 도표이다.

지난 그록3에서도 2에 비해서 큰 성능점프가 있었지만 이번 그록4 발표또한 어마어마한 성능 점프가 발생했다.

아마 이런 부분때문에 3.5 발표를 취소하고 좀 더 성능 향상을 한 후 그록 4로 발표한게 아닌가 싶다.

2. 인류 최후의 문제와 추론 테스트

추론모델이 성능테스트를 위한 벤치마크로 Human Last Exam 이라 불리우는 테스트가 있다.

수학문제와 더불어 물리, 생명, 화학, 공학등 여러가지 문제가 객관식, 주관식이 섞여있어 사람조차도 아직 100% 전체 답을 내지못하는 벤치마크 테스트로 요즘 추론모델이라면 해당 HLE 점수를 바탕으로 그 능력을 평가하곤한다.

근데 이 HLE 벤치마크에 대해 그록은 기존의 모델과 아주 큰 성능차이를 보였다.

흔히 예견하기로는 25년말쯤이나 되어서야 정확도 50%에 근접할것이라는 예측을 내놓았지만 하반기가 시작되는 7월에 그록4가 벌써 정확도 40%대에 진입했기 때문이다.

이런 추론연산에 더 특화된 모델로 그록4 헤비가 있다고 하는데, 해당기능은 아직 오픈되지는 않았다.

다만 그록4만봐도 기존의 모델에 비해서 훌륭한 점수를 가지고 있으니 확실히 혁신이긴하다.

이런 문제 추론에 대한 해답에 대해서도 라이브 방송중에 실제로 블랙홀의 쌍소멸에 대한 질의를 실행했는데, 각종 논문자료를 딥서치해서 보이는바와같이 시뮬레이션과 함께 그 과정과 영향에 대해 상세히 설명하는 모습을 보여주었다.

정말 서치영역만큼은 엄청뛰어나졌다고 판단되며 웹에 해당자료가없으면 X(트위터)의 자료도 적극적으로 사용한다고 한다.

3. 각종 벤치마크 결과

뭐 앞선 HLE 결과도 그렇지만 과학(GPQA), 수학(AIME) 벤치마크는 여전히 그록답게 훌륭한 점수를 보여준다.

특히나 눈에 띄는것은 라이브 코딩(LCB) 벤치마크에 대해서도 꽤나 높은 점수를 보인다는 점이다.

그록이 LLM으로써 서치, 음성등의 역량은 충분히 보여왔으니 바이브코딩이나 코딩문제 해결을 위한 성능은 클로드나 다른 모델에비해서 많이 밀렸는데, 이번 그록4에서는 해당 부분에 대한 보완을 많이 해서 나왔다고 한다.

현재 유명한 AI 툴인 커서에도 그록4를 API로 연동해서 사용할 수 있다고하니 많은 기대가 된다.

4. 슈퍼 그록 헤비

다만 위에 벤치마크 점수에서 고득점을 받은 그록4 헤비는 기존의 슈퍼그록 요금제로는 사용이 불가능하고 별도의 슈퍼그록헤비 요금제를 월 300달러(약 45만원)을 주고 사용해야 한다고한다.

금액적인 부분이 확실히 부담되는 부분이긴하다.

다만 후술할 부분이 이어지면서 그록 4의 요금제에 대한 매력적인 이야기가 더 이어진다.

5. 음성모델 혁신

이번 그록 4 버전에서도 음성쪽이 엄청 강화가 되었다.

기존의 그록 3 버전에 이어서 총 5개의 보이스 모델이 탑재되었고 기존 모델보다 2배 빠른 반응성을 보여 더욱 실제 사람과 대화하는 듯한 느낌을 들게 해준다.

특히나 라이브에서 보여준 속삭이는듯이 말하는 부분이라던지 오페라 가수가 콜라 광고를 하는듯한 시연은 정말 대단하다고 생각이 들었다.

TTS의 수준은 벗어난, 인간과 대화하는 느낌이 강하게 들정도의 음성 모델이라고 생각한다.

6. ARC-AGI, 가성비 최고의 모델 그록4

더군다나 그록4는 범용 인공지능 수준의 추론 능력을 평가하는 모델에서 1번의 태스크당 1달러의 비용이 필요로되며 가성비(스코어)는 기존 모델보다 어마어마하게 좋은 수준의 결과를 보여주었다.

위의 도표에서도 보듯이 혼자만 저 위에서 미친듯한 효율성을 보이고 있으니 말이다.

이런 효율성이 높아진다는것은 좀 더 인간이 문제를 직관적으로 보면서 풀이가 가능하듯 그록 4도 그 수준까지의 추론과 통찰능력을 가지고 있다고 판단할 수 있을것이다.

실제로 자판기 벤치마크인 벤딩 벤치에서는 자판기 판매전략 문제를 주었을 때 어느정도의 수익을 내는지에 대한 지표평가가 이루어지는데 기존 사람이 파는것보다 Claude 4 버전이 2배이상의 효율을 내며 그 성능을 과시했지만, 그록 4는 그런 기존 결과의 2배가 넘는 결과를 내밀면서 사실상 현재 서비스중인 모델중 가장 독보적인 혁신을 보여주고 있다고 판단할 수 있다.

7. 게임 구현, 바이브 코딩

기존 그록3 발표때처럼 라이브로 게임 구현 테스트는 하지않았지만 내부적인 테스트를 통해 화면처럼 3D FPS 게임까지 그록으로 코드를 생성해 구현할 수 있었다고 한다.

실제로 간단한 웹페이지 게임들, 피카츄 배구, 격투게임 등은 요청하는 구현사항에 맞춰서 대략 1~2분내에 웹에서 실행가능한 HTML과 Javascript 코드로 제공해주며 관련 이미지 에셋을 지정하면 웹서치나 X(트위터) 서치를 통해서 실제 적용을 해주기까지 한다.

조코딩 JoCoding 그록4 라이브 방송중 실제로 구현해본 피카츄 배구게임

현재 이런 그록4의 웹, API 요청은 라이브가 끝난직후부터 바로 사용해볼 수 있다고 한다.

8. 그록4 로드맵과 평가

현재 그록4가 오픈되었고 위의 로드맵처럼 순차적으로 코딩전용 모델, 멀티모달 에이젼트, 비디오 생성모델등이 순차적으로 업그레이드 될 예정이라고 한다.

아마 아직 부족한 코드모델은 점차적으로 보완해나갈 작정으로 보인다.

기대되는건 코드도 코드지만 10월즈음에 선보일 영상 생성 모델이 어떨지가 정말 기대된다.

현재 음성모델은 뭐하나 흠잡을것 없는 최고의 결과를 내놓는데, 그록3의 특징(무검열)과 영상 생성이 합쳐진다면 과연 사람들의 무궁무진한 상상력이 어떤결과를 낳을지 기대가 안될수가 없다.

당장 다른 영상생성 모델가지고 이러고 노는 사람들인데, 더하면 더했지 덜할일은 없을꺼 같기때문이다. ㅋㅋㅋㅋ

다만 위의 벤치결과와 다르게 바로 테스트를 해본 사람들 입장에서는 아직 아리까리한게 많은것같다.

그록3때도 그랬지만 당장 한국어로 테스트하는것만봐도 아직 어색하게 문장을 구성하거나 답답한 부분이 없잖아 있으며 딥서치도 관련된 2-30개의 문서를 찾아 잘 비교해주지만 다른 딥서치되는 추론모델에 비하면 답변결과가 아쉽다는 테스트 결과도 나왔기 때문이다.

이렇게보면 한국어만 문제지 영어는 괜찮지 않나 싶어도...

스토리 창작처럼 문단 전체의 흐름이나 추론에 대해서는 기존 모델에 비해서 아직 아쉬움이 많다고 한다.

코딩쪽도 아직이고 말이다.

OCR, 그러니까 이미지 텍스트 인식부분도 그록3에비해서 그렇게까지 성능이 대단하다할정도로 좋아지지는 않았다는 테스트 결과도 있으니 말이다.

다만 이런 부분은 향후 로드맵에서 멀티모달 에이전트 개선등이 있으니 당장의 그록 4만 보고 평가할 내용은 아니라고 생각한다.

뭐 결론적으로 질문을 애매모호하게하면 썩좋지않는 답변을 얻는다는것이고, 질문을 정확하게 영어로 주면 잘 내놓는다라는 느낌인데, AI를 쓰기위해서 사용자가 학습하고 각잡고 써야한다면 대부분의 사람한테 좋은 평가는 받기 힘들지 않나 싶다.

다만 질문이 정형화되고 정확한 벤치마크에 대해서는 엄청난 성능을 보였던걸 생각한걸보면 확실히 모델 개선이 혁신적으로 이루어졌다는건 부정할 수 없는 사실이다.

결국 그록4는 아직까지 아쉬운 부분이 있긴 하다만 AI 모델로써의 성능, 확장성, 추론등의 성능 결합이 AGI, 범용인공지능의 단계로 한걸음 더 나아간 결과라고 생각한다.

"특이점"이라 불리울 정도까진 아직 많이 부족하지만 지난 그록 3의 발표가 2월에 진행되었고 이후 반년내에 이정도의 발전속도를 보여줬다는건 정말 앞으로의 xAI의 성장을 기대할수밖에 없는 결과라고 볼수 있을 것 같다.

#AI