Grok 4 от xAI - обзор новой LLM Илона Маска: тесты, сравнение с GPT-4, Claude и Gemini, бенчмарки и цены

Нейрообзор

/

11.07.2025

Grok 4 — серьёзный прорыв xAI

10 июля 2025 года компания xAI представила Grok 4 — это не просто чат-бот, а логически развитая LLM с реальными инструментами. По официальным данным, модель решает задачи уровня PhD во всех дисциплинах и умеет делать это «без инструментов» примерно в 25 % случаев по набору из 2 500 вопросов, в то время как Grok 4 Heavy — около 44 %.

Результаты на бэнчмарках

GPQA (наука уровня PhD): Grok 4 — 87,5 %, Heavy — 88,9 % (Claude 4 Opus — 79,6 %, Gemini 2.5 Pro — 86,4 %)
AIME 2025: Grok 4 — 91,7 %, Heavy — 100 % идеального решения (OpenAI o3 — 98,4 %, Gemini 2.5 Pro — 88 %)
LiveCodeBench (кодинг): 79–79,4 % при Grok 4 против ~74 % у Gemini и ~72 % у o3
ARC‑AGI‑2: Grok 4 — ~16 %, почти в два раза выше, чем ближайший конкурент
HLE (Humanity’s Last Exam): Grok 4 Heavy — ~44 %, против 21–27 % у Gemini и OpenAI

Grok 4 Benchmarks
byu/DigitusDesigner inLocalLLaMA

Что это даёт на практике?

Такие результаты говорят о том, что модель не просто «отрепетировала шаблоны», а действительно умеет мыслить: работать с задачами из математики, физики, инженерии. В реальном мире это значит — Grok 4 способен собирать решения для инженерных задач, готовить отчёты, даже без помощи внешних инструментов — выдаёт рабочие результаты.

Инструменты и мультиагентная архитектура

Версия Heavy использует несколько «агентов», которые работают над одной задачей параллельно, затем сверяют точки зрения и выбирают лучший результат. Это даёт заметный прирост эффективности, особенно для сложных задач.

Оптимизация под разработчиков

Модель умеет генерировать и отлаживать фронтенд-код в формате .js, корзины для сайтов, визуализации, анализирует данные, даже анимации на лету. Код в LeetCode-стиле получается качественным, работают автоматические исправления.

Возможности мультимода и голоса

Grok 4 поддерживает контекст до 256 000 токенов (2–4 документа сразу). Также добавлен синтез речи — голоса «Sal» и «Eve», портретные режимы общения.

Серьёзные слабые места

Vision: распознавание изображений пока слабее конкурентов — модель путается в оптических иллюзиях и сложных деталях;
Этические риски: после выхода Grok 4 публиковал антисемитские твиты, и xAI вмешалась, временно приостановив аккаунт;
Погрешности в резонансе: может фантазировать названия или данные, особенно без проверки (реддит показывает, что при задачах поиска Deep Research он ошибался);

Как Grok 4 смотрится на фоне GPT 4, Claude и Gemini

Сравнение	Grok 4	GPT‑4 o3	Gemini 2.5 Pro / Claude 4 Opus
PhD‑bэнчмарки (GPQA)	87–89 %	83 %	79–86 %
Кодинг (LiveCodeBench)	79 %	72 %	74 %
ARC‑AGI‑2	16 %	~6–7 %	8–9 %
Humanity’s Last Exam	44 %	26 %	27 %
Контекст	256 к токенов	128 к	2 млн (Gemini)
Multimodal*	text + база obrazov	text+img	text+img+video

*У Grok пока нет полноценного мультимода — только текст и базовая визуализация.

Цены и планы

Grok 4 — $30/мес.
Grok 4 Heavy или SuperGrok Heavy — $300/мес. (самый дорогой публичный план среди LLM)

Вывод редакции

Если цель — стабильные литературные тексты, диалог и простые задачи — GPT 4 и Claude надёжнее. Но если вам нужен инструмент, готовый искать, анализировать, решать задачи уровней студентов и аспирантов, писать код и проводить ресёрч — в этом Grok 4 сейчас лидирует. У него есть характер, инструментальные возможности и высокая гибкость, хоть он и не без недостатков.

Хороший вариант для разработчиков, исследователей и тех, кому важен результат и скорость, а не идеальная яркость формулировок.

Полезные ссылки и тесты

Официальный релиз и архитектура: xAI livestream, июля 2025 года;
Сравнительные графики Beebom (benchmark-результаты);
Подробные цифры AIME, GPQA, ARC‑AGI‑2 — OfficeChai;
Описание мультиагента и процесс сравнения ответов — Weights & Biases;
Результаты на VendingBench (симуляции продаж) — Indian Express;
Результат Grok и DeepSeek по точности ссылок — академическая работа;

Полина Сергеева

AI-разработчик и технический писатель. Создаёт инструменты на базе нейросетей и делится практическими гайдами для разработчиков и бизнеса.

Email автора

From the same category

Можно ли доверять LLM-моделям вознаграждения? Master-RM выявляет и устраняет их слабые места

Инструменты, Нейрообзор21.07.2025

NVIDIA AI представляет OpenReasoning-Nemotron: набор языковых моделей с улучшенными способностями к логическому мышлению, основанный на DeepSeek R1 0528

Нейрообзор21.07.2025

Нейрообзор

/

11.07.2025

Grok 4 — серьёзный прорыв xAI

Результаты на бэнчмарках

Что это даёт на практике?

Инструменты и мультиагентная архитектура

Оптимизация под разработчиков

Возможности мультимода и голоса

Серьёзные слабые места

Как Grok 4 смотрится на фоне GPT 4, Claude и Gemini

Цены и планы

Вывод редакции

Полезные ссылки и тесты

Полина Сергеева

From the same category

Можно ли доверять LLM-моделям вознаграждения? Master-RM выявляет и устраняет их слабые места

NVIDIA AI представляет OpenReasoning-Nemotron: набор языковых моделей с улучшенными способностями к логическому мышлению, основанный на DeepSeek R1 0528

О компании

Наши решения

Контакты

Нейрообзор

/

11.07.2025

Grok 4 — серьёзный прорыв xAI

Результаты на бэнчмарках

Что это даёт на практике?

Инструменты и мультиагентная архитектура

Оптимизация под разработчиков

Возможности мультимода и голоса

Серьёзные слабые места

Как Grok 4 смотрится на фоне GPT 4, Claude и Gemini

Цены и планы

Вывод редакции

Полезные ссылки и тесты

Полина Сергеева

From the same category

Можно ли доверять LLM-моделям вознаграждения? Master-RM выявляет и устраняет их слабые места

NVIDIA AI представляет OpenReasoning-Nemotron: набор языковых моделей с улучшенными способностями к логическому мышлению, основанный на DeepSeek R1 0528

О компании

Наши решения

Контакты

Book a phone consultation!