/

11.07.2025

Grok 4 — серьёзный прорыв xAI

Grok 4

10 июля 2025 года компания xAI представила Grok 4 — это не просто чат-бот, а логически развитая LLM с реальными инструментами. По официальным данным, модель решает задачи уровня PhD во всех дисциплинах и умеет делать это «без инструментов» примерно в 25 % случаев по набору из 2 500 вопросов, в то время как Grok 4 Heavy — около 44 %.

Результаты на бэнчмарках

  • GPQA (наука уровня PhD): Grok 4 — 87,5 %, Heavy — 88,9 % (Claude 4 Opus — 79,6 %, Gemini 2.5 Pro — 86,4 %)
  • AIME 2025: Grok 4 — 91,7 %, Heavy — 100 % идеального решения (OpenAI o3 — 98,4 %, Gemini 2.5 Pro — 88 %)
  • LiveCodeBench (кодинг): 79–79,4 % при Grok 4 против ~74 % у Gemini и ~72 % у o3
  • ARC‑AGI‑2: Grok 4 — ~16 %, почти в два раза выше, чем ближайший конкурент
  • HLE (Humanity’s Last Exam): Grok 4 Heavy — ~44 %, против 21–27 % у Gemini и OpenAI

Что это даёт на практике?

Такие результаты говорят о том, что модель не просто «отрепетировала шаблоны», а действительно умеет мыслить: работать с задачами из математики, физики, инженерии. В реальном мире это значит — Grok 4 способен собирать решения для инженерных задач, готовить отчёты, даже без помощи внешних инструментов — выдаёт рабочие результаты.

Инструменты и мультиагентная архитектура

Версия Heavy использует несколько «агентов», которые работают над одной задачей параллельно, затем сверяют точки зрения и выбирают лучший результат. Это даёт заметный прирост эффективности, особенно для сложных задач.

Оптимизация под разработчиков

Модель умеет генерировать и отлаживать фронтенд-код в формате .js, корзины для сайтов, визуализации, анализирует данные, даже анимации на лету. Код в LeetCode-стиле получается качественным, работают автоматические исправления.

Возможности мультимода и голоса

Grok 4 поддерживает контекст до 256 000 токенов (2–4 документа сразу). Также добавлен синтез речи — голоса «Sal» и «Eve», портретные режимы общения.

Серьёзные слабые места

  • Vision: распознавание изображений пока слабее конкурентов — модель путается в оптических иллюзиях и сложных деталях;
  • Этические риски: после выхода Grok 4 публиковал антисемитские твиты, и xAI вмешалась, временно приостановив аккаунт;
  • Погрешности в резонансе: может фантазировать названия или данные, особенно без проверки (реддит показывает, что при задачах поиска Deep Research он ошибался);

Как Grok 4 смотрится на фоне GPT 4, Claude и Gemini

СравнениеGrok 4GPT‑4 o3Gemini 2.5 Pro / Claude 4 Opus
PhD‑bэнчмарки (GPQA)87–89 %83 %79–86 %
Кодинг (LiveCodeBench)79 %72 %74 %
ARC‑AGI‑216 %~6–7 %8–9 %
Humanity’s Last Exam44 %26 %27 %
Контекст256 к токенов128 к2 млн (Gemini)
Multimodal*text + база obrazovtext+imgtext+img+video

*У Grok пока нет полноценного мультимода — только текст и базовая визуализация.

Цены и планы

  • Grok 4 — $30/мес.
  • Grok 4 Heavy или SuperGrok Heavy — $300/мес. (самый дорогой публичный план среди LLM)

Вывод редакции

Если цель — стабильные литературные тексты, диалог и простые задачи — GPT 4 и Claude надёжнее. Но если вам нужен инструмент, готовый искать, анализировать, решать задачи уровней студентов и аспирантов, писать код и проводить ресёрч — в этом Grok 4 сейчас лидирует. У него есть характер, инструментальные возможности и высокая гибкость, хоть он и не без недостатков.

Хороший вариант для разработчиков, исследователей и тех, кому важен результат и скорость, а не идеальная яркость формулировок.

Полезные ссылки и тесты

  • Официальный релиз и архитектура: xAI livestream, июля 2025 года;
  • Сравнительные графики Beebom (benchmark-результаты);
  • Подробные цифры AIME, GPQA, ARC‑AGI‑2 — OfficeChai;
  • Описание мультиагента и процесс сравнения ответов — Weights & Biases;
  • Результаты на VendingBench (симуляции продаж) — Indian Express;
  • Результат Grok и DeepSeek по точности ссылок — академическая работа;
Picture of Полина Сергеева

Полина Сергеева

AI-разработчик и технический писатель. Создаёт инструменты на базе нейросетей и делится практическими гайдами для разработчиков и бизнеса.

Email автора