/

21.07.2025

Allen Institute for AI-Ai2 представляет AutoDS: движок для открытых научных открытий

ai2-autods-blog-graphic-development
Allen Institute for Artificial Intelligence (AI2) представил AutoDS (Autonomous Discovery via Surprisal) — революционный прототип системы для автономных научных открытий без заранее заданных целей. В отличие от традиционных ИИ-ассистентов, которые полагаются на четкие запросы пользователя, AutoDS самостоятельно генерирует, проверяет и уточняет гипотезы, опираясь на концепцию «байесовского удивления» — статистической меры значимости открытия, даже если оно выходит за рамки ожиданий человека.

От целевых задач к свободному исследованию

Обычные системы автономных научных открытий (ASD) работают по заданным вопросам: формируют гипотезы в рамках конкретной проблемы и проверяют их экспериментально. AutoDS ломает эту парадигму. Вдохновляясь любознательностью ученых, он действует без заранее определенных целей — сам решает, какие вопросы задавать, какие гипотезы исследовать и как развивать предыдущие результаты. Свободный поиск требует не только анализа огромного пространства гипотез, но и приоритизации самых перспективных. Для этого AutoDS формализует понятие «удивления» — измеримого изменения уверенности в гипотезе до и после получения экспериментальных данных.

Измерение «удивления» с помощью больших языковых моделей

В основе AutoDS лежит новая методика оценки байесовского удивления. Для каждой гипотезы современные LLM (например, GPT-4o) выступают как вероятностные наблюдатели, оценивая свою «уверенность» (в виде вероятностей) до и после эксперимента. Эти распределения, построенные на основе множества оценок LLM, моделируются бета-распределениями. Чтобы выявить значимые открытия, AutoDS вычисляет дивергенцию Кульбака-Лейблера (KL) между апостериорным (после данных) и априорным (до данных) распределениями — формальную меру байесовского удивления. Важно, что только сдвиги, преодолевающие порог (например, от «вероятно истинно» к «вероятно ложно»), считаются подлинно удивительными, что фокусирует систему на важных открытиях.

Эффективный поиск гипотез с помощью MCTS

Для исследования огромного пространства гипотез AutoDS использует метод MCTS (Monte Carlo Tree Search) с прогрессивным расширением. Каждый узел дерева — гипотеза, а ветви — новые гипотезы, основанные на предыдущих результатах. Это позволяет балансировать между изучением новых направлений и углублением в перспективные.
В отличие от жадного поиска или beam search, которые могут упускать важные варианты, MCTS сохраняет высокую эффективность при ограниченных вычислительных ресурсах. На 21 наборе данных из биологии, экономики и поведенческих наук AutoDS обнаружил на 5–29% больше удивительных гипотез, чем базовые методы.

Модульная архитектура с несколькими LLM-агентами

AutoDS координирует работу специализированных LLM-агентов, каждый из которых отвечает за свой этап научного процесса:
  • Генерация гипотез
  • Планирование экспериментов
  • Программирование и выполнение
  • Анализ результатов и доработка
Для устранения дубликатов используется иерархическая кластеризация: текстовые эмбеддинги от LLM и проверка семантической эквивалентности гарантируют, что итоговые открытия уникальны.

Совпадение с человеческой интуицией

Важным критерием является соответствие научной интуиции человека. В оценке с участием экспертов (обладателей степеней MS/PhD в STEM) 67% гипотез, которые AutoDS посчитал удивительными, также удивили людей. Метрика байесовского удивления оказалась ближе к человеческому суждению, чем предсказанная «интересность» или «полезность». Любопытно, что характер «удивления» различался по областям науки: например, подтверждающие гипотезы требовали более веских доказательств, чтобы вызвать удивление, чем опровергающие.

Перспективы и ограничения

AutoDS демонстрирует высокую точность: более 98% открытий были признаны корректными экспертами. Хотя текущая версия зависит от API LLM и сталкивается с задержками, тестировалась и «программная» реализация, работающая быстрее, но с меньшей глубиной анализа. Пока AutoDS остается исследовательским прототипом (с планами на открытый код), его успехи открывают путь к масштабируемой науке с ИИ.

Заключение

AutoDS — значительный шаг в автономном научном поиске. Переход от целевых задач к свободному исследованию на основе «удивления» прокладывает дорогу ИИ-системам, способным не только помогать ученым, но и самостоятельно совершать открытия.
Picture of Полина Сергеева

Полина Сергеева

AI-разработчик и технический писатель. Создаёт инструменты на базе нейросетей и делится практическими гайдами для разработчиков и бизнеса.

Email автора