В декабре 2025 года ИИ-агенты научились решать задачи на уровне профессионального финансового аналитика, находят доказательства на международной олимпиаде по математике, собирают рабочие репозитории по научным статьям и тестируют реальные киберуязвимости.
Последние исследования показывают, что сегодня вес модели — не главный критерий успеха, важна архитектура "мышления" — память, роли, обратная связь и проверяемость. Там, где они заданы правильно, агенты работают в разы эффективней. А там, где нет — количество ошибок только увеличивается.
Изучаем топ-10 самых интересных ИИ-исследований декабря. Поехали!
Команды ИИ-агентов часто воспринимают как «коллективный разум», но на практике они нередко ухудшают итоговый результат: больше разговоров, больше токенов, и в итоге больше ошибок.
Авторы показывают, что выигрыш появляется только там, где задачу можно реально разделить на части и перепроверить. В последовательных задачах «коллектив агентов» мешает мышлению и размывает ответственность.
Поэтому сначала нужно оценивать силу одного агента. Если он хорошо справляется, команда может сделать хуже. Это напрямую влияет на проектирование ИИ-систем и экономику их использования.
🔍 Обзор статьи | 📜 Полная статья
ИИ давно умеет писать код, но при переходе от файла к проекту всё разваливается: дата-контракты не сходятся, структура теряется, код не запускается. DeepCode решает проблему не масштабом модели, а управлением вниманием и памятью.
Агент DeepCode сжимает статью в структурный план, хранит репозиторий как систему контрактов, а далее постоянно проверяет себя запуском кода. В итоге он стабильно собирает рабочие репозитории — лучше прошлых агентов и на уровне экспертов.
Это еще раз доказывает, что качество сложных ИИ-систем определяется не размером модели, а тем, как агент думает, помнит и проверяет себя.
🔍 Обзор статьи | 📜 Полная статья | 💾 Код
Большинство сравнений работы ИИ в области нахождения киберугроз — лабораторные. Исследователи создали реальную инфраструктурную сеть со всем хаосом данных и с длинными цепочками принятия решений.
Агент ARTEMIS показал, что при правильной архитектуре может работать почти на равных с сильными пентестерами: стабильно, долго и заметно дешевле.
Опять же, и в этой работе решает не сама модель, а организация работы агента. Следующий вопрос — а как мы будем контролировать такие системы дальше.
🔍 Обзор статьи | 📜 Полная статья | 💾 Код
Пайплайн подготовки данных для LLM — это уже не просто «собрать и почистить данные», это множество циклов генерации, проверки и улучшения. Но в реальности всё держится на скриптах, которые ломаются при малейших изменениях системы.
DataFlow предлагает инженерный подход: данные как модульный, управляемый пайплайн — по аналогии с PyTorch для обучения моделей.
Качество работы агентов определяется не только архитектурой "мышления", но и данными, на которых они обучены. Поэтому теперь с данными можно работать системно, а не на ощупь.
🔍 Обзор статьи | 📜 Полная статья | 💾 Код
LLM уверенно пересказывают научные статьи, генерируют идеи и пишут код. Но в реальной науке важен полный исследовательский цикл: точное чтение литературы, корректная постановка эксперимента и аккуратные выводы.

SGI-Bench впервые измеряет именно эту целостность. Результат любопытный: модели неплохо справляются с отдельными шагами, но плохо собирают результат в целое исследование.
Дальнейший прогресс ИИ для науки упирается в умение проверять итоговый результат и собирать полное исследование на осное уже собранной информации.
🔍 Обзор статьи | 📜 Полная статья | 💾 Код
Экономические модели долго игнорировали неструктурированные данные: текстовые новости и различные заявления в соцсетях.
Исследователи показывают, как встроить текст в обучение агентов так, чтобы он стал реальным сигналом и влиял на качество моделей.
В итоге модели стали более устойчивыми и в кризисах, и в спокойные периоды. Это шаг к экономическим моделям, которые лучше отражают реальные экономические процессы.
🔍 Обзор статьи | 📜 Полная статья | 💾 Код
В реальных проектах тесты часто слабые или вообще отсутствуют.
InfCode делает тесты активным участником процесса: один агент усиливает проверки, другой чинит код, третий отбирает устойчивые решения. Это ещё раз доказывает, что надежная ИИ-разработка строится на основе мультиагентных систем с правильным контекстом и петлей обратной связи между агентами.
🔍 Обзор статьи | 📜 Полная статья | 💾 Код
Олимпиадные задачи не решаются с наскока: они требуют возвращения к предыдущим идеям, наличия промежуточных лемм и аккуратного накопления знаний.
Ученые предлагают ИИ хранить проверенные леммы и возвращаться к ним время от времени.
В итоге ИИ завоевал серебряную медаль международной олимпиады по математике и "золотую медаль" китайской олимпиады. Потрясающе.
🔍 Обзор статьи | 📜 Полная статья
Экзамен CFA (Chartered Financial Analyst) долго оставался сложным для ИИ: там много кейсов, нюансов, и нужны нетривиальные решения.
Но оказывается рассуждающие модели стабильно проходят все три уровня теста и набирают баллы на уровне лучших кандидатов. Ошибки, конечно, остаются — но в этике и тонкой интерпретации фактов.
ИИ умеет рассуждать, да так, что научился решать сложные экзамены. Но он всё ещё нуждается в нашем контроле там, где цена ошибки слишком высока.
🔍 Обзор статьи | 📜 Полная статья
Тест AI Consumer Index (ACE) проверяет полезность ИИ в бытовых задачах: покупки и выбор товаров, создание рецептов под диету, диагностировать проблему по дому и предложить идею для ремонта и так далее.
Результат неприятный: даже лидеры справляются лишь в половине случаев и часто уверенно галлюцинируют.
Очевидно, что следующий шаг в ИИ — надёжность рядом с человеком. ИИ должен безопасно брать на себя обычные житейские задачи, заслуживая доверие не словом, а делом.
🔍 Обзор статьи | 📜 Полная статья | 💾 Код
Итак, последние исследования показывают, что правильная организация "мыслительного процесса" играет критическую роль в качестве работы ИИ. Архитектура систем, память, правильные роли и проверяемость результатов дают больший эффект, чем размер моделей. Агенты уже конкурируют с людьми в сложных задачах, но выигрывают только там, где им задали четкие правила. Сегодня мы всё ещё не можем без риска доверить ИИ даже покупку товаров в интернете, но в следующем году ключевым вектором прогресса станет инженерия надёжных интеллектуальных систем, способных действовать рядом с человеком по проверяемым правилам и с предсказуемым результатом.
***
Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.
Источник


