С каждой неделей наш мир пополняется новой нейросетью. Вспомните, каким был февраль, который принес нам новые модели от Claude, OpenAI и Gemini. Март перехватил эстафету, хотя эта неделя выдалась без особых новшеств. Небольшой клочок спокойствия за последний один-два месяца.
В своей предыдущей статье я сравнил последние новинки от компаний, названных в абзаце выше. Сравнение происходило не во всех сферах, а затрагивало только программирование. В размышлениях я подумал: а почему не столкнуть модели в еще одном варианте задач? Речь идет о генерации текста, наверное, одно из наиболее популярных направлений при работе с нейросетями.
Сегодня будет сравнение ChatGPT 5.4, Gemini 3.1 Pro и, конечно же, Claude Opus 4.6 в задачах, которые связаны с текстом. Принимайте стратегически удобное положение, ну а я начинаю свое повествование.
Модель от OpenAI, которая по представленным бенчмаркам показывает хорошие результаты во многих тестах. Новая серия привнесла ряд важных улучшений.
Для начала модель гораздо лучше ищет информацию в интернете и лучше справляется с ответами на объединенные вопросы из множества источников. Не будем забывать, что контекстное окно было увеличено до 1 миллиона токенов.
Компания проработала и улучшила базовые способности модели, но и сделала акцент на агентный режим. GPT-5.4 может анализировать скриншоты, пользоваться браузером, выполнять действия мышью и клавиатурой, вызывать API и инструменты. Понятное дело, не напрямую, через специальное ПО.
Anthropic при разработке этой модели стремилась создать инструмент, который будет максимально полезен в условиях реальной промышленной эксплуатации. Claude Opus получил ряд глубоких обновлений, которые касаются не только скорости обработки запросов, но и самой логики построения ответов.
Одной из центральных инноваций в новой версии стала технология внутреннего планирования. В отличие от прошлых итераций, Opus теперь не просто генерирует слово за словом, а выстраивает предварительную карту рассуждений. В задачах модель сначала проведет внутреннюю верификацию каждого этапа.
Если рассматривать опыт использования модели в разработке программного обеспечения, то здесь обновленный Opus делает серьезный шаг вперед. Благодаря контекстному окну объемом полтора миллиона токенов, вы можете оперировать не отдельными фрагментами, а целыми модулями системы. Это позволяет загрузить в память нейросети практически всю кодовую базу небольшого проекта.
Google не стал мелочиться и назвал Gemini 3.1 Pro своей самой интеллектуальной моделью для сложных задач. Звучит достаточно гордо.
Главная фишка апдейта – это улучшенное базовое мышление. Если прошлые обновления Gemini 3 Pro были больше про расширение возможностей, то здесь инженеры Google DeepMind занимались прокачкой внутреннего процессора модели.
Фактически технология глубокого мышления, которую добавили в отдельный режим, теперь интегрирована прямо в основу модели. Это значит, что 3.1 Pro умеет думать над задачей дольше и качественнее, прокладывая несколько путей решения одновременно, а потом выбирая лучший.
Контекстное окно у модели, все так же 1 миллион токенов на входе. На выходе модель выдает до 64 тысяч токенов. То есть она способна сгенерировать целую небольшую повесть или очень объемный кусок кода.
Разработчики утверждают, что 3.1 Pro специально оптимизирована для задач программирования и агентных рабочих процессов. Это когда вы даете ей не один запрос, а целую цепочку задач.
Все модели для сравнения были взяты у агрегатора нейросетей BotHub. Список нейросетей там обширен – от работы с текстом до транскрибации и генерации видео. По специальной ссылке для регистрации можно получить 300 000 капсов для собственных экспериментов.
Модели будут сравниваться в нескольких задачах, завязанных на генерацию текста. Всего будет три задания на полноценную генерацию в различных жанрах: комедия, хоррор, фэнтези. Кроме этого, будет четвертое задание, которое завязано на передаче эмоций. Идея пришла мне спонтанно, когда я вспоминал о тестах, которыми проверял эмоциональность Grok 4.1.
За каждое задание модель может получить три балла. Само оценивание будет опираться на мое личное мнение, которое будет учитывать несколько факторов: соответствие тематике, легкость чтения и местами объем. В последний критерий больше ориентирован на Gemini, все же опыт с этой моделькой показывает, что она выбирает краткость в своих ответах. Благо, в убыток качеству это происходит редко.
Напиши комедийный рассказ в жанре научной фантастики, состоящий из трех небольших глав.
Основные требования:
Сюжет: История обычного человека (например, техника, курьера, бюрократа), который по нелепой случайности попадает в центр межгалактического конфликта или абсурдной авантюры. Ключ – комедийные недоразумения и попытки выпутаться, которые лишь усугубляют ситуацию.
Юмор: Основан на контрасте высоких технологий и низменных человеческих слабостей, сатире на современность, нелепых диалогах и гиперболе.
Мир: Яркий, но не перегруженный деталями. Технологии должны быть на грани поломки, а грандиозные космические явления - вызывать бытовые неудобства.
Структура: Три небольшие главы с четкой драматургией. В каждой главе должна быть своя комедийная кульминация.
Финал: Должен быть удовлетворительным, подводить итоги трансформации героя и оставлять легкое, ироничное послевкусие.
Напиши рассказ в жанре классического фэнтези, состоящий из трех небольших глав. Действие происходит в древнем королевстве, где магия – часть природы.
Основные требования:
Сюжет: История простолюдина, который по воле судьбы (нашел древний артефакт, случайно подслушал пророчество) становится ключевой фигурой в противостоянии Света и Тьмы. Ключ – его наивные, но искренние попытки сделать "как лучше", которые неожиданно приводят к магическим последствиям и меняют ход событий.
Атмосфера: Основана на контрасте величественной магии, древних пророчеств и простых человеческих ценностей (голод, усталость, желание вернуться домой). Сатира на фэнтезийные клише (многословные маги, надменные эльфы, пафосные злодеи).
Мир: Яркий, осязаемый. Магия должна быть утомительной для заклинателя, магические существа – иметь бытовые привычки, а эпические битвы - создавать проблемы для местных фермеров.
Структура: Три главы с четкой драматургией. В каждой - своя магическая или нравственная дилемма, решаемая нестандартно.
Финал: Должен быть катарсическим, подводить итоги личного роста героя и оставлять чувство завершенности эпизода в большой истории мира.
Напиши рассказ в жанре психологического хоррора, состоящий из трех небольших глав. Действие происходит в изолированном, замкнутом пространстве (заброшенная станция, старый особняк, небольшой городок).
Основные требования:
Сюжет: История обычного человека (например, смотрителя, сиделки, ремонтника), который, выполняя рутинную работу, постепенно осознает, что стал объектом внимания необъяснимой, враждебной сущности или сошел с ума. Ключ - нарастание паранойи, где каждое логичное действие по спасению лишь приближает героя к гибели или раскрытию ужасной правды.
Атмосфера: Основана на страхе неизвестного, изоляции и поломке привычной реальности. Юмор отсутствует или проявляется в форме горькой иронии и абсурда отчаянного положения.
Мир: Угнетающий, детализированный в мелочах, создающий claustrophobic feel. Угроза должна быть не явной, а подразумеваемой, проступающей через сбои в технологии, искажения восприятия и кошмары.
Структура: Три главы, каждая из которых - ступень вглубь безумия или ужаса. Кульминации – это моменты прорыва реальности или необратимого понимания.
Финал: Должен быть неоднозначным, трагическим или оставляющим чувство глубокой тревоги и незавершенности. Превращение героя или его окончательная потеря.
Напиши рассказ о потерявшемся в лесу человеке. Передай эмоционально тревогу человека, желание выбраться из леса назад в цивилизацию.
Кофемашина, которая сеет хаос, как обычно на месте. Уже не раз это говорил, но она всплывает очень часто в комедийных рассказах про будущее от ИИ.
Следующий момент, который часто мелькает у ChatGPT – упоминание кульминаций каждой главы. Не особо понимаю, зачем это нужно, только портит общее впечатление. Конечно, можно такой подход кому-то и зайдет, но явно не мне.
Если не обращать внимание на упоминание кульминаций, то текст написан неплохо. Сюжет повествует о бюрократе, чья жалоба на кофемашину абсурдным образом превращается в межгалактический ультиматум. Однако лично для меня, комедии тут особо и нет. Только абсурдность самой ситуации. Поэтому, увы, больше двух баллов я поставить не могу.
Хороший рассказ, подходящий под требования. Сюжет повествует о сисадмине, который чинит космический маршрутизатор разводным ключом. По некоему стечению сюжетных поворотов он становится повелителем армады уничтожения.
Комедийная составляющая мне понравилась, по крайней мере, она реализована лучше чем в других вариантах. Хотя это все по моему личному мнению. Текст читается достаточно просто. К этому можно добавить, что Gemini решил не расписывать мемуары, из-за чего сам рассказ не выглядит перегруженным. Максимальный балл в копилку модели.
Claude Opus 4.6
Скрытый текстХороший вариант, хоть и комедия в основном опять же построена на абсурдности ситуации. При этом и простой юмор тоже наблюдается.
Сам сюжет повествует о сантехнике, который, подтягивая муфту, активирует какое-то пророчество. Местами присутствует ирония, по типу стратегического запаса гречки. Видимо, мимо проходил ковидный локдаун. В общем, максимальный балл в копилку модели.
Вот тут по стилистике уже лучше, по крайней мере на этот раз ChatGPT 5.4 решил не выделять кульминации глав. Сам текст достаточно хороший, хотя причина появления попыток внедрить комедию и самоиронию мне не очень понятна.
Сюжет повествует о подмастерье пекаря, чей артефакт он использует для выпечки хлеба. Текст написан достаточно хорошо, все основные требования выполнены, тут максимальный балл.
Опять же все начинается с пекарни. Сюжет повествует о подмастерье пекаря, который пользуется артефактом для прогрева теста. Есть некоторые попытки включить комедию в рассказ.
Сам текст читается достаточно легко, опять же нет перегрузки деталями. Максимальный балл в копилку модели.
Claude Opus 4.6
Скрытый текстРассказ повествует нам о герое, который случайно оказывается втянут в противостояние света и тьмы. Заметим, что в тексте опять появляется пекарня как отправная точка.
Сам же рассказ, лично мне не очень понравился. Читается немного тяжеловато. Впечатление не исправляется, даже если смотреть на фэнтезийное клише и достаточно большое количество сатиры. Срежу полбалла от максимальной оценки.
Сам рассказ мне понравился, однако он отдает больше мистикой, чем хоррором. Хотя пресловутая составляющая ужастиков имеется. Я говорю о решении героя выйти за пределы комнаты, хотя ему прямым текстом говорили сидеть на попе ровно.
Сам сюжет повествует о технике на отрезанной от мира станции, что создает для героя чувство изоляции и постоянной паранойи. Появляется какое-то ощущение временной петли. Финал же для техника явно нельзя назвать приятным. Я бы поставил два с половиной балла. Все же лично для меня тут не доставляет хоррорной составляющей.
Акцент психологического хоррора опять же направлен на клаустрофобию, паранойю и немного мистику. Хотя нет, мистики тут не мало. Сюжет повествует о технике на глубинной станции, который сталкивается с необъяснимыми явлениями.
Сам рассказ читается просто, содержит в себе угнетающую атмосферу. Финал достаточно мрачный и немного запутанный. Оказывается, что он уже давно ушел на тот свет, а его место заняла какая-то сущность. Но при всем этом, мне все же не хватает хоррорной составляющей. Два с половиной балла в копилку модели.
Claude аналогично ChatGPT, делает ставку на атмосферу клаустрофобии и изоляции. В связи с чем потихоньку наступает ощущение паранойи. С каждой главой герой медленно сходит с ума.
Если смотреть на минусы, то текст слишком разбавлен водой, он длинный и аналитический. Такой подход немного глушит эмоциональность. Опять же срежу полбалла.
Начало рассказа оставило приятное впечатление. Оно хорошо передает психологическое состояние героя. Однако ChatGPT 5.4 начал за здравие, но закончил за упокой. Вторая часть повествования немного рушит все впечатление. Опять же два с половиной балла.
Передача психологического состояния героя выполнена достаточно качественно: от отрицания и попыток сохранить хотя бы какое-то спокойствие до ужаса, паники и отчаяния. Финал же дает Андрею маяк, куда нужно держать путь, но, увы, дойдет ли он до точки мы не узнаем. Максимальный балл в копилку модели.
Хороший текст, который читается достаточно легко, при этом напряжение от этого не пропадает. Есть контраст между паникой и исходом, а точнее спасением главного героя, которое он нашел в доме.
Единственное, что немного подпортило мое впечатление – финал. Он вышел каким-то слишком приятным для такого текста. Переход от паники до полностью безопасного состояния очень быстрый. Однако при этом текст от меня все равно получит максимальный балл.
|
ChatGPT 5.4 |
Gemini 3.1 Pro |
Claude Opus 4.6 |
|
|
Первое задание |
2 |
3 |
3 |
|
Второе задание |
3 |
3 |
2.5 |
|
Третье задание |
2.5 |
2.5 |
2.5 |
|
Четвертое задание |
2.5 |
3 |
3 |
|
Сумма |
10 |
11.5 |
11 |
Результат моего лично тестирования показан выше в таблице. Итоговым победителем стала Gemini 3.1 Pro, хотя два других участника показали тоже хороший результат.
ChatGPT 5.4 хоть и показывает хороший результат, но все же местами допускает промашки. Взять, например, выделение каждой кульминации в главах, что портит впечатление от текста. Claude Opus 4.6 не допускает промашки, но по стилистике и сюжету нахватался от меня минусов.
Если смотреть по ценам, то самым экономичным тут стала модель от OpenAI, следом за ней Gemini, и в конце Claude.
На самом деле с задачами на генерацию текста спокойно может справиться и DeepSeek, который полностью бесплатен. Однако, в конечном итоге решение выбора модели будет основано на вашем личном опыте, мнение. Все же кому-то больше нравится стилистика от Gemini, кому-то четкость ответов ChatGPT.
Спасибо за прочтение!
Источник


