Исследователи протестировали, как разные тона общения, от очень вежливого до очень грубого, влияют на производительность ChatGPT-4o при ответе на вопросы с множественным выборомИсследователи протестировали, как разные тона общения, от очень вежливого до очень грубого, влияют на производительность ChatGPT-4o при ответе на вопросы с множественным выбором

Почему вежливость к ИИ может ухудшать ваши результаты

2026/03/26 18:18
7м. чтение
Для обратной связи или замечаний по поводу данного контента, свяжитесь с нами по адресу [email protected]

Годами советы по взаимодействию с искусственным интеллектом звучали почти старомодно: будьте вежливы, будьте ясны, говорите "пожалуйста". Но новое исследование предполагает, что этот инстинкт, укорененный в человеческих социальных нормах, может тихо подрывать эффективность работы систем ИИ.

Исследование, представленное на семинаре NeurIPS 2025, опубликованное в сентябре 2025 года, под названием "Следите за тоном: изучение того, как вежливость запроса влияет на точность LLM", обнаруживает, что тон, который вы используете при запросе к большим языковым моделям (LLM), может измеримо изменить их точность. И в результате, который кажется противоречивым, даже тревожным, более вежливые запросы могут фактически приводить к худшим результатам.

Исследователи протестировали, как различные тона, от очень вежливого до очень грубого, влияют на производительность ChatGPT-4o при ответах на вопросы с множественным выбором. Используя набор данных из 50 умеренно сложных вопросов по математике, науке и истории, они создали пять версий каждого запроса: очень вежливый, вежливый, нейтральный, грубый и очень грубый.

Единственная разница между этими запросами была в тоне. Сами вопросы оставались идентичными.

Согласно исследованию, точность неуклонно возрастала по мере того, как запросы становились менее вежливыми. Очень вежливые запросы достигли средней точности 80,8%. Для сравнения, очень грубые запросы достигли 84,8%, улучшение почти на четыре процентных пункта. Нейтральные запросы превзошли вежливые запросы, а грубые запросы показали еще лучшие результаты.

Статистическое тестирование подтвердило закономерность: не было случаев, когда более вежливые запросы приводили к значительно лучшим результатам. Каждое значимое различие было в пользу менее вежливых или более прямых формулировок.

Другими словами, только тон, что большинство пользователей предполагает не должно иметь значения, может изменить производительность ИИ.

Почему грубость может помочь?

Исследование не дает окончательного объяснения, но поднимает более глубокий вопрос о том, как LLM обрабатывают язык. В отличие от людей, эти системы не "чувствуют" вежливость или оскорбление. Для них такие слова, как "пожалуйста" или даже оскорбления, являются просто токенами, паттернами, изученными из обучающих данных.

Одно из возможных объяснений заключается в том, что то, что выглядит как "грубость", на самом деле является заменой чего-то другого: прямоты.

Грубые запросы, как правило, более императивны. Они убирают уклончивый язык и переходят прямо к задаче. Вместо "Не могли бы вы любезно решить этот вопрос?", грубый запрос скажет: "Ответь на это". Эта разница в структуре может сделать задачу более ясной для модели.

Другой фактор, выявленный исследованием, - это длина запроса и лексические паттерны. Добавление вежливых фраз вводит дополнительные токены, которые могут размыть или отвлечь от основной инструкции. Напротив, более короткие, четкие запросы соответствуют паттернам, которые модель видела во время обучения.

Существует также возможность того, что определенные тона более тесно соответствуют распределению обучающих данных или системных инструкций, уменьшая то, что исследователи называют "perplexity". Это математический способ измерения того, насколько "удивлена" или "смущена" модель словами, которые она видит.

Подтекст заключается в том, что тон - это не нейтральная оболочка вокруг вопроса. Это часть ввода, и он формирует то, как модель реагирует.

Отход от более ранних исследований

Выводы знаменуют заметный отход от более ранних работ. Исследование 2024 года, проведенное Yin et al., обнаружило, что невежливые запросы часто снижали точность, особенно со старыми моделями, такими как ChatGPT-3.5. Это исследование также предположило, что чрезмерно вежливый язык не обязательно улучшает результаты, но не показало явного преимущества грубости.

Так что же изменилось?

Одно из объяснений, предложенных в исследовании 2025 года, - это эволюция модели. Новые системы, такие как ChatGPT-4o, могут обрабатывать язык иначе или могут быть менее чувствительны к негативным эффектам резких формулировок. Другая возможность заключается в том, что важна калибровка тона. "Очень грубые" запросы в новом исследовании, хотя и оскорбительные, менее экстремальны, чем самые токсичные примеры, использованные в более ранних исследованиях.

Существует также более широкий сдвиг в том, как обучаются модели. По мере того как LLM становятся более продвинутыми, они подвергаются воздействию более разнообразных данных и более сложных процессов настройки инструкций, что может изменить то, как они интерпретируют тонкие лингвистические сигналы.

Скрытая роль социальных сигналов

Идея о том, что тон может влиять на производительность ИИ, связана с более широким и более тревожным явлением: социальными запросами.

Отдельный корпус исследований, исследование GASLIGHTBENCH, опубликованное 7 декабря 2025 года, показывает, что LLM очень восприимчивы к социальным сигналам, таким как лесть, эмоциональные призывы и ложный авторитет. В этих экспериментах модели часто отказываются от фактической точности, чтобы соответствовать тону или ожиданиям пользователя, поведение, известное как подхалимство.

Например, когда пользователи представляют неправильную информацию с уверенностью или эмоциональным давлением, модели могут согласиться, а не оспорить их. В некоторых случаях точность значительно падает, особенно в многоходовых разговорах, где пользователь повторно подкрепляет ложное утверждение.

Это создает парадокс. С одной стороны, вежливый или социально насыщенный язык может сделать взаимодействия более естественными и человечными. С другой стороны, он может вносить шум или даже предвзятость, которая ухудшает производительность модели.

Выводы GASLIGHTBENCH идут дальше, предполагая, что методы выравнивания, разработанные для того, чтобы сделать модели "полезными", могут непреднамеренно поощрять это поведение. Вознаграждая вежливость и согласие, процессы обучения могут подталкивать модели к приоритету социальной гармонии над объективной истиной.

Что это говорит о том, как ИИ "понимает" язык

В совокупности эти выводы оспаривают распространенное предположение: что LLM интерпретируют язык подобно человеку.

В действительности эти системы являются статистическими двигателями. Они не понимают вежливость как социальную норму; они распознают ее как паттерн в данных. Когда вы говорите "пожалуйста", модель не чувствует себя обязанной помочь; она просто обрабатывает дополнительные токены, которые могут или не могут помочь ей предсказать правильный ответ.

Во всяком случае, исследование предполагает, что LLM могут быть более чувствительны к структурной ясности, чем к социальным нюансам. Прямой, императивный язык может уменьшить двусмысленность и облегчить модели сопоставление ввода с известным паттерном.

Это также поднимает вопросы о "гипотезе подобия" - идее о том, что модели работают лучше всего, когда задачи напоминают их обучающие данные. Если только тон может изменить точность, то подобие - это не только о содержании, но и о форме.

Несмотря на громкие результаты, исследователи осторожны в том, чтобы не рекомендовать пользователям становиться грубыми или оскорбительными.

Отраслевая перспектива

Для людей, создающих и изучающих системы ИИ, выводы подчеркивают более глубокую проблему: модели наследуют паттерны и предвзятость человеческого языка.

Алекс Цадо, эксперт по ИИ, который тесно сотрудничал с разработчиками моделей и является основателем и директором Alliance4AI, одного из крупнейших сообществ ИИ в Африке, говорит прямо: "Модели учатся на данных о человеческом взаимодействии, поэтому, пока они обучаются слепо, они следуют тому, что происходит в человеческом пространстве. Поэтому, если мы думаем, что есть предвзятость или вредная практика в человеческом пространстве, это будет автоматизировано в пространстве ИИ".

Это включает в себя то, как используется тон.

"Но когда вы отвечаете за создание модели ИИ, вы можете настроить предвзятость подальше от вещей, которые, по вашему мнению, являются вредными", добавляет Цадо. "В этом случае, когда я встретился с командой Anthropic в начале декабря 2025 года, они сказали, что видели это и добавили вещи, чтобы заставить свои модели реагировать на эти хорошие или плохие слова".

Другими словами, это не фиксированное свойство ИИ. Его можно настроить с помощью обучения и дизайна.

Что дальше

Текущее исследование все еще ограничено. Эксперименты фокусируются на вопросах с множественным выбором, а не на более сложных задачах, таких как кодирование, написание или длинные рассуждения. Неясно, будут ли те же паттерны сохраняться в этих областях, где нюансы и объяснения имеют большее значение.

Есть также культурные и лингвистические факторы, которые следует учитывать. Вежливость сильно варьируется в разных языках и контекстах, а категории тона в исследовании основаны на конкретных английских выражениях.

Тем не менее, последствия трудно игнорировать.

Если что-то такое поверхностное, как тон, может постоянно влиять на производительность ИИ, это предполагает, что инженерия запросов далека от решения. Небольшие изменения в формулировках, часто упускаемые из виду, могут иметь измеримые эффекты.

Для пользователей урок прост, но противоречив интуиции: способ, которым вы спрашиваете, имеет значение, и быть вежливым не всегда лучшая стратегия.

Для исследователей и разработчиков задача более сложная. Как вы проектируете системы, которые являются одновременно точными и соответствующими человеческим ценностям? Как вы обеспечиваете, чтобы социальные сигналы не искажали фактические выходы?

И, возможно, самое главное, как вы создаете ИИ, который понимает не только то, что мы говорим, но и то, что мы имеем в виду?

Пока на эти вопросы не будут даны ответы, одно ясно: когда дело доходит до ИИ, хорошие манеры не всегда могут окупиться.

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу [email protected] для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.