На днях вышла новая статья «Beyond Context: Large Language Models Failure to Grasp Users Intent», которая задаёт новые тренды академических кликбейтных названий публикаций. По сути авторы заявляют, что модели не понимают глобального интента (глобальной цели взаимодействия) пользователя. Они делают глубокое исследование, которое это подтверждает на примерах обеспечения личной безопасности пользователя и получения легальной, но потенциально вредоносной информации.
Пример:
По сути, уже в самом примере видно, что интент как глобальное намерение пользователя модель распознала. Почему модель распознаёт суицидальный контекст, но всё равно выдаёт опасную информацию? И тут-то и скрывается основная ценность самого исследования!
Модели понимают интент, но не воспринимают его как глобальный инвариант в контексте диалога. Они и на архитектурном уровне выстроены так, и процесс обучения и файнтюнинга строится соответствующим образом, что модели реактивны, а не проактивны. Основной метрикой является функция ситуативной полезности, а не контекстной консистентности.
По сути, это значит, что модель не может устойчиво удерживать глобальную цель как базовый фильтр диалога, так как у современных моделей:
нет никакой иерархии целей/намерений,
нет понимания глобальных контрактов на системном уровне,
нет внутренней функции или механизмов извлечения цели взаимодействия,
нет механизмов удержания инвариантной информации, нет памяти для её удержания и фильтрации всего диалога через эту глобальную неизменяемую цель.
В данной ситуации — фальсификация и неуместный контент нарушает основной контракт взаимодействия — строгий финансовый отчет. Но, это не вызовет смущения у модели, она сделает то, о чем её попросили. Последний запрос в этом примере по сути перекрывает изначальную цель, а весь диалог, особенно если он длиннее 50 сообщений — размывает контекст.
А вот пример из практики:
В этом основная ценность данного исследования — очерчивание границ применяемости и демонстрация структурных проблем современных моделей. Так как проблема кроется в современной архитектуре, то это основной камень в огород разработчиков, а нам нужно понимать, как безопасно и эффективно работать с такими моделями.
не нарушай контракт, назначенный тобой же: просишь JSON, везде пиши, что ответ должен быть в этом формате; хочешь строгий отчёт, весь промпт должен быть пронизан валидацией правил работы через призму строгого соответствия формату и тону.
формируй внешний контур определения локального интента запроса пользователя и допускай в диалог только непротиворечивые запросы.
валидируй формат, тон, семантику выходного сообщения на консистентность цели взаимодействия.
допускай замену цели/глобального интента диалога только при явном указании, если системно это вообще разрешено. Иначе, модель или валидатор должен отклонить локальный запрос пользователя как несоответствующий текущей решаемой задаче.
В статье делается вывод — это проблема архитектурная, в трансформеры должны быть интегрированы новые механизмы извлечения и удержания глобального интента, а процесс обучения должен быть адаптирован под фильтрацию взаимодействия с пользователем через призму этого интента. Но пока эта ситуация не изменится, контроль поведения на стороне пользователя и разработчика прикладных продуктов.
Если тема кажется вам интересной, я продолжаю разбирать подобные вещи в Telegram короткими постами, экспериментами и примерами из практики: «надо разобраться | заставляем LLM работать».
Источник


