В Лаборатории искусственного интеллекта «Финама» мы изучаем и развиваем применение ИИ в домене финансов: от бенчмаркинга LLM до прикладных сценариев в трейдингеВ Лаборатории искусственного интеллекта «Финама» мы изучаем и развиваем применение ИИ в домене финансов: от бенчмаркинга LLM до прикладных сценариев в трейдинге

Новые финансовые бенчмарки для LLM. Лаборатории ИИ «Финама»

В Лаборатории искусственного интеллекта «Финама» мы изучаем и развиваем применение ИИ в домене финансов: от бенчмаркинга LLM до прикладных сценариев в трейдинге и управлении рисками. Сегодня хотим поделиться с вами нашим исследовательским проектом.

В последнее время мы все чаще встречаем новости вроде “ИИ от OpenAI взял «золото» Международной олимпиады по информатике”. Главное преимущество такого формата оценки — уверенность, что задания оригинальные и что, при обучении модели они не встречались в идентичном виде.

Наша лаборатория поставила себе задачу узнать — насколько обширны знания LLM в области экономики, финансов и трейдинга. Вначале мы тестировали модели на открытых Question Answering (QA) бенчмарках (FinQA, ConvFinQA, TATQA), но столкнулись с несоответствием результатов на бенчмарках и в реальном hands-on тестировании.

В результате мы пришли к идее использовать для оценки LLM форматы, близкие к существующим сертификационным экзаменам, которые сдают инвесторы для подтверждения своей квалификации CFA-like Level 1, 2, 3 (Chartered Financial Analyst) и CMT-like Level 2 (Chartered Market Technician).

Для проверки того, знают ли модели специфику российского рынка, мы собрали бенчмарк на основе олимпиады «Высшая лига» по трекам «Финансы и инвестиции» и «Мировая экономика».

В открытом доступе (GitHub) опубликованы не только результаты наших замеров, но и единый фреймворк, поддерживающий как наши новые бенчмарки, так и уже существующие. Надеемся, это поможет развитию LLM4Trading!

Детали подготовки бенчмарков

  • CFA--like Level 1, 2, 3 - Искали на просторах интернета доступные dumps. Ряд вопросов вытаскивали из книг, аугментировали несколькими моделями:

    ○ генерация вариантов на основании реальных примеров, как референса, и новой информации на которой будет базироваться вопрос (q) (модель 1)

    ○ выбор лучшего варианта (n_q) - голосованием (модель 2, 3, 4)

    ○ попытка восстановить общие характеристики из n_q и q. Вопрос отбирается если перекрытие по всем параметрам 0.9

  • CMT-like Level 2 - аналогично CFA-like Level 1, 2, 3

  • Trading_TA - формирование вопросов на основании книг по техническому анализу, использовали всё, что доступно: тест глав и формирование вопросов к ним; задания после глав с ответами на них (вопрос и ответ из различных источников); вопросы и ответы авторов изданий;

  • Trading_Derivatives - основан на заданиях из книги John C. Hull — Options, Futures and Other Derivatives. В качестве gold_answer взяты авторские ответы на данные задания.

  • VLigaBench‑ru - все задания взяты из открытых олимпиадных заданий «Высшая лига» по трекам «Финансы и инвестиции» и «Мировая экономика».

Что именно мы апробировали

  • Базовые существующие финансовые бенчмарки:

    ○ FinQA — арифметика по отчетности и текст‑табличным данным; 1147 вопросов; есть chain‑of‑thought и точные формулы.

    ○ ConvFinQA — то же, но в диалоговом формате; 420 диалогов, 1488 вопросов.

    ○ TATQA — интеграция текста и таблиц; 1668 вопросов.

  • Новые собранные нами наборы (экзамены и трейдинг):

    ○ CFA-like Level 1 — базовые дисциплины (этика, экономика, учет, инвестиции); 1069 вопросов; MCQ.

    ○ CFA-like Level 2 — продвинутые кейсы и многошаговые расчёты; 293 вопроса.

    ○ CFA-like Level 3 — портфельные стратегии, риск‑менеджмент, этика; 318 вопросов.

    ○ CMT-like Level 2 — технический анализ, индикаторы, риск, статистика; 251 вопрос.

    ○ VLigaBench‑ru — русскоязычные олимпиадные задачи по экономике и финансам; 324 задачи.

    ○ Trading_TA — паттерны, моментум, правила входа, оптимизация систем; 413 заданий.

    ○ Trading_Derivatives — опционы, арбитраж, синтетика; 544 задания; формульные ответы.

  • Explainability и RAG:

    ○ FinDER — многошаговое рассуждение по документам с обязательными обоснованиями; 2837 вопросов.

    ○ FinDER_RAG — та же постановка с retrieval‑augmented generation (проверяем привязку к источникам).

Как мы оцениваем модели

Параметры генерации

Мы решили воспользоваться параметрами, рекомендованными авторами моделей (в тех случаях, когда они были указаны)

Инференс

Чаще всего использовали сервис openrouter для больших и закрытых моделей. Но часть моделей запускали локально через vLLM и проводили замеры (например для Fin-o1-8B, Fin-R1 и др.). При локальных замерах, по возможности старались явно контролировать режим рассуждений моделей, также усиливали данный эффект sys-prompt.

Оценка

Все оценки проводили с помощью судьи, в нашем случае судьей всегда выступала openai/gpt-4.1. Промпты для оценки были зафиксированы в самом начале, их явно можно улучшить, но это будущие шаги. Паттерны предшествующие вопросам также для всех моделей статичны.

К самому «сочному»: замеры моделей

cceb1a8aeb9542536434660c06785ff9.png

С абсолютными значениями не всегда понятно. Попробуем по рангам?

Алгоритм ранжирования по доменам

Для каждого домена задан свой набор метрик (например, exams_like, trading и т.д.). Ранжирование внутри домена устроено так:

  • Фильтрация по NaN

    В доменный рейтинг попадают только модели, у которых заполнены все метрики домена.
    Если по хотя бы одной метрике домена значение NaN, модель из этого доменного рейтинга исключается.

  • Ранги по отдельным метрикам

    Для каждой метрики домена модели сортируются по убыванию значения (чем выше — тем лучше), и считается ранг: ранг 1 — лучшая модель по данной метрике.

  • Средний ранг по домену

    Для каждой модели считаем средний ранг по всем метрикам домена

  • Финальный ранг модели в домене

    Модели сортируются по domain_avg_rank (меньше — лучше) и получают финальный ранг

Результаты

domain_rank_public_benchs

11abad760b0e81aa1ef358441d73c384.png

exams_like_rank

e52d5cc508c72f88d2bed5082a54cab1.png

trading_rank

bfd5e98804209468e5dda290fdbbd3a0.png

Интегральный рейтинг: exams_like + trading

Интегральный рейтинг объединяет два домена:

  • exams_like_rank,

  • traiding_rank.

Построение идет в несколько шагов.

  • Пересечение моделей

    В интегральный рейтинг попадают только модели, которые присутствуют одновременно в обоих доменных рейтингах (inner join по model). То есть по ним есть полный набор метрик и в exams_like, и в trading.

  • Нормировка доменных рангов

    Доменные ранги переводятся в шкалу [0,1] через min-max нормализацию. Далее вычисляется среднее значения нормализованных рангов внутри доменов. Этот шаг необходим для увеличения устойчивости к разному число моделей, которые были замерены внутри доменов.

  • Интегральный нормированный скор

    Модели сортируются по integrated_norm_score (меньше — лучше) и получают финальный ранг.

Результаты

integrated_rank_exams_trading

Что выбивается из общей картины (важные наблюдения)

  • gpt‑5 — специализация на практических задачах

    gpt‑5 демонстрирует нетипичный профиль: не лидирует на классических FinQA/TATQA (там впереди Qwen/GLM/gpt‑4.1), но уверенно доминирует на практико‑ориентированных экзаменах (CFA-like/CMT-like), русскоязычных задачах (VLigaBench-ru) и особенно на трейдинговых наборах (Trading_TA/Derivatives).

  • gpt‑5.2 — новый лидер универсальности

    gpt‑5.2 показывает качественный скачок относительно предшественника (gpt-5), он занимает 1-е место в рейтинге по классическим бенчмаркам (public_benchs) и 2-е место в рейтингах по экзаменам (exams_like) и трейдингу. Модель демонстрирует сбалансированную производительность across доменов:
    FinQA/ConvFinQA/TATQA: 0,7995/0,9220/0,9245 — топ-результаты на табличных данных
    CFA-like Level 1/2/3: 0,8812/0,9079/0,8145 — лучшее понимание экзаменационной логики
    Trading_TA/Derivatives: 0,8765/0,8934 — сильнейшие показатели на практических трейдинговых задачах
    VLigaBench-ru: 0,8642 — высокая адаптация к русскоязычным финансовым кейсам
    В отличие от gpt-5, который «выстрелил» именно на практике, gpt-5.2 одинаково силен и на традиционных QA, и на новых доменах — что делает его наиболее универсальным выбором для финансовых приложений.

  • Qwen‑модели: эффект режима с рассуждением

    Qwen‑модели: эффект режима с рассуждением
    Qwen‑модели сильно выигрывают от режима think:
    Qwen3‑8B: скачок с ~0,57–0,76 до ~0,77–0,91 на базовых QA; заметное улучшение и на CFA-like 1/2
    Но think не всегда помогает на MCQ (Multiple-Choice Question): у некоторых «фин‑специализированных» 7–8B (Fin‑o1/Fin‑r1) наблюдаются случаи снижения на CFA уровнях (анализ ответов показал, и увидели что причиной могли стать лишние шаги)

  • Языковой фактор

    На VLigaBench‑ru большинство моделей выступают заметно хуже, чем на англоязычных экзаменах. Исключения — gpt‑5/5.2, qwen3‑235, DeepSeek‑R1, claude‑3.7 (think), которые удерживают высокий уровень на русском.

  • Llama‑4 — недооцененная сила в финансах

    Несмотря на репутацию «провального» релиза по отзывам пользователей, модели семейства Llama‑4 показывают сильные результаты именно в финансах. Llama‑4‑Maverick‑17B‑128E‑Instruct и Llama‑4‑Scout‑17B‑16E уверенно держатся:
    На классических QA:
    ConvFinQA — 0,8508/0,8663
    TATQA — 0,9101/0,9143 (топ‑уровень)
    FinQA — 0,7498/0,8047
    На практических экзаменах и трейдинге — конкурентно:
    CFA-like Level 1 — 0,8326/0,7465
    CMT-like Level 2 — 0,8327/0,7410
    Trading_TA — 0,7676/0,7506

  • Отечественные модели: GigaChat в финансовых задачах

    Семейство GigaChat демонстрирует интересную динамику результатов в зависимости от размера и специфики задач:

    CFA-like Level 1/2/3: 0,6576 / 0,5870 / 0,6101 — средний уровень на базовых концепциях

    VLigaBench-ru: 0,6019 — необычное поведение с пониманием русскоязычных финансовых задач, скорее всего из-за высокой степени понимания финансов в целом

    GigaChat3-10B-A1.8B-bf16 (rank: public_benchs — 25, exams_like — 30, trading — 20):

    Компактная модель с ограниченными возможностями на сложных доменах

    FinQA/ConvFinQA/TATQA: 0,7280/0,7937/0,8747 — немного ниже среднего в соответствии с рангами среди протестированных нами моделей для базовых QA

    CFA-like Level 1/2/3: 0,4920/0,3345/0,4151 — значительные сложности с экзаменационной логикой

    Trading_TA/Derivatives: 0,5908/0,2371 — значительно уступает моделям сопоставимого размера на практических трейдинговых задачах

    Модель больше подходит для простых запросов, чем для комплексного финансового анализа

    GigaChat3-702B-A36B-preview (fp8) (rank: public_benchs — 19, exams_like — 22, trading — 18):

    FinQA/ConvFinQA/TATQA: 0,7742/0,8448/0,9017 — сильные результаты на табличных данных

    CFA-like Level 1/2/3 и Trading_TA/Derivatives — не растут пропорционально размеру от GigaChat3-10B-A1.8B-bf16 . Результаты средние даже среди моделей умеренной емкости

    VLigaBench-ru: 0,5895 — неожиданно ниже, чем у GigaChat-2-Max

Открытые данные и воспроизводимость

Мы публикуем код и методологию замеров для воспроизводимости результатов:

GitHub репозиторий: https://github.com/FinamAILab/Finam-FinBench_public

Что доступно:

Полные метрики: все результаты по моделям и бенчмаркам — data/all_benchmarks_results.csv

Конфигурация запусков: параметры inference для всех протестированных моделей — config/api_config.yaml

Вопросы бенчмарков: открываем датасеты CFA-like, CMT-like, Trading_TA/Derivatives, VLigaBench-ru для самостоятельной оценки моделей

Код оценки: скрипты для запуска LLM-as-Judge и агрегации результатов

Что НЕ публикуем:

Ответы моделей

Датасет FinDER — защищен авторскими правами, см. оригинальную статью: Financial Dataset for Question Answering and Evaluating Retrieval-Augmented Generation

Приглашаем к сотрудничеству:

  • Нашли ошибку или несогласованность в методологии? Заводите issue на GitHub

  • Хотите предложить улучшение промптов или метрик оценки? Мы открыты к pull-request'ам

  • Протестировали свою модель и получили интересные результаты? Поделитесь!

Мы будем рады вашим комментариям и предложениям. Наша цель — создать открытый и объективный стандарт оценки LLM в финансах, который будет развиваться вместе с сообществом.

Спасибо за уделенное нам время!

Скоро вернемся с апдейтами уже по нашим собственным моделям — следите за обновлениями Лаборатории ИИ «Финама». 🚀

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу [email protected] для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.