Заказчиками для ИИ инструментов часто выступают профильные специалисты (от науки или из мира бизнеса), которые не настолько погружены в работу моделей, чтобы леЗаказчиками для ИИ инструментов часто выступают профильные специалисты (от науки или из мира бизнеса), которые не настолько погружены в работу моделей, чтобы ле

Как мы оцениваем качество ИИ с помощью ИИ

2026/02/17 11:59
6м. чтение

Заказчиками для ИИ инструментов часто выступают профильные специалисты (от науки или из мира бизнеса), которые не настолько погружены в работу моделей, чтобы легко оперировать метриками ROC-AUC (способность модели различать классы) или Precision (насколько точными являются положительные предсказания модели). Мы подумали, если большие языковые модели способны разъяснить сложные вещи ― например, смету и планы ― то их вполне можно использовать и для оценки самих систем ИИ. почему бы им не показать, что сами системы ИИ работают хорошо или не очень?

Наша команда разработала инструмент, который позволяет осуществлять оценку и контроль качества моделей ИИ. Он может оценивать качество данных, сравнивать разные модели и потенциал их дообучения, а также подсказывать свои модели с помощью интегрированного инструмента AutoML от наших коллег из Института ИИ ИТМО, экономя время разработки.

В этой статье рассказываем о нашей разработке.

Как создаются ИИ-инструменты

В процессе создания очередного ИИ-инструмента для бизнеса исполнитель работает для заказчика. Он ожидает от заказчика постановку задачи и данные. Как правило, с этим комплектом сначала работает дата-инженер, а потом и дата-сайентист, которые строят модели. Сейчас еще появилась отдельная роль MLOps ― это специалист, отвечающий за автоматизацию процесса развертывания, мониторинга и улучшения моделей ML в производственной среде. На выходе заказчик получает некий сервис и ждет, что результаты этой работы будут для него прозрачными, объяснимыми и масштабируемыми.

Основные вопросы заказчика во время приемки этого сервиса: можно ли полученному решению доверять? Как объяснить происходящее? Что будет с точностью, если мы немного изменим начальные условия?

Как правило, решение не может быть хорошим по всем характеристикам. В зависимости от задачи и акцентов, может страдать масштабируемость, а робастность, наоборот, быть на высоте.

Не так давно вышел государственный стандарт оценки качества систем искусственного интеллекта (ГОСТ Р 59898-2021). Это хороший документ, сосредоточенный в основном вокруг оценки моделей на основе различных метрик качества. Он описывает много разных ситуаций. Но заказчику сложно его применять, потому что документ достаточно сложный для восприятия в силу своей специфики. Для неспециалиста полученный результат все равно требует дополнительной интерпретации, которая выходит за пределы ГОСТа.

Нашей задачей было придумать метод, который поможет оценивать качество предложенного решения по целому спектру характеристик ― быстро и по одним и тем же критериям (как раз опираясь на ГОСТ), а результат представлять пользователю в наглядной и понятной форме, включая описание на естественном языке.

Что мы сделали

Мы разработали максимально автоматизированный инструмент, который хорошо работает для трех сценариев.

  • Оценка датасета. Допустим, у заказчика есть только данные. Мы можем оценить, насколько построенная модель будет хороша для этих данных.

  • Оценка данных и модели. Если есть данные и кем-то разработанная модель, инструмент может оценить, как в реальности будет работать это сочетание.

  • Оценка модели. Если есть модель, условно, скачанная из интернета, и необходимо понять, можно ли применять ее для конкретных задач бизнеса.

На выходе наш инструмент выдает отчет с большим количеством метрик. Они отвечают на вопрос о том, по каким параметрам модель хороша, а по каким ― не очень. На данный момент основные метрики:

  • Устойчивость ― устойчива ли модель ИИ (или система ИИ) при различном добавлении шума к данным.

  • Достоверность ―- насколько модель ИИ предсказывает результаты, соответствующие реальным данным или ожидаемым выводам. Например, для задачи классификации анализируются вероятность предсказания.

  • Эффективность ― сравнение сторонней модели с AutoML и просто базовой моделью (которая строится автоматически).

Мы заложили в инструмент собственное понимание этих шаблонов. Инструмент позволяет представить результат в виде вычислительного графа или пайплайна. Кроме того, нашему инструменту можно задавать вопросы на естественном языке ― что, зачем и почему (какая задача решается, какие данные есть в процедуры оценки и т.п.). Он довольно хорошо ориентируется в подобных базовых вещах.

Пример вычислительного графа, решающего задачу оценки качества классификации
Пример вычислительного графа, решающего задачу оценки качества классификации

С точки зрения реализации наш инструмент ― это чат с большой языковой моделью. Достаточно загрузить туда данные и (или) модель, а также указать характеристики, по которым надо все это оценить.

Мы стараемся поддерживать все стандартные форматы (представления) моделей. Самый удобный формат для нас ― ONNX (Open Neural Network Exchange), он позволяет провести больше экспериментов с моделью. Но также поддерживается и популярный для Python формат Pickle. Это базовый набор форматов, который покрывает большой процент кейсов.

На данный момент мы можем оценивать модели классификации, сегментации и детекции объектов (компьютерного зрения). Здесь мы работаем с шумами, фильтрами и так далее. Языковые модели пока не оцениваются, так как их тесты устаревают с почти той же скоростью, что и выходят новые модели, а это случается чуть ли не каждый день.

Архитектура решения

Решение построено на нашей low-code платформе SMILE, которая разработана и используется в ИТМО (в блоге на Хабре мы уже писали об этом инструменте).

Оценка моделей происходит на базе SMILE. Также для оценки используется ИИ-ассистент, который основан на Llama 3 (современные языковые модели достаточно хорошо понимают формализованный контекст и могут работать как агенты, которые сами строят решение по запросу пользователя). Llama3 в данном случае ― дополнительный инструмент проверки качества, который вызывает набор процедур ― статистическую фильтрацию, бутстрапирование (популярный метод статистической проверки надежности модели) и т.п. Эти процедуры немного варьируют параметры загруженной модели, проверяют ее устойчивость.

На данный момент инструмент ждет от пользователя один из четырех вариантов запросов:

  • по данным;

  • по моделям машинного обучения;

  • по вычислительному графу;

  • общего типа (если пользователь, например, хочет спросить что-то по теории)

Для качественного ответа пришлось сделать отдельный классификатор, который определяет тип запроса. После этого происходит обращение к большой языковой модели с индивидуальным контекстом. Например, если вопрос по данным, то генерируется мета-информация об используемых наборах данных. Если запрос о модели или графе ― то в контекст добавляет мета-информация о графе и используемых моделях.

Также мы интегрировали в свое решение АutoML от наших коллег из NSS Lab (популярная библиотека Fedot, о которой также уже рассказывали на Хабре). Помимо оценки дата-сета в первом сценарии использования, он может сгенерировать базовую модель для классификации, регрессии, прогнозирования и т.п., сэкономив недели разработки и дать заказчику гарантию, что разработчик сделал решение как минимум не хуже, чем стандартные алгоритмы. При этом классы решаемых задач все время расширяются. В настоящий момент поддерживаются следующие классы задач: классификация объектов, классификация временных рядов, регрессия, прогнозирование временных рядов, классификация/сегментация/детекция объектов на изображениях.

Инструмент уже тестировали совместно с заказчиками из индустрии. После тестирования выделили два направления развития. С одной стороны, планируется развивать ИИ-агента, чтобы он взял на себя больше действий пользователя (тестирование показало, что пока логика у инструмента сложная и большинству пользователей надо помогать). С другой стороны, команда будет пополнять инструмент новыми проверками и типами задач. Например, планируется научить выполнять аудит моделей для моделей компьютерного зрения, а не только для табличных данных.

Познакомиться с решением можно по ссылке.

Источник

Возможности рынка
Логотип Advanced
Advanced Курс (AUC)
$0.0001497
$0.0001497$0.0001497
+0.06%
USD
График цены Advanced (AUC) в реальном времени
Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу [email protected] для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.