Привет!Меня зовут Лилия Урмазова, я работаю QA-инженером уже 25 лет. Если ты в IT давно и поработал на самых разных ролях в самых разных проектах, исчезает ощущПривет!Меня зовут Лилия Урмазова, я работаю QA-инженером уже 25 лет. Если ты в IT давно и поработал на самых разных ролях в самых разных проектах, исчезает ощущ

Как тестировать AI-приложения — бесплатный курс для QA-инженеров

Привет!

Меня зовут Лилия Урмазова, я работаю QA-инженером уже 25 лет.

Если ты в IT давно и поработал на самых разных ролях в самых разных проектах, исчезает ощущение новизны. И когда все-таки появляется что-то принципиально новое, возникает непреодолимое желание в него погрузиться.

Последние пару лет я специализировалась на тестировании в зарубежных AI-стартапах.
А сейчас прокачиваю экспертизу как AI-QA инженер на AI-проекте в известной международной IT-компании.

Бум AI-разработки до русскоязычного рынка пока не дошел, хотя многие использует AI-тулы для работы с тест-кейсами и автотестами. Серьезных AI-проектов мало, а число AI-QA-вакансий можно пересчитать по пальцам одной руки

А вот хайп и ощущение пузыря уже пришли.

Тем не менее есть четыре причины погрузиться во всё это:

Причина 1: Хайп и пузырь, но …

Разумно ли считать AI-индустрию качественным, добротным пузырем?

Несомненно!

  • OpenAI собирается быть рентабельным только в следующем десятилетии. И это, извините, при почти миллиарде еженедельных пользователей.

  • На рынке огромное количество стартапов-оберток. Которые не создают какой-то уникальный функционал, а лишь присобачивают UI к стандартным возможностям AI-модели.

  • Кривая роста качества AI-моделей стала более плоской. И не надо верить бенчмаркам, на которые модели усиленно натаскивают. Прокачавшийся на вопросах к ЕГЭ школьник автоматически не становится интеллектуалом.

Но даже если убрать весь хайп и предположить, что сдутие пузыря рано или поздно произойдет, то AI уже никуда не денется. Как не делся интернет после краха доткомов в начале века.

Есть уже огромное число сфер применения, где AI прочно утвердился. От преддиагностики снимков в медицине и моделирования белков в фармацевтике до антифрода в финансах и мониторинга в тяжелой промышленности.

Да, есть большое число задач, где AI часто попадает впросак. И это большое поле работы для тестировщиков - AI-QA-инженеров.

Причина 2: Тотальный недетерминизм

Тестирование AI-приложений — это действительно интересно. Ведь подходы к обеспечению качества AI-приложений радикально отличаются от классических.

Я часто слышу от коллег и представителей заказчиков вопрос “А как это тестировать?”.
Да, тестирование переходит от уровня простейшей алгебры средней школы к теории вероятности и матстатистике.
Мир контроля качества перестал быть черно-белым, где единственный недетерминированный выбор - это принятие решения о том, можем все-таки идти в прод с текущим набором дефектов или нет.

Теперь результаты тестирования каждой отдельной фичи порождают множество вопросов, на которые сложно найти ответы. Recall 0.9 - это много или мало? Accuracy 0.83 - это нормально?

Больше информации для принятия решения, больше ответственности, больше драйва.

Причина 3: Профессии мутируют

Профессия программиста пока больше меняется по форме, в части вспомогательного инструментария. С точки зрения сути разработки глобально все равно, какое именно API дергать - классическое или AI-ное. Но уже очевидно, что спрос на чистых кодеров будет падать - навык написания синтаксически верного кода обесценивается. Им придется мутировать в программистов-архитекторов.

А вот тестировщикам работы уже прибавилось. Потому что разбираться, почему сейчас это AI-ное API вернуло одно, а потом другое - приходится MLщикам и им.

И здесь происходят очень активные изменения. Я даже не могу сейчас сказать, по какой специальности работаю, так как у нее два наименования.
Одно - AI-QA-Engineer и оно явно имеет корни классического тестирования.
Другое - ML Evaluation Engineer (инженер по оценке ML) и оно предполагает вхождение в качество не с классических QA-основ, а через ML.
По функционалу же я вижу сочетание как классических основ, так и ML-специфики.
Кстати, четкую грань между AI-QA Engineer и ML Evaluation Engineer провести сложно, но вакансия с последним названием будет “стоить” дороже.

В любом случае в перспективах тестирования я пока что не сомневаюсь. Наверняка с течением времени качество и предсказуемость работы AI-моделей вырастет.
Но до тех пор, пока интерфейсом приложений пользуются люди, кому-то из людей все-таки придется проверять, что получилось.

Причина 4: Деньги (или, как минимум, их наличие)

В этом году плотно пообщалась с десятком AI-компаний со всего мира, включая основанных выходцами из Google. И только одна AI-команда была русскоязычной, из крупного банка, и искала AI-QA-инженера на зарплату 500’000 ₽. Да, деньги не запредельные для финтеха - столько может получать и классический сеньор. И да - AI-вакансий на русскоязычном рынке пропорционально на два порядка ниже, чем на англоязычном.

Масштабная AI-разработка рано или поздно дойдет и до русскоязычного рынка. И тогда вначале те, кто обладают необходимыми компетенциями, будут зарабатывать выше среднего. А затем станет вопрос, хватит ли рынка тестирования классических приложений (которой проживет еще не один десяток лет) на всех классических специалистов.

Тестируем пять AI-моделей одновременно и не только

На основе моего практического опыта и опыта коллег мы сделали бесплатный вводный курс по тестированию AI-приложений. Это один из первых именно практических курсов по тестированию AI.

Что из него можно узнать?

  • Как работают AI-приложения, как разрабатываются (MLOps) и чем принципиально отличается их функциональное тестирование. Всё это — на десятках примеров различных AI-приложений.

  • Какие Non-LLM и LLM метрики позволяют на практике убедиться, что AI-приложение работает правильно.

  • Почему нефункциональное AI-тестирование может сэкономить проекту миллионы.

Что благодаря ему можно научиться делать? (потребуется покупка токенов для AI-тренажера)

  • Проводить функциональное тестирование AI-приложения, рассчитывая нужные Non-LLM и LLM-метрики.

  • Делать нефункциональное тестирование - например, состязательное.

  • Создавать AI-приложения с подходом LLM-as-a-Judge (даже если никогда не программировали). И писать для него автотесты (даже если никогда их не писали).

Отдельный увлекательный процесс - это упражнения в AI-тренажере.
Он позволяет выполнять одновременное тестирование сразу пяти АI-моделей:

d01eee6e6c4221b156403b9956e83d89.png

А потом получить ответ от наиболее продвинутой модели (и заодно понаблюдать, как работает LLM-as-a-Judge):

f71cbc719ceafc9a22a604d62077f360.png

Минус только один - бесплатным AI-тренажер не сделать. Функциональность открытых AI-моделей сильно ограничена, а в тренажере приходится использовать самые передовые.

Это именно вводный курс для классических тестировщиков, а не ML-специалистов. Поэтому мы не стали его перегружать — в нем минимум математических формул, а продвинутые техники AI-тестирования (тестирование AI-агентов; моделей, прошедших FineTuning и т.п.) рассматриваются обзорно.

Как всегда, бесплатно и без регистрации

Регистрация нужна только для сохранения прогресса.

Бесплатный курс "Как тестировать AI-приложения"
(при проблемах с доступом)

Сейчас выложили первую часть. Анонсы выхода следующих, тоже бесплатных частей - в телеграм-канале Становимся продвинутым QA.

Всем результативного обучения!

Источник

Возможности рынка
Логотип Sleepless AI
Sleepless AI Курс (AI)
$0.03612
$0.03612$0.03612
-1.76%
USD
График цены Sleepless AI (AI) в реальном времени
Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу [email protected] для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.