Как 750 миллионов человек тренируют ИИ каждый день, не подозревая об этом
Мы когда-то предполагали, что ИИ должен наблюдать за нами, чтобы учиться. Федеративное обучение доказывает обратное – и сегодня мы увидим, как это работает, через простые диаграммы.
Прямо сейчас, пока вы это читаете, клавиатура на вашем смартфоне тихо становится умнее.
Я не сказала "учится", я сказала "становится умнее". Есть разница.
Работающая на ИИ и машинном обучении, клавиатура вашего телефона учится на том, как вы печатаете, отслеживая часто используемые слова, поток предложений и даже эмодзи, которые вы добавляете не задумываясь. Со временем она становится настолько точной, что может предсказать, напечатаете ли вы "Вообще-то" или "кстати", прежде чем вы закончите мысль. Это выходит за рамки простого статистического сопоставления паттернов, которое часто предполагается в таких функциях, как Smart Compose.
А теперь другая часть: Google не имеет доступа к содержанию каких-либо сообщений, которые мы печатаем.
Постойте! Что?
Не видя, что вы печатаете, как ИИ улавливает ваши привычки набора текста? Это всё равно что сказать, что вы можете стать концертным пианистом, никогда не слышав музыки, или мастером-поваром, никогда не пробуя еду. Это не должно быть возможным.
Однако каждый день 750 миллионов пользователей Gboard получают персонализированные предсказания, основанные на их собственных паттернах печати – и всё это без отправки единого сообщения на серверы Google.
Это не маркетинговая болтовня. Федеративное обучение – это технологическая инновация, которая незаметно перевернула традиционную парадигму обучения ИИ.
Давайте рассмотрим что-то, что мы все сейчас считаем совершенно нормальным.
Когда Netflix говорит вам "вам может понравиться это шоу", это не магия. Каждый раз, когда вы что-то смотрите, ставите эпизод на паузу, останавливаетесь на полпути или даже задерживаете курсор на названии на пару секунд – эта информация отправляется обратно в Netflix. Вся она. Со временем это создаёт довольно детальную картину того, как вы смотрите телевизор, а не просто что вы смотрите.
Они делают это для каждого пользователя. Затем они смешивают всё это поведение вместе и используют для обучения рекомендательной системы. Вот почему вы видите предложения вроде "Поскольку вы смотрели Древние, вам может понравиться Наследие".
Spotify работает так же. Amazon тоже. Почти каждый сервис, который заявляет о "персонализации" вашего опыта. Сделка проста: вы отдаёте им свои данные, а они дают вам удобство. Вы так привыкли к этому обмену, что он практически не регистрируется.
В 2016 году команда исследователей Google задала обманчиво простой вопрос: А что, если мы перевернём всё с ног на голову?
Вместо того чтобы приносить данные к модели, что если мы принесём модель к данным?
Традиционный ИИ похож на шеф-повара, который требует, чтобы каждый домашний повар в городе принёс свои ингредиенты в его ресторан. Он изучает всё, ведёт подробные записи о том, что у каждого есть, и использует все эти ингредиенты для совершенствования своих рецептов. Он учится, но он также точно знает, что было в вашей кладовой.
Федеративное обучение – другое. Шеф-повар публикует свой текущий рецепт. Каждый домашний повар пробует его на своей кухне, делает небольшие улучшения на основе своих собственных ингредиентов и вкуса, затем отправляет обратно заметки: "Добавьте щепотку соли" или "Уменьшите время приготовления на 3 минуты". Повар никогда не видит, что у вас на кухне – он просто получает сотни небольших корректировок рецепта, объединяет их и публикует улучшенную версию.
Предположим, вы работаете врачом в бостонской больнице. Используя многолетние данные пациентов, вы создали модель ИИ, которая может выявлять пациентов с высоким риском сердечных приступов. Она чрезвычайно точна и имеет потенциал спасти тысячи жизней. Допустим, больница в Токио хочет использовать ваши наработки для улучшения своей модели, и вы также хотите учиться на их данных.
Вы не можете. Это противозаконно. GDPR в Европе, правила HIPAA в США и аналогичные законы по всему миру говорят одно и то же: данные пациентов не могут покинуть больницу. Закон ясен, даже если обе больницы хотят сотрудничать и это спасло бы жизни. Информация остаётся неизменной.
Это делает вещи невозможными. Для эффективного обучения ИИ требуются разнообразные данные. Однако законы (справедливо) запрещают собирать данные в одном месте. Прогресс останавливается.
Если только мы не применим технику вроде федеративного обучения.
Давайте пройдёмся точно по тому, как это работает на практике, шаг за шагом:
Как обучать модели машинного обучения на приватных данных, никогда не собирая эти данные – это очень конкретная проблема, которую федеративное обучение стремится решить.
Ослабление правил конфиденциальности или создание новых юридических лазеек – не ответы. Цель – изменить среду, в которой происходит обучение.
Сервер отправляет общую модель на устройства пользователей, а не собирает данные всех на центральном сервере. После этого каждое устройство обучает эту модель локально, используя свои собственные приватные данные. Только обучение покидает устройство, не данные.
На практике рабочий процесс выглядит так:
Сервер отправляет начальную модель на множество устройств. Каждое участвующее устройство получает одну и ту же стартовую модель.
Каждое устройство обучает модель на своих собственных приватных данных. Сообщения, фотографии, голосовые клипы и другая чувствительная информация остаются полностью на устройстве.
Обратно отправляются только обновления модели – не сырые данные. Устройства возвращают небольшие, абстрактные обновления, которые описывают, как модель должна измениться, а не что содержали данные.
Сервер агрегирует эти обновления в новую глобальную модель. Индивидуальные вклады объединяются, усредняются и анонимизируются для создания улучшенной версии модели.
Эта процедура повторяется многократно. Без просмотра каких-либо пользовательских данных глобальная модель становится лучше с каждым циклом.
Как работает агрегация: Что-то тонкое происходит, когда сервер агрегирует обновления от тысяч устройств. В то время как общие структуры усиливаются, индивидуальные особенности и личные привычки взаимно нейтрализуются. Единичная опечатка превращается в статистический шум. Общие паттерны сохраняются. Когда многочисленные независимые наблюдения усредняются вместе, появляются последовательные паттерны – вот почему модель сходится, а не потому, что она видела чьи-то данные.
Тот факт, что каждый участник сохраняет полное владение своими данными, – вот что делает эту стратегию столь эффективной. Каждое устройство использует свой собственный набор данных для обучения; он никогда не загружается, не изучается и не хранится где-либо ещё. Однако в совокупности этих дискретных обучающих сигналов достаточно для обучения чрезвычайно точных моделей.
Есть дополнительное, часто игнорируемое преимущество. Большая часть вычислительной работы передаётся на устройства пользователей через федеративное обучение. Следовательно, большая вычислительная инфраструктура, необходимая для централизованного обучения, больше не нужна центральному серверу. Вместо того чтобы быть сконцентрированным, интеллект распределён.
Основной принцип федеративного обучения: "учиться везде, не собирать нигде".
Давайте не будем предполагать ни на секунду, что только потому, что вы не загружаете свои данные на чужой сервер, вы в безопасности. Хакеры всё ещё потенциально могут восстановить данные на основе этих градиентных обновлений и увидеть что-то из паттернов в этих числах.
При этом федеративное обучение имеет шесть различных защит, каждая из которых помогает защититься от разного типа атак. Эти защиты работают вместе таким образом, что атакующий должен пробить все шесть, чтобы получить доступ к защищённым данным.
1. Локальное обучение
Легко увидеть, насколько важен этот начальный щит: всё обучается на вашем устройстве – на вашем телефоне, ноутбуке или умном устройстве, где бы ни находилась модель, там она и обучается. Сырые данные (такие как ваши сообщения, фотографии или голосовые клипы) не включены в обучающий пайплайн, который соединяется с интернетом.
Это не просто лучшая практика, это фундамент: если данные никогда не покидают устройство, их невозможно перехватить, украсть или раскрыть во время передачи.
2. Отсечение градиентов
Допустим, кто-то постоянно вводит необычную фразу с высокой частотой. Если они отправят свои градиентные обновления модели как есть, без изменений, они окажут несоразмерное влияние на глобальную модель. Кроме того, аналитик, просматривающий все агрегированные градиентные обновления, может заметить этот уникальный паттерн и заключить, что пользователь набрал эту фразу тысячи раз, чтобы отравить модель.
Чтобы решить эту проблему, было внедрено отсечение градиентов для предотвращения этой проблемы. С отсечением градиентов градиентное обновление каждого пользователя ограничено фиксированным количеством (думайте об этом как о том, что "я могу сильно что-то чувствовать, но в этой системе мой голос никогда не будет считаться больше чем X"). В результате это ограничивает вклад любого отдельного пользователя от подавления влияния множества пользователей, тем самым значительно сокращая поверхность атаки для возможной реконструкции уникальной фразы(фраз), используемой атакующим.
3. Безопасная агрегация
Отдельные градиентные обновления могут всё ещё раскрывать информацию даже с отсечением. Поэтому метод, известный как безопасная агрегация, используется для их шифрования перед передачей.
Ваш телефон шифрует свои градиенты, используя ключ, который может быть использован только в сочетании с ключами от сотен других телефонов, что делает этот процесс уникальным. Все эти зашифрованные обновления отправляются на сервер, который может вычислить среднее значение, но не может расшифровать какой-либо из индивидуальных вкладов.
Подобно тайному голосованию, даже если вы тот, кто считает, вы можете видеть только общее количество поданных голосов.
Тщательно откалиброванный случайный шум добавляется к данным дифференциальной приватностью. Это точно рассчитанный шум, а не случайный хаос, который делает математически невозможным определить, содержал ли обучающий набор данные какого-либо конкретного человека.
4. Шум дифференциальной приватности
Атакующий с неограниченной вычислительной мощностью, который изучает модель и до, и после вашего вклада, не может определить, что вы участвовали, делая гарантию формальной и проверяемой. Облако статистической неопределённости скрывает ваш вклад.
Математическая красота следующего шага приходит, когда кто-то пробивает все щиты и может видеть ваши индивидуальные градиенты. Даже на этом этапе они не узнают ничего полезного из-за дифференциальной приватности.
5. Защита на уровне пользователя
Большинство реализаций включают дополнительный уровень, известный как дифференциальная приватность на уровне пользователя. Это защищает все ваши данные в целом, а не только конкретные точки данных. Общая потеря приватности ограничена, даже если вы отправляете несколько обновлений с течением времени.
Это похоже на установку пожизненного лимита на количество персональных данных, которые когда-либо могут быть раскрыты, независимо от того, как долго вы используете сервис.
6. Узкое место агрегации
По сути, сервер регистрирует только агрегированные обновления от многих пользователей одновременно, никогда не обрабатывая обновление каждого пользователя индивидуально как изолированное событие. Агрегирование множественных обновлений также создаёт эффект естественного узкого места, где детали, связанные с любой отдельной информацией, тонут в океане агрегированной активности пользователей.
Вместе эти шесть щитов создают нечто замечательное: систему, где ваше устройство вносит вклад в улучшение глобальной модели, но модель не узнаёт ничего конкретно о вас. Математика работает. Приватность сохраняется.
Шесть уровней защиты звучат впечатляюще в теории. Но что это значит на практике? Понимание того, как разные подходы к ИИ обрабатывают приватность, становится критически важным навыком. Сервисы вроде BotHub дают возможность экспериментировать с различными моделями ИИ, каждая из которых использует свой подход к обработке данных и обучению.
Для доступа не требуется VPN, можно использовать российскую карту.
Федеративное обучение показывает, что приватность и интеллект не исключают друг друга. Испытайте это на практике.
Федеративное обучение – это не просто теория, оно уже работает в продуктах, которые вы используете каждый день.
GBoard от Google предсказывает ваше следующее слово, обучаясь на миллионах устройств, никогда не видя ваших сообщений. QuickType от Apple улучшает автокоррекцию на iPhone, сохраняя каждое текстовое сообщение на вашем устройстве. Больницы по всей Европе используют федеративное обучение для обнаружения COVID-19 по рентгеновским снимкам грудной клетки, обучая модели ИИ на данных пациентов, которые никогда не покидают каждую больницу. Финансовые институты сотрудничают для обнаружения паттернов мошенничества, не делясь конфиденциальными записями транзакций.
Технология переместилась из исследовательских статей в реальное развёртывание. Вопрос теперь не в том, работает ли она – а в том, насколько широко она распространится.
Рассмотрим опухоли мозга. Даже опытные эксперты испытывают трудности с правильным выявлением глиобластомы, агрессивного типа рака мозга, по МРТ-снимкам. Модели ИИ могут помочь в сегментации и обнаружении, но только если они обучены на обширных и разнообразных наборах данных.
В этом и состоит сложность. Данные МРТ мозга рассеяны по больницам по всему миру. Снимки пациентов не могут быть переданы или сохранены в одном месте из-за законов вроде GDPR и HIPAA, и каждая больница может иметь лишь определённое число случаев.
Федеративное обучение предлагает другой подход.
Больницы используют свои собственные данные для локального обучения общей модели, вместо отправки МРТ-снимков на центральный сервер. Фотографии пациентов никогда не покидают больницу; только обновления модели отправляются для агрегации.
Около 2020 года исследования показали, что сегментация опухолей мозга через несколько институтов может быть достигнута через федеративное обучение. Эти исследования продемонстрировали, что федеративные модели показывали результаты наравне с централизованно обученными моделями, сохраняя при этом все данные пациентов локально.
Вывод прост: ИИ для здравоохранения, сохраняющий приватность, практически достижим благодаря федеративному обучению, которое позволяет медицинским учреждениям работать вместе над моделями ИИ без обмена конфиденциальными данными пациентов.
Федеративное обучение не работает как магия. Хотя оно решает реальные проблемы приватности, оно также создаёт новые сложности.
Узкое место в коммуникации
Отправка обновлений модели между устройствами и серверами на регулярной основе необходима для федеративного обучения. Хотя каждое обновление крошечное, обучение часто требует сотен раундов, что со временем приводит к существенной передаче данных. Пользователи с ограниченными тарифами данных испытывают трения в результате, и крупномасштабная координация становится чрезвычайно сложной. Сложность системы приходит за счёт приватности.
Вариативность устройств
Не каждое устройство создано равным. Телефоны различаются по подключению, времени работы батареи и аппаратному обеспечению. Федеративное обучение может происходить только когда устройства находятся в режиме ожидания, заряжаются и подключены к Wi-Fi – условия, которые многие устройства едва ли когда-либо соблюдают. Из-за этого модели могут учиться в основном на устройствах, которые хорошо обслуживаются и подключены, что может привести к смещённым результатам.
Атаки отравления
Выявить вредоносные обновления сложнее, потому что федеративное обучение никогда не видит сырых данных. Защита намного сложнее, чем в централизованных системах, потому что атакующие могут отправлять тонко испорченные градиенты, которые постепенно ухудшают поведение модели на протяжении нескольких раундов обучения.
Слепая отладка
Инженеры могут изучить данные в случае отказа централизованной модели. В федеративном обучении они не могут. Отладка становится намного сложнее, когда что-то идёт не так, потому что трудно сказать, является ли это системной ошибкой, атакой или реальным поведением пользователя.
На данный момент большинство практических систем федеративного обучения концентрируются на относительно конкретных задачах, таких как лёгкая персонализация, распознавание речи и предсказание клавиатуры. Однако более крупный вопрос заключается в том, можно ли применить эти концепции к фундаментальным моделям, таким как большие языковые модели.
Преимущества ясны в теории. Без того чтобы записи пациентов когда-либо покидали свой источник, медицинская языковая модель могла бы учиться на клинических обсуждениях в многочисленных больницах. Сохраняя конфиденциальность дел, юридический ассистент мог бы улучшаться, используя инсайты из нескольких юридических фирм.
Исследователи активно изучают это направление. Федеративная тонкая настройка больших трансформерных моделей была продемонстрирована в недавних работах, особенно в сочетании с методами, такими как компрессия моделей и параметрически эффективные обновления.
Коммуникация – основной барьер. Большие модели состоят из миллиардов параметров, и регулярный обмен обновлениями обходится дорого. В настоящее время это ограничивает федеративные подходы частичной тонкой настройкой или меньшими моделями. Однако техники, эффективные по обновлениям, и компрессия быстро развиваются.
Хотя полностью федеративное обучение моделей масштаба GPT пока невозможно, предварительные исследования указывают на то, что гибридные и специфичные для домена развёртывания могут скоро стать возможными.
Сегодня миллионы личных устройств используются в большинстве кросс-девайсных систем федеративного обучения. Однако другой подход становится более популярным: кросс-силосное федеративное обучение, при котором несколько организаций работают вместе без обмена сырыми данными.
Это делает возможным то, что иначе было бы невозможно. Без раскрытия информации о клиентах банки могут улучшить обнаружение мошенничества. Распределённые клинические испытания могут обучать фармацевтические компании без раскрытия данных участников. Конфиденциальная деловая информация может сохраняться, в то время как конкуренты работают вместе над общими модельными основами.
В реальности кросс-силосное федеративное обучение снижает конкурентные и регуляторные препятствия для кооперации. В ситуациях, где централизация данных была бы неприемлемой с юридической или коммерческой точки зрения, оно позволяет организациям сотрудничать.
Регулирование федеративного обучения всё ещё уточняется. Регуляторы интерпретируют соответствие по-разному в разных секторах и регионах, даже несмотря на то, что стратегии вроде безопасной агрегации и локального обучения согласуются с концепциями вроде минимизации данных.
Тем не менее, импульс нарастает. Федеративное обучение становится всё более широко признаваемым регуляторами и политиками как действительная стратегия сохранения приватности, особенно в финансовой индустрии и здравоохранении. Несмотря на отсутствие полностью стандартизированных фреймворков, пилотные программы и регуляторные руководства начинают появляться.
Это важно, потому что ясное регуляторное руководство ускоряет принятие. Когда ожидания соответствия ясны, организации гораздо более склонны инвестировать.
Федеративное обучение имеет тревожный потенциал повысить общее потребление энергии – факт, который часто игнорируется. Повторные вычисления, потребление батареи и сетевые коммуникации умножаются в масштабе при обучении через множество устройств.
В отличие от централизованного обучения, федеративное обучение вводит новые энергетические компромиссы, но это не означает, что оно по своей сути неэффективно. Этот вопрос будет изучаться более пристально по мере роста озабоченности устойчивостью.
Для решения этого потребуется лучшее планирование, оптимизация с учётом аппаратного обеспечения и более эффективные алгоритмы обучения. Снижение стоимости начинается с признания её.
Не зная об этом, вы уже участвуете в федеративном обучении.
Каждый раз, когда ваш телефон организует ваши фотографии, распознаёт ваш голос или предлагает слово, он, возможно, изучил это поведение через федеративное обучение – не из ваших данных конкретно, а из объединённых паттернов миллионов пользователей, таких же как вы.
Технология демонстрирует ключевой момент: компромисс между приватностью и персонализацией никогда не был неизбежным. Не потому что это был единственный вариант, а потому что это было проще всего, мы выбрали следовать ему.
Вот что будет иметь значение в будущем.
Мы можем в конечном итоге преодолеть ложную дихотомию между интеллектуальным ИИ и индивидуальной приватностью, если федеративное обучение станет нормой. Без накопления данных компании могли бы создавать интеллектуальные системы. Больницы могли бы работать вместе над ИИ, не предавая доверие своих пациентов. Ваши устройства могли бы становиться умнее без наблюдения.
Если этого не произойдёт – если компании продолжат использовать централизованную модель, потому что это проще, – мы продолжим обменивать наши данные на удобство, одно приложение за раз, притворяясь, что принимаем это.
Курс, который мы выберем, определит следующие десять лет ИИ.
Давайте вернёмся к тому, с чего начали: ваша клавиатура учится на вашей печати, при этом Google не читает ваших сообщений.
На протяжении большей части истории интернета мы принимали базовую сделку – отдавать свои данные в обмен на персонализацию. Это казалось неизбежным. Как ещё ИИ мог бы учиться от нас, не наблюдая за нами?
Федеративное обучение показывает, что эта сделка никогда не требовалась. Это был просто самый лёгкий путь, а не единственный.
Поразительно не только техническое достижение – хотя координация обучения через миллионы несогласованных устройств без сбора сырых данных впечатляет. Поразительно смещение мышления.
ИИ не требует наблюдения. Интеллект не требует вторжения в приватность. Системы могут учиться на человеческом поведении, при этом уважая человеческое достоинство.
Это имеет значение далеко за пределами клавиатур и смартфонов. По мере того как системы ИИ начинают влиять на здравоохранение, финансы, право и государственные услуги, то, как они учатся, становится столь же важным, как и то, что они могут делать. Хотим ли мы моделей, обученных путём централизации чувствительных данных в массивных приманках? Или систем, обученных федеративно, где знание извлекается, но информация остаётся распределённой?
"Будущее ИИ – не централизованные серверы, накапливающие данные. Это распределённый интеллект, обучающийся на коллективных паттернах, уважая при этом индивидуальную приватность."
Мы находимся в точке перелома. Следующее поколение систем ИИ либо последует старой модели – собирать всё, централизовать всё, обещать защищать всё, – либо новой: учиться везде, агрегировать осторожно и доказывать приватность математически.
Выбор – не просто технический. Он определяет отношения, которые мы хотим между технологией и человечеством.
В следующий раз, когда ваша клавиатура точно предскажет ваше следующее слово, остановитесь и задумайтесь. Она научилась, не читая ваших сообщений. Ей не потребовался доступ к вашим личным чатам. Нужна была только лучшая математика.
Это больше, чем просто удивительная инженерия. Это пример того, что может произойти, если мы откажемся принимать наблюдение как цену интеллекта.
Федеративное обучение демонстрирует, что ИИ может уважать приватность как принцип дизайна, а не как компромисс.
Строить это будущее стоит того.
Источник


