Google и консорциум африканских исследовательских институтов запустили датасет WAXAL — масштабную новую инициативу по решению одной из главных проблем искусственного интеллекта (ИИ) на континенте: его неспособности интерпретировать и понимать большинство африканских языков.
Проект предоставляет большой открытый речевой датасет, охватывающий 21 язык Африки к югу от Сахары, и приносит голосовые технологии более чем 100 миллионам людей, исключенных из экономики ИИ.
Датасет WAXAL является результатом трехлетнего сотрудничества, финансируемого Google и возглавляемого местными университетами и общественными группами.
Он включает 1 250 часов транскрибированной естественной речи и более 20 часов студийных записей, направленных на создание высококачественных синтетических голосов. Он охватывает такие языки, как хауса, йоруба, луганда, игбо и ачоли, многие из которых используют десятки миллионов людей, но которые остаются практически невидимыми для коммерческих речевых систем.
Несмотря на все разговоры о глобальном ИИ, голосовые технологии по-прежнему сильно ориентированы на английский язык и узкий круг европейских и азиатских языков. Африка, где насчитывается более 2 000 языков, осталась на обочине.
Этот разрыв не является академическим; он определяет, кто может использовать цифровые услуги, кто может получить доступ к инструментам образования и здравоохранения и кто может создавать компании на базе современных платформ ИИ. Google представил эту работу как шаг к сокращению давно существующего разрыва в данных, который не позволяет многим африканским языкам использоваться в голосовых помощниках и других инструментах.
Помимо прямого решения этого дисбаланса, проект важен не меньше, чем сами данные.
В отличие от предыдущих инициатив, когда африканские речевые данные извлекались и принадлежали другим странам, WAXAL возглавлялся на местах африканскими институтами. Университет Макерере в Уганде, Университет Ганы и Digital Umuganda в Руанде осуществляли сбор данных, взаимодействие с сообществом и управление языковыми ресурсами при технической поддержке Google Research Africa.
Что важно, эти институты сохраняют право собственности на данные. Это заметный сдвиг в области, которую часто критикуют за воспроизведение экстрактивной динамики под знаменем открытости.
По словам Аиши Уолкотт-Брайант, руководителя Google Research Africa: «Конечное влияние WAXAL — это расширение прав и возможностей людей в Африке. Этот датасет обеспечивает критически важную основу для студентов, исследователей и предпринимателей для создания технологий на своих собственных условиях, на своих собственных языках, наконец охватывая более 100 миллионов человек».
«Мы с нетерпением ждем, когда африканские инноваторы будут использовать эти данные для создания всего — от новых образовательных инструментов до голосовых сервисов, которые создают ощутимые экономические возможности по всему континенту», — добавила она.
Аиша Уолкотт-Брайант, руководитель Google Research Africa
Эту позицию разделяют и участвующие университеты. Джойс Накатумба-Набенде, старший преподаватель Университета Макерере, сказала:
«Чтобы ИИ оказал реальное влияние на Африку, он должен говорить на наших языках и понимать наш контекст. Датасет WAXAL предоставляет нашим исследователям высококачественные данные, необходимые для создания речевых технологий, отражающих наши уникальные сообщества. В Уганде он уже укрепил наш местный исследовательский потенциал и поддержал новые проекты под руководством студентов и преподавателей».
В Университете Ганы доцент Исаак Виафе указал на масштаб общественного участия:
«Для нас, в Университете Ганы, влияние WAXAL выходит за рамки самих данных. Он дал нам возможность создавать собственные языковые ресурсы и обучать новое поколение исследователей ИИ. Более 7 000 добровольцев присоединились к нам, потому что хотели, чтобы их голоса и языки принадлежали цифровому будущему. Сегодня эти коллективные усилия вызвали экосистему инноваций в таких областях, как здравоохранение, образование и сельское хозяйство. Это доказывает, что когда данные существуют, возможности расширяются повсюду».
Есть основания для осторожного оптимизма. Открытые речевые датасеты могут снизить барьеры для местных стартапов и исследователей, которым не хватает ресурсов для сбора данных в масштабе. Они также могут снизить зависимость от иностранных API, которые редко хорошо поддерживают африканские языки, если вообще поддерживают.
Датасет WAXAL
Тем не менее, датасеты не гарантируют результатов; создание надежных голосовых систем требует постоянных инвестиций, локального развертывания и коммерческих путей, которые сохраняют ценность внутри страны. Роль Google как спонсора и организатора будет привлекать внимание, особенно в отношении того, как данные WAXAL будут использоваться глобальными компаниями в будущем.
На данный момент выпуск датасета WAXAL знаменует конкретный шаг к более лингвистически инклюзивной экосистеме ИИ. Он не решает проблемы ИИ в Африке, но решает основополагающую проблему. Голос часто является наиболее естественным интерфейсом с технологией. Обеспечение того, чтобы ИИ мог слышать, как говорит Африка, во всем ее разнообразии, давно назрело.
Пост «Google обучает ИИ на 21 африканском языке, включая йоруба, хауса и игбо» впервые появился на Technext.


