Компания Meta создала языковую модель искусственного интеллекта, не являющуюся клоном ChatGPT. ИИ сможет распознавать несколько тысяч языков. Об этом сообщает Engadget.
Проект Massively Multilingual Speech (MMS) может распознавать более 4000 разговорных языков и воспроизводить вещание на более чем 1100 языках. Как и большинство других своих публично объявленных проектов в области искусственного интеллекта, Meta предоставляет открытый доступ к MMS, чтобы помочь сохранить языковое разнообразие и поощрить исследователей развивать его на этой основе.
Модели распознавания речи и преобразования текста в речи обычно требуют обучения тысячам часов аудиозаписей с сопроводительными транскрипционными метками. (Метки имеют решающее значение для машинного обучения, позволяя алгоритмам правильно классифицировать и «понимать» данные.) Но для языков, которые не широко используются в индустриально развитых странах – многие из которых находятся под угрозой исчезновения в ближайшие десятилетия, – «этих данных просто не существует», отмечают в Meta.
Meta применила нетрадиционный подход к сбору аудиоданных: прослушивание аудиозаписей переведенных религиозных текстов.
«Хотя содержание аудиозаписей религиозное, наш анализ показывает, что это не влияет на то, что модель продуцирует больше религиозного языка», – пишет Meta. – Мы считаем, что это потому, что мы используем подход коннекционистской временной классификации (CTC), который намного ограничен, как сравнить с большими языковыми моделями (LLM) или моделями последовательности для распознавания речи».
После обучения модели выравнивания, чтобы сделать данные более подходящими для использования, Мета использовала wav2vec 2.0, модель «самоконтролируемого обучения речевого представления», которая может учиться на немаркированных данных. Meta сравнила MMS с Whisper от OpenAI, и результаты превзошли ожидания.
«Мы обнаружили, что модели, обученные данным Massively Multilingual Speech, имеют вдвое меньший процент ошибок в словах, но Massively Multilingual Speech охватывает в 11 раз больше языков».
Meta предупреждает, что ее новые модели не идеальны. «Например, существует определенный риск того, что модель превращения языка в текст может неправильно перевести отдельные слова или фразы», – пишет компания.
Подписывайтесь на наш Тelegram-канал t.me/sudua, на Twitter, а также на нашу страницу в Facebook и в Instagram, чтобы быть в курсе самых важных событий.