Mozilla представила алгоритм распознавания голоса

Новый инструмент Mozilla распознает речь с точностью, близкой к человеческому слуху. Компания представила алгоритм DeepSpeech с открытым исходным кодом в рамках проекта Common Voice. Владельцы программ и приложений могут бесплатно использовать его для разработки и улучшения своих проектов.

Алгоритм DeepSpeech продемонстрировал впечатляющий показатель ошибок на уровне слов — 6,5%. Это превзошло ожидания создателей, которые изначально ставили порог в 10%, но немного не дотягивает до аналогичной разработки Гугла — алгоритма машинного обучения TensorFlow с показателем ошибок 5,5%.

При создании алгоритма инженеры из Mozilla использовали наработки китайских ученых из корпорации Baidu, а также инструменты, уже реализованные в TensorFlow от Майкрософт.

Цель краудсорс-проекта Common Voice — создание и тестирование эффективных алгоритмов машинного обучения. В настоящее время любой пользователь интернета может внести свой вклад в проект, предоставив образец своего голоса. Сейчас в базе данных Common Voice более 400 000 загруженных образцов речи общей длительностью более 500 000 часов.

Недавно китайская компания SpeakIn объявила о создании голосовой базы на основе искусственного интеллекта. Нейросеть сможет не только отличить человеческую речь от компьютерной, но и определить личность говорившего с точностью до 98%.

Источник: GitHub