В наше время возможности искусственного интеллекта расширяются с каждым днем, и это открывает новые горизонты в области автоматической обработки различных данных. Одной из интересных разработок в этой области является нейронная сеть Whisper JAX от компании OpenAI. С ее помощью теперь можно легко получить текст из любой аудиодорожки всего за несколько кликов. В данной статье мы рассмотрим, как работает этот сервис и как его можно использовать.

Приступим к реализации:
Открываем страницу проекта на Hugging Face, используя прямую ссылку и ожидаем небольшой загрузки:

Получаем текст из любой аудиодорожки

После загрузки сверху можно выбрать один из доступных источников для обработки аудиодорожки. Можно использовать микрофон, готовый аудиофайл или URL—адрес, ведущий на Youtube видео:


К примеру, воспользуемся загрузкой с файла. Нажимаем, чтобы указать путь до необходимого файла или же просто перетаскиваем его в специальное окно:


Выбираем одну из задач, в нашем случае это "transcribe". Помимо этого можно добавить временные метки, для этого ниже есть специальная галочка:


Опускаемся еще немного ниже и нажимаем на кнопку "Исполнить". Ожидаем, время будет зависеть от величины вашего аудиофайла и загруженности сети:


После этого получаем готовую транскрипцию, которую можно сразу же скопировать, используя кнопку в правом верхнем углу:


Процесс с Youtube видео не сильно отличается, вставляем ссылку и повторяем те же действия:


Справа получаем итоговый результат с временными отметками, если они были Вам необходимы:


На этом все, надеюсь статья оказалась для Вас полезной!