Петербургские ученые разработали систему распознавания карельской речи

ФОТО Javier Quesada on Unsplash
В России около полутора сотен языков и диалектов, но большинство из них под угрозой исчезновения. Один из таких исчезающих — карельский язык. Сегодня на нем говорят около 30 тыс. человек в мире (из них 25 тыс. живут в России), но в повседневной жизни используют от силы 5 – 7 тыс. человек.
Специалисты Санкт-Петербургского федерального исследовательского центра РАН (СПб ФИЦ РАН) создали программный комплекс, который по аудиоматериалам позволяет распознать ливвиковское наречие языка, оно распространено на юге и юго-западе Карелии. «Создание системы распознавания карельской речи — один из способов если не возродить, то хотя бы задокументировать этот язык», — рассказывает старший научный сотрудник СПб ФИЦ РАН Ирина Кипяткова.

Было непросто: нейросети обучаются на материалах, а на карельском крайне мало электронных данных — текстов, аудиозаписей, словарей. Обучали на материалах карельской периодики, текстах из открытого корпуса вепсского и карельского языков ВепКар, на других открытых письменных источниках. Кроме того, на двух наборах данных разговорной речи: из радиопередач «Родной берег» ГТРК «Карелия» и записи карельской речи: помогали ученые из Карельского научного центра РАН.
«Кроме нашей системы в мире есть лишь одна модель, поддерживающая карельский язык, — отмечает Ирина Кипяткова. — Однако она является многоязычной, ее обучение базировалось на очень небольшом объеме данных, что существенно снижает точность распознавания именно карельской речи».
В перспективе систему можно будет применять для автоматического стенографирования речи на карельском языке — например, для расшифровки аудиоархивов и устной карельской речи. Кроме того, она может стать инструментом для автоматизации лингвистических исследований культур коренных народов РФ.
Читайте также:
Пингвины в далёком оазисе. Учёные завершили масштабные исследования в Антарктиде
Материал опубликован в газете «Санкт-Петербургские ведомости» № 88 (7910) от 20.05.2025 под заголовком «Как это по‑карельски?».
Комментарии