(27.04.2024)
Работа по созданию русско-эрзянского онлайн-переводчика ведётся в рамках реализации стратегического проекта "Университет — центр социокультурного развития региона" федеральной программы "Приоритет 2030", которая содействует развитию федерального проекта "Развитие интеграционных процессов в сфере науки, высшего образования и индустрии" и является частью национального проекта "Наука и университеты".
По данным ФАДН (Федеральное агентство по делам национальностей) за 2023 год, онлайн-переводчики разработаны только для 6 из 277 языков народов России: татарского, башкирского, чувашского, марийского, якутского и удмуртского. Переводчик на эрзянский получит широкое применение в системе образования, органах госслужбы при делопроизводстве, национальных СМИ как в регионе, так и в местах компактного проживания мордовского населения за пределами Республики Мордовия. Его разработкой занимаются в Мордовском госуниверситете им. Н. П. Огарёва.
Согласно последней переписи населения России, численность мордвы составляет более 484 тыс. человек. Из них 30% проживают в Мордовии, остальные — расселены по Нижегородской, Ульяновской, Оренбургской, Самарской и Пензенской областям.
Отсутствие цифрового сервиса по мордовским языкам не позволяет в полной мере обеспечивать функционирование эрзянского и мокшанского языков в цифровом пространстве. Разработка онлайн-переводчика на мордовские языки расширит сферу их функционирования, упростит процессы их применения, создаст условия для их сохранения и развития в современных условиях.
Основным инструментом для создания сервиса по переводу является параллельный корпус. Это двуязычные корпуса текстов, имеющие перевод с одного языка на другой. Все тексты в корпусах должны быть выравнены: отдельные фрагменты оригинала должны совпадать с соответствующими фрагментами перевода. На основе корпуса будут созданы наборы обучающих данных вычислительных моделей мордовских языков. Процесс перевода будет моделироваться с помощью нейронной сети.
"На данный момент в параллельном русско-эрзянском корпусе уже собраны выравненные тексты, содержащие около 50 тысяч предложений. В 2023–2024 гг. вуз получил грант в размере 8,5 млн рублей на создание параллельных корпусов мордовских языков — русско-эрзянского и русско-мокшанского", — отметил ректор МГУ им. Н. П. Огарёва Дмитрий Глушко.
Состав и содержание предложений имеет самый разнообразный характер, часто применяется не употребляемая в мордовских языках терминология — это является трудоемкой и сложной переводческой задачей. Предложения собраны из различных источников — художественные тексты, тексты официальных новостей, фразы из разговорников, учебников, научная и техническая терминология.
"Мы создали и запустили чат-бот в мессенджере Телеграм для направления перевода русский-эрзянский. Также в режиме бета-тестирования с коллегами отрабатываем наиболее распространенные ошибки и неточности, вносим правки в модель, учитываем в следующих релизах. Сейчас мы начинаем сбор аудиозаписей на эрзянском языке для решения задач синтеза и распознавания речи. Кроме того, мы собираем и предложения для языковой пары русский-мокшанский, с дальнейшей реализацией такой же модели в виде чат-бота", — отметил разработчик проекта, доцент кафедры фундаментальной информатики, директор лаборатории интеллектуального анализа данных МГУ им. Н. П. Огарёва Артём Андронов.