Студентка НГУ разработала алгоритм машинного перевода с русского языка на бурятский 
Выпускница бакалавриата Института интеллектуальной робототехники НГУ Дари Батурова в ходе выполнения выпускной квалификационной работы создала русско-бурятский и русско-монгольский параллельный корпус
Параллельный корпус — собрание текстов на одном языке вместе с переводом на другой язык. Он состоит из пар текстов на двух языках — оригинал и перевод. Помимо этого параллельный корпус может состоять из пар отдельных предложений.
Также она обучила две модели для русско-бурятского перевода и сравнила их с лучшей моделью из ранее существовавших для данной задачи. Выяснилось, что по результатам оценки, одна из моделей, обученных молодой исследовательницей, превзошла другие существующие ранее аналоги.
— Основная сложность состояла в том, что бурятский язык является малоресурсным. В онлайн-переводчиках он не представлен. В Интернете можно найти разве что электронные словари или разговорники. По этой причине собрать данные для создания параллельного корпуса было затруднительно. Молодежь не выражает сильной заинтересованности в сохранении и продвижении бурятского языка, передача его из поколения в поколение, к сожалению, происходит все реже. Согласно переписи населения России, в 2002 году 79% бурят указали, что владеют бурятским языком, в 2020 же году – 63%. А между тем бурятский язык внесен в «Атлас языков мира, находящихся под угрозой исчезновения» ЮНЕСКО со статусом «есть угроза исчезновения», — пояснила Дари Батурова.
Девушка убеждена, что для сохранения и продвижения бурятского языка необходимо внедрить его в цифровое пространство. Машинный перевод представляет собой один из способов цифровизации, но из-за ограниченности данных на бурятском языке возникает такая проблема, как сдвиг данных. Сдвиг данных происходит, когда модель машинного перевода обучается на наборе данных, который не охватывает все особенности семантики, лексики и синтаксиса данного языка, из-за чего модель может выдавать неточный перевод. Для решения данной проблемы необходимо исследовать методы оценивания неопределенности нейросетевой модели для обнаружения некорректных переводов.
Подробнее читайте на нашем сайте: https://www.nsu.ru/n/media/news/nauka/studentka-ngu-r..

Выпускница бакалавриата Института интеллектуальной робототехники НГУ Дари Батурова в ходе выполнения выпускной квалификационной работы создала русско-бурятский и русско-монгольский параллельный корпус

Параллельный корпус — собрание текстов на одном языке вместе с переводом на другой язык. Он состоит из пар текстов на двух языках — оригинал и перевод. Помимо этого параллельный корпус может состоять из пар отдельных предложений.
Также она обучила две модели для русско-бурятского перевода и сравнила их с лучшей моделью из ранее существовавших для данной задачи. Выяснилось, что по результатам оценки, одна из моделей, обученных молодой исследовательницей, превзошла другие существующие ранее аналоги.
— Основная сложность состояла в том, что бурятский язык является малоресурсным. В онлайн-переводчиках он не представлен. В Интернете можно найти разве что электронные словари или разговорники. По этой причине собрать данные для создания параллельного корпуса было затруднительно. Молодежь не выражает сильной заинтересованности в сохранении и продвижении бурятского языка, передача его из поколения в поколение, к сожалению, происходит все реже. Согласно переписи населения России, в 2002 году 79% бурят указали, что владеют бурятским языком, в 2020 же году – 63%. А между тем бурятский язык внесен в «Атлас языков мира, находящихся под угрозой исчезновения» ЮНЕСКО со статусом «есть угроза исчезновения», — пояснила Дари Батурова.


2780