Благодаря достижениям науки буддисты скоро смогут прикоснуться к истории своей веры. В Бурятии искусственный интеллект обучают расшифровывать древние тибетские тексты.
Такой инновационный проект - первый в России. Несколько месяцев назад его запустили в институте монголоведения, буддологии и тибетологии СО РАН. Партнерами стали Новосибирский госуниверситет и Центр искусственного интеллекта одной из телекоммуникационных компаний.
Рассказываем, как и зачем машину обучают читать на тибетском, старомонгольском и санскрите.
Драгоценные страницы
«У нас одно из крупнейших в мире и второе в России собрание рукописей и ксилографов (отпечатанных с деревянной доски книг) на тибетском и старописьменном монгольском языках», - рассказывает руководитель Центра восточных рукописей и ксилографов Олег Ринчинов.
В фондах института хранится до 100 тысяч тибетских документов и до 7 тысяч монгольских. Это философская, медицинская, религиозная литература (в том числе канонические своды буддийских сочинений «Ганджур» и «Данджур»). Самые старые из документов датированы XVI веком, а тексты в них еще старше.
И этот интереснейший научный материал доступен очень немногим! Ведь специалистов по тибетскому языку в России считанные единицы, к тому же далеко не все тексты в идеальной сохранности, часто прочесть написанное бывает сложно даже специалистам.
«Тут-то, во время визита в Бурятию президента РАН Александра Сергеева и председателя Сибирского отделения академии Валентина Пармона и родилась идея привлечь к расшифровке текстов машину», - вспоминает Олег Ринчинов.
Пилотный проект длился три месяца. Сначала нужно было выбрать подходящий текст.
«Мы остановились на Чонейском издании «Ганджура» (то есть собрании изречений Будды, изданном в тибетском монастыре Чонэ в 1750-х годах). Это средний по читабельности текст, лучше всего подходящий для обучения машины - говорит сотрудник института, доктор филологических наук Андрей Базаров, – объем, с которым нам пришлось работать, составил около 500 листов».
После этого команда под руководством Андрея Александровича вручную набрала текст. В основном, использовали систему «Вайли», принятую для преобразования тибетского письма в буквы латинского алфавита.
Однако иногда возникали сложности, ведь отдельные фрагменты текста были написаны тибетскими буквами, но не по-тибетски. Например, буддийские мантры – это слова совсем на другом языке (санскрите), которые тибетский автор занес на бумагу по принципу «как слышится, так и пишется». Но в конце концов ученые решили проблему.
Первые в мире
Далее в дело вступили новосибирские «технари». Используя популярный метод глубокого обучения (deep learning), специалисты из НГУ «скормили» искусственному интеллекту 450 листов и набранные вручную расшифровки и научили соотносить одно с другим.
«Работа системы состоит из двух этапов», - объясняет Кирилл Бродт, специалист, обучавший машину, и аспирант университета Монреаля (Канада). – «На первом нейросеть (так называют искусственный интеллект, принцип работы которого подражает работе человеческого мозга) находит на картинке текст, на втором – распознает его. Мне для работы с программой не нужно было ничего знать о тибетском языке кроме того, в каком направлении на нем пишут и читают (слева направо)».
За секунду система способна обрабатывать 2 изображения размером 2000 на 600 пикселей (точек). На само обучение у искусственного интеллекта ушло всего 2 часа (15 минут на то, чтобы научиться находить текст и час сорок пять - чтобы распознавать). А вот согласование проекта, анализ и подготовка данных, другие предварительные процедуры – все это заняло в десятки раз больше времени.
Затем на оставшихся 50 листах проверили успехи компьютера. По итогам пилотного проекта нейросеть, верно распознает на отсканированной странице 94% символов. Чтобы достичь такой точности нейросеть должна была «увидеть» каждый «тренировочный» лист 400 раз.
«Насколько нам известно, - с гордостью говорит Олег Ринчинов, - это первый в мире проект по машинному считыванию тибетских языков. Конечно, 94% - это далеко не идеальный результат, но пилотный проект завершился однозначно успешно!»
Кстати, финансирование проекта было полностью внебюджетное. Теперь проект продлили еще на несколько лет и следующая задача ученых - довести точность распознавания текста до 98-99%.
Правда, каждый следующий процент будет стоить гораздо больше времени и сил. Чтобы увеличить точность с 94 до 95% - понадобится учить нейросеть на дополнительной тысяче примеров, с 95% до 96% - уже на 10 тысячах.
«Чтобы снизить количество примеров, нужно не наращивать точность «грубой силой», а учитывать особенности языка и приспосабливать к ним программу», - говорит Кирилл Бродт.
Но даже и в этом случае, по оценке Андрея Базарова, придется дополнительно отсканировать и набрать 2-3 тысячи страниц.
Зато, когда удастся достичь этого результата, остальные тысячи документов на тибетском языке можно будет просто отсканировать и «скормить» искусственному интеллекту, а тот уже сам превратит их в обычный текст на латинице. А с таким текстом ученый уже может работать. Например, нажатием пары кнопок найти в многостраничной рукописи все места, где упоминается конкретное слово или фраза.
Кроме того, дальнейшим направлением развития проекта может стать соединение этой системы распознавания с программой-переводчиком. Конечно, получившийся «перевод» все-равно придется проверять человеку, ведь в исторических документах многое зависит от контекста. Но все же это откроет старинные тибетские книги и рукописи для гораздо более широкого круга ученых, чем сегодня.
Аналогичный проект планируется реализовать для текстов на старомонгольском языке.