Развитие машинного перевода

Март 1, 2021

Главная
Информатика
Развитие машинного перевода

Содержание

2. Машина Троянского В 1933 году Советский ученый Пётр Троянский обращается в Академию Наук СССР с изобретённой
4. Машинный перевод на основе правил — Rule-based Machine Translation (RBMT)
5. Среди плюсов RBMT отмечают морфологическую точность (не путает слова), воспроизводимость (все переводчики получат одинаковый результат) и
6. Машинный перевод на примерах — Example-based Machine Translation (EBMT) Основной приницп: А что если не пытаться
7. Статистический машинный перевод — Statistical Machine Translation (SMT)
9. Статистический перевод по словам — Word-based SMT Model 1: мешок слов Классический подход — делим всё
10. Model 2: учёт порядка слов в предложении Отсутствие знаний о порядке слов в языках стало проблемой
11. Model 3: добавление отсутствующих слов Часто при переводе появляются новые слова, которых не было в оригинальном
12. Статистический перевод по фразам — Phrase-based SMT Для обучения он разбивал текст не только на слова,
13. Нейронный машинный перевод — Neural Machine Translation (NMT) Помните приложение Prisma, которое обрабатывало фото в стиле
14. Первая нейросеть умеет только кодировать предложение в набор цифр-характеристик, а вторая только декодировать их обратно в
15. RNN сейчас применяют в: распознавание речи в Siri , подсказки слов на клавиатуре , генерация музыки
16. Google Translate (2016) В 2016 году Google включил нейронный перевод девяти языков между собой, в 2017
17. Яндекс Переводчик (2017) Яндекс запустил свой нейросетевой перевод в 2017 году. Главным отличием они заявили гибридность.
19. Скачать презентацию

Слайд 2

Машина Троянского
В 1933 году Советский ученый Пётр Троянский обращается в Академию Наук

СССР с изобретённой им «машиной для подбора и печатания слов при переводе с одного языка на другой». Машина была крайне проста: большой стол, печатная машинка с лентой и плёночный фотоаппарат. На столе лежали карточки со словами и их переводами на четырёх языках. Машина Троянского впервые на практике реализовала тот самый «промежуточный язык» (interlingua).

Слайд 3

Слайд 4

Машинный перевод на основе правил — Rule-based Machine Translation (RBMT)

Слайд 5

Среди плюсов RBMT отмечают морфологическую точность (не путает слова), воспроизводимость (все переводчики

получат одинаковый результат) и возможность обучить специальным терминам под предметную область.
Минусы:
исключения из правил языка - неправильные глаголы в английском, плавающие приставки в немецком, суффиксы в русском
омонимия. Одно и то же слово может иметь разный смысл зависимости от контекста, а значит отличается и его перевод.

Слайд 6

Машинный перевод на примерах — Example-based Machine Translation (EBMT)
Основной приницп: А что

если не пытаться каждый раз переводить заново, а использовать уже готовые фразы?

Слайд 7

Статистический машинный перевод — Statistical Machine Translation (SMT)

Слайд 8

Слайд 9

Статистический перевод по словам — Word-based SMT
Model 1: мешок слов
Классический подход —

делим всё на слова и считаем статистику. Никакого учёта порядка или перестановок. Из хитростей Model 1 умела разве что переводить одно слово в несколько. Der Staubsauger (пылесос) легко превращался в Vacuum Cleaner, но обратно уже как повезет.

Слайд 10

Model 2: учёт порядка слов в предложении
Отсутствие знаний о порядке слов в

языках стало проблемой для Model 1. В некоторых он очень важен. Потому в Model 2 стали запоминать на каком месте появляется в переведённом предложении. Добавили промежуточный шаг — после перевода машина пыталась переставить слова местами так, как она думала будет звучать более естественно.

Слайд 11

Model 3: добавление отсутствующих слов
Часто при переводе появляются новые слова, которых не

было в оригинальном тексте. В немецком языке внезапно вылезают артикли, в английском вставляют глагол do где не попадя. «Я не хочу хурмы» → «I do not want persimmons. Чтобы решить эту проблему в Model 3 добавили два промежуточных шага:
Вставка маркеров (NULL-слов) на те места, где машина подозревает необходимость нового слова
Подбор нужного артикля, частицы или глагола под каждый маркер

Model 4: перестановки слов
Model 2 хоть учитывала порядок слов в предложении, но ничего не знала про перестановки слов между собой. Часто при переводе надо, например, поменять существительное и прилагательное местами. Тут сколько ни запоминай их порядок по всему предложению — лучше не станет. Потому в Model 4 стали учитывать еще и так называемый «относительный порядок». Если при переводе два слова постоянно менялись друг с другом — модель это запоминала.

Слайд 12

Статистический перевод по фразам — Phrase-based SMT
Для обучения он разбивал текст не

только на слова, но и на целые фразы. Точнее N-граммы или фраземы — пересекающиеся наборы из N слов подряд. Машина училась переводить устойчивые сочетания слов, что заметно улучшило точность.

Слайд 13

Нейронный машинный перевод — Neural Machine Translation (NMT)
Помните приложение Prisma, которое обрабатывало

фото в стиле известного художника? Там не было особой магии — нейросеть обучили распознавать картины художника, а потом «оторвали» последние слои, где она принимает решение. Получившиеся наброски, по сути промежуточное представление сети, и было той самой стилизованной картинкой.

Слайд 14

Первая нейросеть умеет только кодировать предложение в набор цифр-характеристик, а вторая только

декодировать их обратно в текст. Обе понятия не имеют друг о друге, каждая знает только свой язык.

Слайд 15

RNN сейчас применяют в: распознавание речи в Siri , подсказки слов на

клавиатуре , генерация музыки и даже чатботы.

Слайд 16

Google Translate (2016)
В 2016 году Google включил нейронный перевод девяти языков между

собой, в 2017 был добавлен и русский. Google разработал собственную систему под нехитрым названием Google Neural Machine Translation (GNMT), состоявшую аж из 8-слойного RNN на входе и такого же на выходе и системы согласования контекста под названием Attention Model.

Слайд 17

Яндекс Переводчик (2017)
Яндекс запустил свой нейросетевой перевод в 2017 году. Главным отличием

они заявили гибридность. Переводчик Яндекса переводит предложение сразу двумя методами — статистическим и нейросетевым, а потом с помощью их любимого алгоритма CatBoost находит наиболее подходящий.

Развитие машинного перевода

Содержание

Машина ТроянскогоВ 1933 году Советский ученый Пётр Троянский обращается в Академию Наук

Машинный перевод на основе правил — Rule-based Machine Translation (RBMT)

Среди плюсов RBMT отмечают морфологическую точность (не путает слова), воспроизводимость (все переводчики

Машинный перевод на примерах — Example-based Machine Translation (EBMT)Основной приницп: А что

Статистический машинный перевод — Statistical Machine Translation (SMT)

Статистический перевод по словам — Word-based SMTModel 1: мешок словКлассический подход —

Model 2: учёт порядка слов в предложенииОтсутствие знаний о порядке слов в

Model 3: добавление отсутствующих словЧасто при переводе появляются новые слова, которых не

Статистический перевод по фразам — Phrase-based SMTДля обучения он разбивал текст не

Нейронный машинный перевод — Neural Machine Translation (NMT)Помните приложение Prisma, которое обрабатывало