8

Март 6, 2021

Содержание

2. Постморфологический анализ =предсинтаксический анализ Предназначен для устранения морфологической омонимии (многозначности) слов Выбор правильной леммы Уточнение морфологических
3. Набор состояний: Процесс движется от одного состояния к другому, порождая последовательность состояний : Свойство марковской цепи:
4. Два состояния : ‘Rain’ и ‘Dry’ Вероятности переходов: P(‘Rain’|‘Rain’)=0.3 , P(‘Dry’|‘Rain’)=0.7 , P(‘Rain’|‘Dry’)=0.2, P(‘Dry’|‘Dry’)=0.8 Исходные вероятности:
5. По свойству марковской цепи, вероятность последовательности состояний может быть найдена по формуле Предположим, мы хотим подсчитать
6. Скрытые марковские модели Множество состояний: Процесс движется от состояния к состоянию : Выполняется свойство марковской цепи:
7. Dry 0.6 0.6 0.4 0.4 Пример скрытой марковской модели
8. Два состояния: ‘Низкое’ and ‘Высокое’ атм. давление. Два наблюдения: ‘Дождь’ and ‘Сухо’. Вероятности перехода: P(‘Low’|‘Low’)=0.3 ,
9. Хотим вычислить вероятность последовательности, {‘Dry’,’Rain’}. Рассмотрим все возможные скрытые состояния: P({‘Dry’,’Rain’} ) = P({‘Dry’,’Rain’} , {‘Low’,’Low’})
10. Почему важно рассмотрение HMM в автоматической обработке текста Непосредственно имеем дело с неоднозначными словами и конструкциями
11. Что такое HMM? Графическая модель Кружки – это состояния Стрелки обозначают вероятностные зависимости между состояниями
12. Что такое HMM? Зеленые кружки – это скрытые состояния Зависят только от предыдущего состояния
13. Что такое HMM? Фиолетовые кружки – это наблюдаемые состояния Зависят только от соответствующих скрытых состояний
14. HMM формализм {S, K, Π, Α, Β} S : {s1…sN } - значения скрытых состояний K
15. HMM формализм {S, K, Π, Α, Β} Π = {πι} - вероятности начальных состояний A =
16. Вывод HMM Вычислить вероятность последовательности наблюдаемых состояний (Evaluation) Имея последовательность наблюдаемых состояний, вычислить наиболее вероятную последовательность
17. o1 ot ot-1 ot+1 Имея последовательность наблюдаемых состояний и модель, вычислить вероятность последовательности наблюдаемых состояний Оценка
18. Оценка (Evaluation) Сложность O (NT), где N – число возможных вариантов состояний
19. Форвардная процедура Метод динамического программирования Определим переменную: Смысл переменной α: вероятность наблюдений o1, …ot и при
20. Форвардная процедура
21. Форвардная процедура
22. Вычисление вероятности последовательности наблюдаемых событий Можем эффективно вычислять αT(I)=P(o1, o2,…oT, xT=i|μ) Как вычислить P(o1, o2,…oT |μ)?
23. Вычисление вероятности последовательности наблюдаемых событий Можем эффективно вычислять αT(i)=P(o1, o2,…oT, xT=i|μ) Как вычислить P(o1, o2,…oT |μ)
24. Форвардный алгоритм: пример
25. Форвардный алгоритм Найти вероятность последовательности: s r r s r (s- sun, r – rain)
28. Декодирование Вычислить вероятность последовательности наблюдаемых состояний (Evaluation) Имея последовательность наблюдаемых состояний, вычислить наиболее вероятную последовательность скрытых
29. Декодирование: Best State Sequence Найти множество состояний, которые наилучшим образом объясняют последовательность видимых состояний Viterbi algorithm
30. oT o1 ot ot-1 ot+1 Алгоритм Витерби Последовательность состояний, которая максимизирует вероятность увидеть заданную последовательность видимых
31. Алгоритм Витерби Рекурсивное вычисление x1 xt-1 xt xt+1
32. Алгоритм Витерби Вычисляем наиболее вероятную последовательность состояний, двигаясь назад x1 xt-1 xt xt+1 xT
39. Тот же пример для алгоритма Витерби
40. Пример: Алгоритм Витерби
41. Пример. Алгоритм Витерби
42. Применение HMM к POS-tagging POS-tagging – морфологическая разметка HMM tagger: выбирает наиболее вероятную последовательность тегов для
43. Пример: морфологическая неоднозначность
44. Откуда взять данные? Из корпуса с морфологической разметкой Русский язык: Корпус русского языка Открытый корпус (opencorpora.org)
45. Фрагмент морфологической разметки в Национальном корпусе русского языка Я сидел на барском сиденье, дышал горячим ветром,
46. Данные для примера
59. Лексические вероятности: уточнение Мы считали p(w|t) Но Слово могло отсутствовать в корпусе или отсутствовать в заданной
60. Лексические вероятности ~ p(t) – априорная вероятность метки p(t|w) – вероятность метки для данного слова Можно
61. Словарь и лексические вероятности Можно считать, что все словарные метки слова w входят в корпус α
62. Анализ статистических алгоритмов снятия морфологической омонимии в русском языке Егор Лакомкин Иван Пузыревский Дарья Рыжова (2013)
63. Разрешение морфологической неоднозначности в текстах на английском языке Методы: Как правило, статистические алгоритмы на основе марковских
64. Особенности английского языка Бедная морфология морфологическая разметка фактически сводится к POS-теггингу Фиксированный порядок слов можно опираться
65. Задача исследования: Проверить экспериментально, применимы ли статистические алгоритмы, основанные на марковских моделях, к задаче морфологической дизамбигуации
66. Алгоритмы Набор скрытых величин Y (состояний модели = наборов грамматических тегов); составляют марковскую цепь первого порядка
67. HMM Обучение: Сбор статистик по корпусу: P(yi|yj) – матрица переходов P(xk|yi) – вероятности наблюдений сущ прил
68. Задача алгоритмов: Вычисление наиболее вероятной последовательности скрытых величин
69. Деление выборки на обучающую и тестирующую: Кросс-валидация (5 фолдов): Деление выборки на 5 частей: 4 обучающие
70. Оценка качества Определение верхней и нижней границы: Верхняя граница: процент случаев, когда среди гипотез Mystem’а есть
71. Результаты
72. Выводы работы POS-теггинг – на приличном уровне, Разрешение неоднозначности по расширенным тегам – довольно низкий уровень
73. Проблемы HMM Метки рассматриваются как единое целое, невозможно извлечь отдельные признаки В русском языке: тег –
74. Как можно изменить процесс расчета переходов между состояниями? HMM: учитываются два фактора в простой комбинации Для
76. Скачать презентацию

Постморфологический анализ
=предсинтаксический анализ
Предназначен для устранения морфологической омонимии (многозначности) слов
Выбор правильной леммы
Уточнение морфологических

характеристик
Основные методы
Написание правил,
Статистические методы, прежде всего, на основе морфологически размеченного корпуса
Скрытые марковские модели

Набор состояний:
Процесс движется от одного состояния к другому, порождая последовательность состояний

:
Свойство марковской цепи: вероятность следующего состояния зависит от состояния предыдущего:
Чтобы определить марковскую сеть, должны быть определены следующие вероятности

Марковские модели

Два состояния : ‘Rain’ и ‘Dry’
Вероятности переходов: P(‘Rain’|‘Rain’)=0.3 , P(‘Dry’|‘Rain’)=0.7

, P(‘Rain’|‘Dry’)=0.2, P(‘Dry’|‘Dry’)=0.8
Исходные вероятности: P(‘Rain’)=0.4 , P(‘Dry’)=0.6

Пример марковской модели

По свойству марковской цепи, вероятность последовательности состояний может быть найдена по

формуле
Предположим, мы хотим подсчитать вероятность последовательности: {‘Dry’,’Dry’,’Rain’,Rain’}.
P({‘Dry’,’Dry’,’Rain’,Rain’} ) =
P(‘Rain’|’Rain’) P(‘Rain’|’Dry’) P(‘Dry’|’Dry’) P(‘Dry’)=
= 0.3*0.2*0.8*0.6

Вычисление вероятности последовательности

Слайд 6

Скрытые марковские модели

Множество состояний:
Процесс движется от состояния к состоянию

:
Выполняется свойство марковской цепи:
Состояния – невидимы, но каждое состояние порождает одно из M наблюдений - видимых состояний
Чтобы определить скрытую марковскую цепь, нужно определить
Матрицу переходов A=(aij), aij= P(si | sj) ,
Матрицу вероятностей наблюдаемых состояний B=(bi (vm )), bi(vm ) = P(vm | si)
Вектор начальных вероятностей π=(πi), πi = P(si).
Модель представлена M=(A, B, π).

Слайд 7

Dry
0.6
0.6
0.4
0.4
Пример скрытой марковской модели

Слайд 8

Два состояния: ‘Низкое’ and ‘Высокое’ атм. давление.
Два наблюдения: ‘Дождь’ and

Пример скрытой марковской модели

Слайд 9

Хотим вычислить вероятность последовательности, {‘Dry’,’Rain’}.
Рассмотрим все возможные скрытые состояния:
P({‘Dry’,’Rain’}

) = P({‘Dry’,’Rain’} , {‘Low’,’Low’}) + P({‘Dry’,’Rain’} , {‘Low’,’High’}) + P({‘Dry’,’Rain’} , {‘High’,’Low’}) + P({‘Dry’,’Rain’} , {‘High’,’High’})
где первый элемент:
P({‘Dry’,’Rain’} , {‘Low’,’Low’})=
P({‘Dry’,’Rain’} | {‘Low’,’Low’}) P({‘Low’,’Low’}) =
P(‘Dry’|’Low’)P(‘Rain’|’Low’) P(‘Low’)P(‘Low’|’Low)
= 0.4*0.6*0.4*0.3

Пример вычисления вероятности наблюдений

Слайд 10

Почему важно рассмотрение HMM в автоматической обработке текста
Непосредственно имеем дело с неоднозначными

словами и конструкциями
Нужно распознавать скрытые
Части речи
Лексические значения
Типы именованных сущностей (организация, персона, географическое место …)
Определение тональности предложения
и др.

Слайд 11

Что такое HMM?
Графическая модель
Кружки – это состояния
Стрелки обозначают вероятностные зависимости между состояниями

Слайд 12

Что такое HMM?
Зеленые кружки – это скрытые состояния
Зависят только от предыдущего

состояния

Слайд 13

Что такое HMM?
Фиолетовые кружки – это наблюдаемые состояния
Зависят только от соответствующих скрытых

состояний

Слайд 14

HMM формализм
{S, K, Π, Α, Β}
S : {s1…sN } - значения

скрытых состояний
K : {k1…kM } – значения наблюдаемых состояний

Слайд 15

HMM формализм
{S, K, Π, Α, Β}
Π = {πι} - вероятности

начальных состояний
A = {aij} - вероятности переходов между скрытыми состояниями
B = {bik} – вероятности наблюдаемых состояний

Слайд 16

Вывод HMM
Вычислить вероятность последовательности наблюдаемых состояний (Evaluation)
Имея последовательность наблюдаемых состояний, вычислить наиболее

вероятную последовательность скрытых состояний (Decoding)
Имея последовательность наблюдаемых состояний и множество возможных моделей, определить какая модель лучше соответствует данным (т.е. наблюдаемой последовательности) (Learning)

Слайд 17

o1
ot
ot-1
ot+1
Имея последовательность наблюдаемых состояний и модель, вычислить вероятность последовательности наблюдаемых состояний
Оценка (Evaluation)

Слайд 18

Оценка (Evaluation)
Сложность O (NT), где N – число возможных вариантов состояний

Слайд 19

Форвардная процедура
Метод динамического программирования
Определим переменную:
Смысл переменной α: вероятность наблюдений o1, …ot и

при этом оказаться в состоянии i

Слайд 20

Форвардная процедура

Слайд 21

Форвардная процедура

Слайд 22

Вычисление вероятности последовательности наблюдаемых событий
Можем эффективно вычислять
αT(I)=P(o1, o2,…oT, xT=i|μ)
Как вычислить
P(o1, o2,…oT |μ)?
Как

вычислить
P(xT=i|o1, o2,…oT ,μ)?

Слайд 23

Вычисление вероятности последовательности наблюдаемых событий
Можем эффективно вычислять
αT(i)=P(o1, o2,…oT, xT=i|μ)
Как вычислить
P(o1, o2,…oT |μ)

= Σi αT(i)
Как вычислить
P(xT=i|o1, o2,…oT ,μ)= αT(i)/(Σi αT(i))

Слайд 24

Форвардный алгоритм: пример

Слайд 25

Форвардный алгоритм
Найти вероятность последовательности:
s r r s r (s- sun, r –

rain)

Слайд 26

Слайд 27

Слайд 28

Декодирование
Вычислить вероятность последовательности наблюдаемых состояний (Evaluation)
Имея последовательность наблюдаемых состояний, вычислить наиболее вероятную

последовательность скрытых состояний (Decoding)
Имея последовательность наблюдаемых состояний и множество возможных моделей, определить какая модель лучше соответствует данным (т.е. наблюдаемой последовательности) (Learning)

Слайд 29

Декодирование: Best State Sequence
Найти множество состояний, которые наилучшим образом объясняют последовательность видимых состояний
Viterbi

algorithm

Слайд 30

oT
o1
ot
ot-1
ot+1
Алгоритм Витерби
Последовательность состояний, которая максимизирует вероятность увидеть заданную последовательность видимых состояний во

время t-1, остановиться в состоянии j, и увидеть заданное наблюдение во время t

xt-1

Слайд 31

Алгоритм Витерби
Рекурсивное
вычисление
x1
xt-1
xt
xt+1

Слайд 32

Алгоритм Витерби
Вычисляем наиболее вероятную последовательность состояний, двигаясь назад
x1
xt-1
xt
xt+1
xT

Слайд 33

Слайд 34

Слайд 35

Слайд 36

Слайд 37

Слайд 38

Слайд 39

Тот же пример для алгоритма Витерби

Слайд 40

Пример: Алгоритм Витерби

Слайд 41

Пример. Алгоритм Витерби

Слайд 42

Применение HMM к POS-tagging
POS-tagging – морфологическая разметка
HMM tagger: выбирает наиболее вероятную последовательность

тегов для каждого предложения
Дано предложение W=w1, w2, w3…, wn
Вычислить наиболее вероятную последовательность тегов T=t1, t2, …tn, которая максимизирует
Argmax P (t1, t2, …tn|w1, w2, …wn)

Слайд 43

Пример: морфологическая неоднозначность

Слайд 44

Откуда взять данные?
Из корпуса с морфологической разметкой
Русский язык:
Корпус русского языка
Открытый

корпус (opencorpora.org)
Английский язык
Brown corpus
Penn tree bank

Слайд 45

Фрагмент морфологической разметки в Национальном корпусе русского языка
Я сидел на барском сиденье,

дышал горячим ветром, бившим в лицо, ощущая в то же время не истребимую никакими сквозняками пыль и легкий запах духов -- катафалк с хорошей скоростью мчался по шоссе на юг. (Ю. Трифонов)
Я{я=S,ед,од=им} сидел{сидеть=V,несов=изъяв,прош,ед,муж} на{на=PR} барском{барский=A=ед,сред,пр} сиденье{сиденье=S,сред,неод=ед,пр}, дышал{дышать=V,несов=изъяв,прош,ед,муж} горячим{горячий=A=ед,муж,твор} ветром{ветер=S,муж,неод=ед,твор}, бившим{бить=V,несов=прич,прош,ед,муж,твор} в{в=PR} лицо{лицо=S,сред,неод=ед,вин}, ощущая{ощущать=V=несов,деепр,непрош} в{в=PR} то{тот=A=ед,сред,вин} же{же=PART} время{время=S,сред,неод=ед,вин} не{не=PART} истребимую{истребимый=A=ед,жен,вин} никакими{никакой=A=мн,твор} сквозняками{сквозняк=S,муж,неод=мн,твор} пыль{пыль=S,жен,неод,ед=вин} и{и=CONJ} легкий{легкий=A=ед,муж,вин,неод} запах{запах=S,муж,неод=ед,вин}…

Слайд 46
Данные для примера

Слайд 47

Слайд 48

Слайд 49

Слайд 50

Слайд 51

Слайд 52

Слайд 53

Слайд 54

Слайд 55

Слайд 56

Слайд 57

Слайд 58

Слайд 59
Лексические вероятности: уточнение
Мы считали p(w|t)
Но
Слово могло отсутствовать в корпусе или

отсутствовать в заданной части речи
Не учитывается информация из морфологического словаря
Удобнее оценить p (t Iw)

Слайд 60
Лексические вероятности

~
p(t) – априорная вероятность метки
p(t|w) – вероятность метки для

данного слова
Можно положить
Где с () – количество вхождений
Как учесть словарь?

Слайд 61
Словарь и лексические вероятности
Можно считать, что все словарные метки слова w входят

в корпус α раз (например, α=0.5)
Тогда получим:
где T(w) – это количество тегов для w
Для новых несловарных слов p(t|w) считается на основе совокупности признаков (машинное обучение)

Слайд 62
Анализ статистических алгоритмов снятия морфологической омонимии в русском языке
Егор Лакомкин
Иван Пузыревский
Дарья

Рыжова
(2013)

Слайд 63
Разрешение морфологической неоднозначности в текстах на английском языке
Методы:
Как правило, статистические алгоритмы на

основе марковских моделей
Точность: ~96%

Слайд 64
Особенности английского языка
Бедная морфология
морфологическая разметка фактически сводится к POS-теггингу
Фиксированный порядок слов
можно опираться

только на локальный контекст слова (ближайших соседей) без учёта дальних зависимостей (т.е. достаточно марковских моделей первого порядка)

Слайд 65
Задача исследования:
Проверить экспериментально, применимы ли статистические алгоритмы, основанные на марковских моделях, к

~~задаче морфологической дизамбигуации текстов на русском языке~~

Слайд 66
Алгоритмы
Набор скрытых величин Y (состояний модели = наборов грамматических тегов); составляют марковскую

цепь первого порядка
Набор наблюдаемых величин X (наблюдений) ~ словоформ
Словоформы заменяем на 3-буквенные окончания:
Сокращаем количество наблюдаемых состояний
Практически не теряем полезную информацию (поскольку в РЯ почти вся морфологическая информация сосредоточена в окончании)

Слайд 67
HMM
Обучение:
Сбор статистик по корпусу:
P(yi|yj) – матрица переходов
P(xk|yi) – вероятности наблюдений
сущ
прил
глаг
-ные
-чки
-ают

Слайд 68
Задача алгоритмов:
Вычисление наиболее вероятной последовательности скрытых величин

Слайд 69
Деление выборки на обучающую и тестирующую:
Кросс-валидация (5 фолдов):
Деление выборки на 5 частей:
4

обучающие + 1 тестирующая
5 серий подсчётов
Усреднение результата

Слайд 70
Оценка качества
Определение верхней и нижней границы:
Верхняя граница: процент случаев, когда среди гипотез

Mystem’а есть правильная;
Нижняя: «частотная снималка» (слову приписывается наиболее частотный вариант разбора, без учёта контекста)
Качество работы алгоритма (= точность):
Сравнение с «золотым стандартом» - с эталонным разбором НКРЯ:
общая точность
точность по знакомым словам
точность по незнакомым словам
Не учитывались:
Инициалы, аббревиатуры, цифры;
Сложные слова с дефисом (ср. бело-кремовый)

Слайд 71
Результаты

Слайд 72
Выводы работы
POS-теггинг – на приличном уровне,
Разрешение неоднозначности по расширенным тегам –

довольно низкий уровень точности. Случаи, особенно часто разбираемые ошибочно:
Местоимения
Имена собственные
Субстантивация прилагательных
Омонимия падежных форм (номинатив vs. аккузатив)

Слайд 73
Проблемы HMM
Метки рассматриваются как единое целое, невозможно извлечь отдельные признаки
В русском языке:

тег – это сущ. в род. падеже ед. числа
Ограниченный просмотр состояний – обычно биграммы
Не учитываются дистантные зависимости
Договор о разоружении сторон был подписан
Договор – именительный или винительный падеж
Состояние не зависит от соседних слов
Обмануть друга vs. соврать другу

Слайд 74
Как можно изменить процесс расчета переходов между состояниями?
HMM: учитываются два фактора в

простой комбинации
Для определения вероятности переходов между состояниями нужно: учитывать значительно больше факторов
Когда нужна комбинация факторов -> машинное обучение

8

Содержание

Набор состояний:Процесс движется от одного состояния к другому, порождая последовательность состояний

Два состояния : ‘Rain’ и ‘Dry’ Вероятности переходов: P(‘Rain’|‘Rain’)=0.3 , P(‘Dry’|‘Rain’)=0.7

По свойству марковской цепи, вероятность последовательности состояний может быть найдена по

Скрытые марковские модели Множество состояний: Процесс движется от состояния к состоянию

Dry0.60.60.40.4Пример скрытой марковской модели

Два состояния: ‘Низкое’ and ‘Высокое’ атм. давление. Два наблюдения: ‘Дождь’ and

Хотим вычислить вероятность последовательности, {‘Dry’,’Rain’}.Рассмотрим все возможные скрытые состояния: P({‘Dry’,’Rain’}

Почему важно рассмотрение HMM в автоматической обработке текстаНепосредственно имеем дело с неоднозначными

Что такое HMM?Графическая модельКружки – это состоянияСтрелки обозначают вероятностные зависимости между состояниями

Что такое HMM? Зеленые кружки – это скрытые состоянияЗависят только от предыдущего

Что такое HMM?Фиолетовые кружки – это наблюдаемые состоянияЗависят только от соответствующих скрытых

HMM формализм{S, K, Π, Α, Β} S : {s1…sN } - значения

HMM формализм{S, K, Π, Α, Β} Π = {πι} - вероятности

Вывод HMMВычислить вероятность последовательности наблюдаемых состояний (Evaluation)Имея последовательность наблюдаемых состояний, вычислить наиболее

o1otot-1ot+1Имея последовательность наблюдаемых состояний и модель, вычислить вероятность последовательности наблюдаемых состоянийОценка (Evaluation)

Оценка (Evaluation)Сложность O (NT), где N – число возможных вариантов состояний

Форвардная процедураМетод динамического программированияОпределим переменную:Смысл переменной α: вероятность наблюдений o1, …ot и

Форвардная процедура

Форвардная процедура

Вычисление вероятности последовательности наблюдаемых событийМожем эффективно вычислятьαT(I)=P(o1, o2,…oT, xT=i|μ)Как вычислитьP(o1, o2,…oT |μ)?Как

Вычисление вероятности последовательности наблюдаемых событийМожем эффективно вычислятьαT(i)=P(o1, o2,…oT, xT=i|μ)Как вычислитьP(o1, o2,…oT |μ)

Форвардный алгоритм: пример

Форвардный алгоритмНайти вероятность последовательности:s r r s r (s- sun, r –

Декодирование: Best State SequenceНайти множество состояний, которые наилучшим образом объясняют последовательность видимых состоянийViterbi

oTo1otot-1ot+1Алгоритм ВитербиПоследовательность состояний, которая максимизирует вероятность увидеть заданную последовательность видимых состояний во

Алгоритм ВитербиРекурсивное вычислениеx1xt-1xtxt+1

Алгоритм ВитербиВычисляем наиболее вероятную последовательность состояний, двигаясь назадx1xt-1xtxt+1xT

Тот же пример для алгоритма Витерби

Пример: Алгоритм Витерби

Пример. Алгоритм Витерби

Применение HMM к POS-taggingPOS-tagging – морфологическая разметкаHMM tagger: выбирает наиболее вероятную последовательность

Пример: морфологическая неоднозначность

Откуда взять данные?Из корпуса с морфологической разметкойРусский язык: Корпус русского языка Открытый

Фрагмент морфологической разметки в Национальном корпусе русского языкаЯ сидел на барском сиденье,

Слайд 46Данные для примера

Данные для примера

Слайд 59Лексические вероятности: уточнениеМы считали p(w|t) Но Слово могло отсутствовать в корпусе или

Лексические вероятности: уточнениеМы считали p(w|t) Но Слово могло отсутствовать в корпусе или

Слайд 60Лексические вероятности ~p(t) – априорная вероятность меткиp(t|w) – вероятность метки для

Лексические вероятности ~p(t) – априорная вероятность меткиp(t|w) – вероятность метки для

Слайд 61Словарь и лексические вероятностиМожно считать, что все словарные метки слова w входят

Словарь и лексические вероятностиМожно считать, что все словарные метки слова w входят

Слайд 62Анализ статистических алгоритмов снятия морфологической омонимии в русском языкеЕгор Лакомкин Иван ПузыревскийДарья

Анализ статистических алгоритмов снятия морфологической омонимии в русском языкеЕгор Лакомкин Иван ПузыревскийДарья

Слайд 63Разрешение морфологической неоднозначности в текстах на английском языкеМетоды: Как правило, статистические алгоритмы на

Разрешение морфологической неоднозначности в текстах на английском языкеМетоды: Как правило, статистические алгоритмы на

Слайд 64Особенности английского языкаБедная морфология морфологическая разметка фактически сводится к POS-теггингуФиксированный порядок слов можно опираться

Особенности английского языкаБедная морфология морфологическая разметка фактически сводится к POS-теггингуФиксированный порядок слов можно опираться

Слайд 65Задача исследования: Проверить экспериментально, применимы ли статистические алгоритмы, основанные на марковских моделях, к

Задача исследования: Проверить экспериментально, применимы ли статистические алгоритмы, основанные на марковских моделях, к

Слайд 66АлгоритмыНабор скрытых величин Y (состояний модели = наборов грамматических тегов); составляют марковскую

АлгоритмыНабор скрытых величин Y (состояний модели = наборов грамматических тегов); составляют марковскую

Слайд 67HMMОбучение:Сбор статистик по корпусу:P(yi|yj) – матрица переходовP(xk|yi) – вероятности наблюденийсущприлглаг-ные-чки-ают

HMMОбучение:Сбор статистик по корпусу:P(yi|yj) – матрица переходовP(xk|yi) – вероятности наблюденийсущприлглаг-ные-чки-ают

Слайд 68Задача алгоритмов: Вычисление наиболее вероятной последовательности скрытых величин

Задача алгоритмов: Вычисление наиболее вероятной последовательности скрытых величин

Слайд 69Деление выборки на обучающую и тестирующую:Кросс-валидация (5 фолдов):Деление выборки на 5 частей:4

Деление выборки на обучающую и тестирующую:Кросс-валидация (5 фолдов):Деление выборки на 5 частей:4

Слайд 70Оценка качестваОпределение верхней и нижней границы:Верхняя граница: процент случаев, когда среди гипотез

Оценка качестваОпределение верхней и нижней границы:Верхняя граница: процент случаев, когда среди гипотез

Слайд 71Результаты

Результаты

Слайд 72Выводы работыPOS-теггинг – на приличном уровне, Разрешение неоднозначности по расширенным тегам –

Выводы работыPOS-теггинг – на приличном уровне, Разрешение неоднозначности по расширенным тегам –

Слайд 73Проблемы HMMМетки рассматриваются как единое целое, невозможно извлечь отдельные признакиВ русском языке:

Проблемы HMMМетки рассматриваются как единое целое, невозможно извлечь отдельные признакиВ русском языке:

Слайд 74Как можно изменить процесс расчета переходов между состояниями?HMM: учитываются два фактора в

Как можно изменить процесс расчета переходов между состояниями?HMM: учитываются два фактора в

Похожие презентации

Набор состояний:
Процесс движется от одного состояния к другому, порождая последовательность состояний

Два состояния : ‘Rain’ и ‘Dry’
Вероятности переходов: P(‘Rain’|‘Rain’)=0.3 , P(‘Dry’|‘Rain’)=0.7

Скрытые марковские модели

Множество состояний:
Процесс движется от состояния к состоянию

Dry
0.6
0.6
0.4
0.4
Пример скрытой марковской модели

Два состояния: ‘Низкое’ and ‘Высокое’ атм. давление.
Два наблюдения: ‘Дождь’ and

Хотим вычислить вероятность последовательности, {‘Dry’,’Rain’}.
Рассмотрим все возможные скрытые состояния:
P({‘Dry’,’Rain’}

Почему важно рассмотрение HMM в автоматической обработке текста
Непосредственно имеем дело с неоднозначными

Что такое HMM?
Графическая модель
Кружки – это состояния
Стрелки обозначают вероятностные зависимости между состояниями

Что такое HMM?
Зеленые кружки – это скрытые состояния
Зависят только от предыдущего

Что такое HMM?
Фиолетовые кружки – это наблюдаемые состояния
Зависят только от соответствующих скрытых

HMM формализм
{S, K, Π, Α, Β}
S : {s1…sN } - значения

HMM формализм
{S, K, Π, Α, Β}
Π = {πι} - вероятности

Вывод HMM
Вычислить вероятность последовательности наблюдаемых состояний (Evaluation)
Имея последовательность наблюдаемых состояний, вычислить наиболее

o1
ot
ot-1
ot+1
Имея последовательность наблюдаемых состояний и модель, вычислить вероятность последовательности наблюдаемых состояний
Оценка (Evaluation)

Оценка (Evaluation)
Сложность O (NT), где N – число возможных вариантов состояний

Форвардная процедура
Метод динамического программирования
Определим переменную:
Смысл переменной α: вероятность наблюдений o1, …ot и

Вычисление вероятности последовательности наблюдаемых событий
Можем эффективно вычислять
αT(I)=P(o1, o2,…oT, xT=i|μ)
Как вычислить
P(o1, o2,…oT |μ)?
Как

Вычисление вероятности последовательности наблюдаемых событий
Можем эффективно вычислять
αT(i)=P(o1, o2,…oT, xT=i|μ)
Как вычислить
P(o1, o2,…oT |μ)

Форвардный алгоритм
Найти вероятность последовательности:
s r r s r (s- sun, r –

Декодирование: Best State Sequence
Найти множество состояний, которые наилучшим образом объясняют последовательность видимых состояний
Viterbi

oT
o1
ot
ot-1
ot+1
Алгоритм Витерби
Последовательность состояний, которая максимизирует вероятность увидеть заданную последовательность видимых состояний во

Алгоритм Витерби
Рекурсивное
вычисление
x1
xt-1
xt
xt+1

Алгоритм Витерби
Вычисляем наиболее вероятную последовательность состояний, двигаясь назад
x1
xt-1
xt
xt+1
xT

Применение HMM к POS-tagging
POS-tagging – морфологическая разметка
HMM tagger: выбирает наиболее вероятную последовательность

Откуда взять данные?
Из корпуса с морфологической разметкой
Русский язык:
Корпус русского языка
Открытый

Фрагмент морфологической разметки в Национальном корпусе русского языка
Я сидел на барском сиденье,

Слайд 46
Данные для примера

Слайд 59
Лексические вероятности: уточнение
Мы считали p(w|t)
Но
Слово могло отсутствовать в корпусе или

Лексические вероятности: уточнение
Мы считали p(w|t)
Но
Слово могло отсутствовать в корпусе или

Слайд 60
Лексические вероятности

~
p(t) – априорная вероятность метки
p(t|w) – вероятность метки для

Лексические вероятности

~
p(t) – априорная вероятность метки
p(t|w) – вероятность метки для

Слайд 61
Словарь и лексические вероятности
Можно считать, что все словарные метки слова w входят

Словарь и лексические вероятности
Можно считать, что все словарные метки слова w входят

Слайд 62
Анализ статистических алгоритмов снятия морфологической омонимии в русском языке
Егор Лакомкин
Иван Пузыревский
Дарья

Анализ статистических алгоритмов снятия морфологической омонимии в русском языке
Егор Лакомкин
Иван Пузыревский
Дарья

Слайд 63
Разрешение морфологической неоднозначности в текстах на английском языке
Методы:
Как правило, статистические алгоритмы на

Разрешение морфологической неоднозначности в текстах на английском языке
Методы:
Как правило, статистические алгоритмы на

Слайд 64
Особенности английского языка
Бедная морфология
морфологическая разметка фактически сводится к POS-теггингу
Фиксированный порядок слов
можно опираться

Особенности английского языка
Бедная морфология
морфологическая разметка фактически сводится к POS-теггингу
Фиксированный порядок слов
можно опираться

Слайд 65
Задача исследования:
Проверить экспериментально, применимы ли статистические алгоритмы, основанные на марковских моделях, к

Задача исследования:
Проверить экспериментально, применимы ли статистические алгоритмы, основанные на марковских моделях, к

Слайд 66
Алгоритмы
Набор скрытых величин Y (состояний модели = наборов грамматических тегов); составляют марковскую

Алгоритмы
Набор скрытых величин Y (состояний модели = наборов грамматических тегов); составляют марковскую

Слайд 67
HMM
Обучение:
Сбор статистик по корпусу:
P(yi|yj) – матрица переходов
P(xk|yi) – вероятности наблюдений
сущ
прил
глаг
-ные
-чки
-ают

HMM
Обучение:
Сбор статистик по корпусу:
P(yi|yj) – матрица переходов
P(xk|yi) – вероятности наблюдений
сущ
прил
глаг
-ные
-чки
-ают

Слайд 68
Задача алгоритмов:
Вычисление наиболее вероятной последовательности скрытых величин

Задача алгоритмов:
Вычисление наиболее вероятной последовательности скрытых величин

Слайд 69
Деление выборки на обучающую и тестирующую:
Кросс-валидация (5 фолдов):
Деление выборки на 5 частей:
4

Деление выборки на обучающую и тестирующую:
Кросс-валидация (5 фолдов):
Деление выборки на 5 частей:
4

Слайд 70
Оценка качества
Определение верхней и нижней границы:
Верхняя граница: процент случаев, когда среди гипотез

Оценка качества
Определение верхней и нижней границы:
Верхняя граница: процент случаев, когда среди гипотез

Слайд 71
Результаты

Слайд 72
Выводы работы
POS-теггинг – на приличном уровне,
Разрешение неоднозначности по расширенным тегам –

Выводы работы
POS-теггинг – на приличном уровне,
Разрешение неоднозначности по расширенным тегам –

Слайд 73
Проблемы HMM
Метки рассматриваются как единое целое, невозможно извлечь отдельные признаки
В русском языке:

Проблемы HMM
Метки рассматриваются как единое целое, невозможно извлечь отдельные признаки
В русском языке:

Слайд 74
Как можно изменить процесс расчета переходов между состояниями?
HMM: учитываются два фактора в

Как можно изменить процесс расчета переходов между состояниями?
HMM: учитываются два фактора в