Лингвистика для математиков

Содержание

Слайд 2

План на сегодня

Автоматическое выделение частей речи
Пробный тест по фану без оценок

План на сегодня Автоматическое выделение частей речи Пробный тест по фану без оценок

Слайд 4

Какие бывают части речи?

Какие бывают части речи?

Слайд 5

Части речи

Как определить часть речи?

Части речи Как определить часть речи?

Слайд 6

Части речи

Открытые и закрытые
Что это значит?
Глокая куздра штеко будланула бокра и

Части речи Открытые и закрытые Что это значит? Глокая куздра штеко будланула бокра и кудрячит бокрёнка
кудрячит бокрёнка

Слайд 7

Части речи

Из Алисы в стране чудес
Lewis Carroll

Части речи Из Алисы в стране чудес Lewis Carroll

Слайд 8

Части речи

Ответы на задачку

Части речи Ответы на задачку

Слайд 9

Части речи в разных языках

Вспомним задачу про индонезийский
Части речи в русском

Части речи в разных языках Вспомним задачу про индонезийский Части речи в русском

Слайд 10

Неоднозначность

(в английском)

Неоднозначность (в английском)

Слайд 11

Автоматический морфологический анализ

Как автоматически отличить “book that flight” от “hand me this

Автоматический морфологический анализ Как автоматически отличить “book that flight” от “hand me
book”?
Нужно провести морфологический анализ

Слайд 12

The Penn Treebank tagset

Университет Пенсильвании. Использовался для ручной разметки корпуса для текстов.

The Penn Treebank tagset Университет Пенсильвании. Использовался для ручной разметки корпуса для текстов.

Слайд 13

The Penn Treebank tagset

The Penn Treebank tagset

Слайд 14

Universal dependencies

Этот набор тегов используется в большинстве современных корпусов
Используется для большого количества

Universal dependencies Этот набор тегов используется в большинстве современных корпусов Используется для
языков
Можно сравнивать разные языки и делать разборы более однообразными
+ синтаксический парсинг

Слайд 15

Точность

базовый алгоритм: если слово неоднозначно, присваиваем ему ту часть речи, которая чаще

Точность базовый алгоритм: если слово неоднозначно, присваиваем ему ту часть речи, которая
всего встречается в корпусе (для этого слова) --- 90% точность
более сложные алгоритмы (скрытые марковские модели, машинное обучение и т.д.) --- 97% точность
человек --- 98% точность

Слайд 16

Какими методами мы можем воспользоваться?

на основе сета правил
стохастические (с помощью машинного обучения,

Какими методами мы можем воспользоваться? на основе сета правил стохастические (с помощью
с помощью марковских моделей)

Слайд 17

Первый метод: сверяемся с таблицей

Первый метод: сверяемся с таблицей

Слайд 18

Первый метод: сверяемся с таблицей

Первый метод: сверяемся с таблицей

Слайд 19

Второй метод: n-граммы

Второй метод: n-граммы

Слайд 20

Второй метод: n-граммы

Jane will spot Mary --- эта пара (биграмм) не встретится

Второй метод: n-граммы Jane will spot Mary --- эта пара (биграмм) не
в таблице. Как мы тогда присвоим ему частотность/вероятность?

Слайд 21

Скрытые марковские модели

Будущее зависит от прошлого только через настоящее
Это называется марковской цепью

Скрытые марковские модели Будущее зависит от прошлого только через настоящее Это называется марковской цепью

Слайд 22

Скрытые марковские модели

Сначала классический пример про погоду и настроение
https://www.youtube.com/watch?v=kqSzLo9fenk
до 11 минуты

Скрытые марковские модели Сначала классический пример про погоду и настроение https://www.youtube.com/watch?v=kqSzLo9fenk до 11 минуты

Слайд 23

Скрытые марковские модели

Нам нужна последовательность наблюдений. Событий и каких-то зависимых от них

Скрытые марковские модели Нам нужна последовательность наблюдений. Событий и каких-то зависимых от
событий
Два типа вероятностей:
вероятность перехода из одного состояния в другое
вероятность того, что при условии, что есть одно состояние, то ему соответствует какое-то событие

Слайд 24

Наша первая марковская модель

Как это соотноситься с языком?

Наша первая марковская модель Как это соотноситься с языком?

Слайд 25

Применения скрытых марковских моделей

Применения скрытых марковских моделей

Слайд 26

Скрытые марковские модели

Скрытые марковские модели

Слайд 27

Скрытые марковские модели

Скрытые марковские модели

Слайд 28

Скрытые марковские модели

Скрытые марковские модели

Слайд 29

Скрытые марковские модели

Скрытые марковские модели

Слайд 30

Скрытые марковские модели

Скрытые марковские модели

Слайд 31

Скрытые марковские модели

Скрытые марковские модели

Слайд 32

Скрытые марковские модели

Скрытые марковские модели

Слайд 33

Скрытые марковские модели

https://www.youtube.com/watch?v=ZDXlExZlVMs&list=PLC0PzjY99Q_U5bba7gYJicCxIufrFmlTa&index=7

Скрытые марковские модели https://www.youtube.com/watch?v=ZDXlExZlVMs&list=PLC0PzjY99Q_U5bba7gYJicCxIufrFmlTa&index=7

Слайд 34

Скрытые марковские модели

Задача:
У нас есть 3 части речи: modal verb, verb, noun.

Скрытые марковские модели Задача: У нас есть 3 части речи: modal verb,
Сколько возможных цепочек частей речи нужно проверить скрытой марковской модели для выбора наиболее вероятной для предложения
Jane will spot Will

Слайд 35

Скрытые марковские модели

Скрытые марковские модели

Слайд 36

Скрытые марковские модели

Скрытые марковские модели

Слайд 37

Скрытые марковские модели

Сколько путей нам нужно проверить теперь?
Что мы удалили?

Скрытые марковские модели Сколько путей нам нужно проверить теперь? Что мы удалили?

Слайд 38

Скрытые марковские модели

Ответ: 4

Скрытые марковские модели Ответ: 4

Слайд 39

Скрытые марковские модели

Скрытые марковские модели

Слайд 40

Алгоритм Витерби

Алгоритм Витерби

Слайд 41

Алгоритм Витерби

https://www.youtube.com/watch?v=mHEKZ8jv2SY&list=PLC0PzjY99Q_U5bba7gYJicCxIufrFmlTa&index=13

Алгоритм Витерби https://www.youtube.com/watch?v=mHEKZ8jv2SY&list=PLC0PzjY99Q_U5bba7gYJicCxIufrFmlTa&index=13

Слайд 42

Задача на марковские процессы

В процессе опроса владельцев автомобилей трех американских марок: марки

Задача на марковские процессы В процессе опроса владельцев автомобилей трех американских марок:
A, марки B, марки C, им был задан вопрос о том, какую торговую марку они бы выбрали для следующей покупки.
Среди владельцев автомобилей марки A 20% сказали что выберут опять эту же марку, 50% сказали, что они бы перешли на марку B%, а 30% заявили, что предпочли бы марку C.
Среди владельцев автомобилей марки B 20% сказали, что перейдут на марку A, в то время как 70% заявили, что приобрели бы опять автомобиль марки B, а 10% заявили, что в следующий раз предпочли бы марку C.
Среди владельцев автомобилей C 30% ответили, что перешли бы на марку A, 30% сказали, что перешли бы на марку B, а 40% заявили, что остались бы верны той же марке C.

Слайд 43

Задача на марковские процессы

Вопрос 1 : Если некто приобрел автомобиль марки A,

Задача на марковские процессы Вопрос 1 : Если некто приобрел автомобиль марки
то какова вероятность, что его второй машиной будет автомобиль марки C?

Слайд 44

Некоторый fun

Задача: Даны фразы из биографии французской актрисы Эммануэль Беар, приведённой на сайте

Некоторый fun Задача: Даны фразы из биографии французской актрисы Эммануэль Беар, приведённой
«Каталог биографий известных актёров».

Слайд 45

Некоторый fun

1. Режиссерам привзглянулась нежная красота Беар, и без ролей она не

Некоторый fun 1. Режиссерам привзглянулась нежная красота Беар, и без ролей она
сидела.
2. Но «своего» режиссера Эммануэль порадостнилось встретить лишь в 1992 году.
3. Обрелась невероятно тонкая и красивая картина (не в последнюю очередность благодаря Беар), которая обрела «Сезара» как оптимальный кинофильм того года.
4. Она нанастолькоко ладно сыграла метания героини между двумя супругчинами, что Даниэль Отёй, который был супругом Беар в кинофильме и в жизни, выбирал не приезжать на съемки, когда там снимались сцены с любовником героини Эммануэль.

Слайд 46

Некоторый fun

5. Своих детей и свою личную жизнь артистка ревностно оберегает от

Некоторый fun 5. Своих детей и свою личную жизнь артистка ревностно оберегает
внимания газетчиков, но папарацци очень любят Беар, видимо, позжеу что она очень фотогенична.
6. Много лет Эммануэль Беар была «лицом» известной фирмы «Christian Dior», но не так давно ее на этом посту поменяла российская манекенщица Крправда Семеновская.
Задание 1. Отметьте слова, которые вам показались странными.
Задание 2. Объясните их появление в этом тексте.

Слайд 47

Некоторый fun

Некоторый fun

Слайд 48

Некоторый fun

Некоторый fun

Слайд 49

Некоторый fun

Подумайте, как NLP помогает отсеивать такие сайты?
Как вы думаете насколько давно

Некоторый fun Подумайте, как NLP помогает отсеивать такие сайты? Как вы думаете
придумали эту задачу?

Слайд 50

Задача на языковые модели

Попробуйте описать образование глагольных основ в языке йоулумни (индейский

Задача на языковые модели Попробуйте описать образование глагольных основ в языке йоулумни
язык где-то в Северной Америке). Запишите регулярками 3 основы

Слайд 51

Спасибо за внимание!

Спасибо за внимание!
Имя файла: Лингвистика-для-математиков.pptx
Количество просмотров: 28
Количество скачиваний: 0