Индуктивное моделирование: содержание и примеры применения в задачах обработки текстов М. Александров Академия народного хозяйст

Февраль 20, 2021

Главная
Разное
Индуктивное моделирование: содержание и примеры применения в задачах обработки текстов М. Александров Академия народного хозяйст

Содержание

2. Содержание Введение Коллеги и соавторы Индуктивное моделирование Статистический стеммер Subjectivity/Sentiment analysis Терминография Ресурсы
3. Введение История ИМСОМ = Индуктивный Метод Самоорганизации Моделей Был разработан в в 70-80 годы акад. А.Г.
4. Введение Что стоит за названием? ИМСОМ = Индуктивный Метод Самоорганизации Моделей Понятие модели зависит от задачи.
5. Введение В чем индуктивность? Индукция = из частных случаев делают обобщенный вывод Дедукция = из общего
6. Введение В чем самоорганизация? Саморганизация системы – это изменение ее структуры/параметров под влиянием внешних условий Самоорганизация
7. Введение Возможности ИМСОМ позволяет выбрать модель оптимальной сложности из заданного класса моделей, чтобы описать ограниченный набор
8. Введение Терминология Термин ИМСОМ был почти сразу заменен авторами метода на термин МГУА МГУА = метод
9. Содержание Введение Коллеги и соавторы Индуктивное моделирование Статистический стеммер Subjectivity/Sentiment analysis Терминография Ресурсы
10. Коллеги и соавторы Pavel Makagonov Titled Research Professor Mixteca University of Technology, Mexico Ex Vice-Director of
11. Коллеги и соавторы Xavier Blanco Titled Professor of French Philology Department Universidad Autonoma de Barcelona, Spain
12. Коллеги и соавторы Alexander Gelbukh Chief of NLP Laboratory Center for Computing Research National Polytechnic Institute,
13. Содержание Введение Коллеги и соавторы Индуктивное моделирование Статистический стеммер Subjectivity/Sentiment analysis Терминография Ресурсы
14. Индуктивное Моделирование Классы и сложность модели ИМСОМ имеет дело с заранее фиксированным классом моделей. Класс моделей
15. Индуктивное моделирование Каноническая проблема Описание временного ряда некоторой формулой Пусть начальная информация задана ? Заданная информация
16. Индуктивное моделирование Мы имеем начальную информацию Заданная регрессионная модель Ym= a0 + a1t or Ym=a0+a1t +
17. Индуктивное моделирование Каноническая проблема Описание временного ряда некоторой формулой Пусть начальная информация отсутствует ? У нас
18. Индуктивное моделирование Принцип индуктивности ИМСОМ не может найти самую оптимальную модель среди всех возможных! Он ищет
19. Индуктивное моделирование Подход 1 Мы должны обеспечить хорошее свойство прогнозирования, то есть ограниченную чувствительность к новым
20. Индуктивное моделирование Подход 2 Мы должны обеспечить хорошее описательное свойство, то есть независимость описания от данных
21. Индуктивное моделирование Формы внешних критериев Качество модели оценивается внешними критериями Каждый из критериев может быть представлен
22. Индуктивное моделирование Шаги ИМСОМ Определить серию моделей 2. Экспериментальные данные = Данные для обучения + Данные
23. Индуктивное моделирование Применение двух критериев, правило свертки Назначаются веса λ1, λ2: λ1+ λ2 =1 и рассчитывается
24. Индуктивное моделирование Применение двух критериев, последовательный отбор Вместо отбора модели по комбинированному критерию K=λ1Kr + λ2Ku
25. Индуктивное моделирование Подавление шума Утверждение Пусть имеем N-данных наблюдений y1, y2, y3, ....yN Пусть имеем k-параметров
26. Индуктивное моделирование Пример Пусть мы должны восстановить параболу Y(t)=a0 + a1t + a2t2 Имеем N=12, n=12/3=4
27. Варианты ИМСОМ Имеется два традиционных варианта: 1) Комбинаторный вариант ИСОМ - КОМБИ Перебираются всевозможные модели в
28. Индуктивное моделирование Пример применения селекции Пусть имеем 20 точек наблюдений = 10 (обучение) + 10 (контроль)
29. Содержание Введение Коллеги и соавторы Индуктивное моделирование Статистический стеммер Subjectivity/Sentiment analysis Терминография Ресурсы
30. Постановка задачи Предмет рассмотрения Статистический стеммер. Построение эмпирической формулы, обученной на примерах Техника Индуктивное моделирование
31. Постановка задачи Стемминг Состоит в выборе части слова, отражающей основное значение слова Примеры sad, sadly, sadness,
32. Постановка задачи Проблема Построить формулу для принятия решения о подобии пары слов Актуальность Нам приходится обрабатывать
33. Эмпирические формулы Параметры для сравнения пары слов Мы будем обучать формулу на положительных примерах, то есть
34. Эмпирические формулы Требования Построенная формула должна отражать два обстоятельства: Поддержать факт, что небольшое относительное число несовпавших
35. Эмпирические формулы Модели для принятия решений Какую формулу стоит настраивать под примеры, заданные экспертом? n/s Здесь:
36. Эмпирические формулы Число степеней свободы Как было указано выше, формула должна зависеть от: - относительной доли
37. Дискриминация длинных слов yyynn yyynn n/s = 0.4 yyyyyynnnn yyyyyynnnn n/s = 0.4 что они подобны
38. Эмпирические формулы Сложность модели F(y) ? Чтобы определить сложность модели (степень полинома), мы используем ИМСОМ =
39. Подход 1) Мы рассматриваем экстремальные случаи (равенство) n/s = a0 + a1y + a2y2 + ...
40. ИМСОМ - Реализация Пример n/s = a0 + a1y + a2y2+.... asking asked n = 5
41. Внешние критерии Регулярность Kr Несмещенность Ku Комбинированный критерий K = 2/3 Kr + 1/3 Ku Эксперимент
42. Результаты Формулы (линейные модели) French n/s ≤ 0.48 – 0.024 y Italian n/s ≤ 0.57 –
43. Демонстрация Пример Начальный список 1-й шаг 2-й шаг 3-й шаг transform (7) transform (12) transform (19)
44. Дискуссия и выводы Примеры Мартина Портера Д-р Портер, автор знаменитого стеммера, реализованного на многих европейских языках,
45. Дискуссия и выводы Недостатки стеммера - Относительно низкая точность (80%-90%) - Зависимость результатов применения от длины
46. Содержание Введение Коллеги и соавторы Индуктивное моделирование Статистический стеммер Subjectivity/Sentiment analysis Терминография Ресурсы
47. Введение Предмет рассмотрения Subjectivity/Sentiment analysis. Построение эмпирических формул для автоматической оценки вежливости, удовлетворенности и компетентности на
48. Введение Subjectivity/Sentiment анализ это область обработки естественных языков (NLP), которая направлена на автоматическую оценку эмоций и
49. Введение Одно из приложений SSA это обработка диалогов. В настоящее время такая обработка широко используется для
50. Исходные данные Данные состояли из 85 диалогов между пассажирами и справочной железнодорожного вокзала Барселоны Язык –
51. Пример: Вежливость
52. Вежливость, параметризация А. Индиктор первого приветствия (g - greeting) Имеет значение 1, при первом приветствии «Could
53. Вежливость, параметризация Для числового представления v и w следует учесть - длину документа информационный аспект появления
54. Вежливость, параметризация Ручные оценки учитывают только вежливость (но не грубость) по шкале: 0 - обычная вежливость
55. Вежливость, параметризация
56. Вежливость, модели Мы предположили, что зависимость между числовыми индикаторами и и уровнем вежливости может быть описана
57. Вежливость, модели Подготовка данных для МНК
58. Вежливость, результаты Наилучшая модель (по двум критериям) F(g,w,v) = 0.18g + 3.29w + 3.43v ε =0.16
59. Удовлетворенность, параметризация Серия моделей Model 0: F(b,f,q) = A0 Model 1: F(b,f,q) = B100b + B010f
60. Удовлетворенность, результаты Наилучшие модели (по двум критериям) F(b,f,q) = 0.18b + 0.06f - 1.11q ε =
61. Компетентность,параметризация Серия моделей Model 0: F(b,f,q) = A0 Model 1: F(b,f,q) = B100l + B010f +
62. Компетентность, результаты Наилучшая модель (по двум критериям) F(f,l,q) = 0.52f + 0.19l + 0.16q ε =0.26
63. Выводы 1. ИМСОМ обеспечивает методологию для автоматической оценки различных «размытых» характеристик диалога, имеющих высокий уовень субъективности
64. Содержание Введение Коллеги и соавторы Индуктивное моделирование Статистический стеммер Subjectivity/Sentiment analysis Терминография Ресурсы
65. Предмет рассмотрения Терминография. Выявление гранулярности терминов заданной предметной области Техника Идеи индуктивного моделирования
66. Под терминами будем понимать ключевые слова предметной области Ключевые слова используются для: A. Суммаризации документов Б.
67. Главные термины области Рост специфичности Применения гранулированных терминов: 1. Суммаризация документов по различным уровням детальности 2.
68. Определение гранулярности на основе корпуса текстов (corpus-based granularity): Уровни гранулярности это классы терминов, имеющих близкие значения
69. Definitions Определение проблемы: Выявление уровней гранулярности эквивалентно проблеме размещения точек перехода на оси специфичности. Проблема гранулярности
71. Мы используем ИМСОМ-подобный алгоритм Напомним основные шаги ИМСОМ: 1. Эксперт определяет последовательность моделей от простейшей к
72. Первое, мы делим документы на два набора. Оба они равноценны и называем их Набор-1 и Набор-2,
73. Шаги алгоритма 1. Фиксируем длину окна специфичности, прикладываем его к началу диапазона специфичности и берем термины
74. Главная гипотеза: Если распределения специфичностей внутри некоторого окна специфичности для обоих наборов данных близки, то термины,
75. Внешние критерии Давайте зафиксируем одно и тоже окно Δs = [s1,s2] внутри диапазонов специфичности для каждого
76. Мы используем корпус, названный hep-ex, изначально принадлежащий CERN -у. Он состоит из абстрактов статей, связанных с
77. Поведение критерия K1 (основанный на энтропии) для различной длины окна
78. Поведение критерия K1 (основанного на энтропии) для различных разбиений корпуса
81. Слова в Таблице упорядочены согласно их специфичности
82. 1) Мы постарались формализовать понятие гранулярности для терминологии предметной области. Для этого мы ввели различные меры
83. Содержание Введение Коллеги и соавторы Индуктивное моделирование Статистический стеммер Subjectivity/Sentiment analysis Терминография Ресурсы
84. Ресурсы - Украина (1) Международный центр информационных технологий и систем, НАН и МОН Украины, отдел информационных
85. Ресурсы - Украина Поддержка сообщества ИМ Отдел проф. В.С. Степашко организует: 1) Ежегодные Летние Школы по
86. Ресурсы - Украина (2) Компания Geos Research Group, Киев, Украина http:// www.gmdhshell.com Компания разработала промышленную оболочку
87. Ресурсы - Украина Пример работы оболочки GMDH-Shell
88. Ресурсы - Москва (1) Вычислительный Центр РАН Московский физико-технический институт http:// www.machinelearning.ru Это Wiki подобный ресурс,
89. Ресурсы - Москва Часть главной страницы Wiki ресурса http:// www.machinelearning.ru
90. Ресурсы - Москва (2) Компания Forecsys, Москва, Россия http:// www.forecsys.ru/site/about/about/ Компания Forecsys — российский вендор BI-решений.
91. Ресурсы - Москва Процедуры генерации моделей, реализованные в MVR Модель как произвольная суперпозиция Список порождающих функций
93. Скачать презентацию

Содержание
Введение
Коллеги и соавторы
Индуктивное моделирование
Статистический стеммер
Subjectivity/Sentiment analysis
Терминография
Ресурсы

Введение
История
ИМСОМ = Индуктивный Метод Самоорганизации Моделей
Был разработан в в 70-80 годы

акад. А.Г. Ивахненко
и его учениками
Принадлежит к числу эволюционных алгоритмов
Искусственного Интеллекта

Современность
В настоящее время говорят не столько об индуктивном методе,
сколько об индуктивном подходе к процедуре моделирования.
Поэтому используются термины:
- индуктивное моделирование
- индуктивное порождение моделей
Они отражают развитие ИМСОМ

Слайд 4

Введение
Что стоит за названием?
ИМСОМ = Индуктивный Метод Самоорганизации Моделей
Понятие модели зависит от

задачи. Если необходимо описать
связь наблюдений (Xi,Yi), то модель это зависимость Yi = F(Xi)

Экспериментальные данные

Линейная модель - прямая

Квадратичная модель - парабола

Слайд 5

Введение
В чем индуктивность?
Индукция = из частных случаев делают обобщенный вывод
Дедукция =

из общего результата делают выводы о частных случаях
Пример индуктивного вывода – метод математической индукции
Индуктивность в нашем случае состоит в том, что мы рассматриваем
конкретные частные модели, шаг за шагом усложняя их:
прямая, парабола, полином 3-го порядка, 4-го порядка, и т.д.
Но мы не рассматриваем одновременно все модели
(степенные и тригоном. полиномы, ряды экспонет, и т.п.)
или даже какой-то конкретный класс в целом

Слайд 6

Введение
В чем самоорганизация?
Саморганизация системы – это изменение ее структуры/параметров
под влиянием

внешних условий
Самоорганизация у нас состоит в том, что модель меняется
от простой к сложной в процессе автоматического перебора моделей,
пока она не достигнет оптимальной сложности
Внешние условия – это данные наблюдений. Они отражают:
как поведение объекта, так и шум
Тогда очевидно, что:
- Простая модель не реагирует на шум, но плохо отражает объект
- Сложная модель отражает объект, но чувствительна к шуму
Есть некоторый оптимум, который достигается в процессе перебора
Термин используется условно – у нас иллюзия самоорганизации. Ведь
это мы меняем модель, а не она сама себя

Слайд 7

Введение
Возможности
ИМСОМ позволяет выбрать модель оптимальной сложности
из заданного класса моделей, чтобы описать ограниченный
набор

экспериментальных данных
Ограничения
ИМСОМ обладает преимуществами, когда отсутствует или
почти отсутствует априорная информация о распределении
параметров модели или даже о структуре модели в целом
Если такая информация имеется, или если данных достаточно много,
чтобы такую информацию извлечь, то надо использовать другие
подходы. Они могут дать лучшие результаты !

Слайд 8

Введение
Терминология
Термин ИМСОМ был почти сразу заменен авторами метода
на термин МГУА
МГУА =

метод группового учета аргументов
GMDH = group method of data handling (англ.)
Приложения
- Аппроксимация функций
- Выбор вычислительной схемы
- Cluster validity
- Self-organizing Data Mining
- Обучение нейронных сетей
и т.д.

Слайд 9

Содержание
Введение
Коллеги и соавторы
Индуктивное моделирование
Статистический стеммер
Subjectivity/Sentiment analysis
Терминография
Ресурсы

Слайд 10

Коллеги и соавторы
Pavel Makagonov
Titled Research Professor
Mixteca University of Technology, Mexico

Ex Vice-Director of Moscow Mayor Office
mpp2003@ inbox.ru
Автор первых приложений индуктивного
метода к задачам обработки текстов
Автор модификации индуктивного подхода:
селекция моделей вместе с селекцией данных

Слайд 11

Коллеги и соавторы
Xavier Blanco
Titled Professor of French Philology Department
Universidad Autonoma

de Barcelona, Spain
xavier.blanco@ uab.cat
Angels Catena
Coordinator of Master Program
Professor of French Philology Department
Universidad Autonoma de Barcelona, Spain
angels.catena@ uab.cat

Слайд 12

Коллеги и соавторы
Alexander Gelbukh
Chief of NLP Laboratory
Center for

Computing Research
National Polytechnic Institute, Mexico
gelbukh@ gelbukh.com
Natalia Ponomareva
Ph.D. student
Mathematician-Programmer
Wolwergampton University, UK
nata.ponomareva@ gmail.com

Слайд 13

Содержание
Введение
Коллеги и соавторы
Индуктивное моделирование
Статистический стеммер
Subjectivity/Sentiment analysis
Терминография
Ресурсы

Слайд 14

Индуктивное Моделирование
Классы и сложность модели
ИМСОМ имеет дело с заранее фиксированным классом моделей.

Класс моделей зависит от рассматриваемой задачи.
Это могут быть:
- полиномы одной переменной
- линейные функции многих переменных
- кластеры объектов
и т.п.
Сложность модели – максимальное число параметров
при заданной структуре модели
В указанных выше случаях это:
- старшая степень полинома (+1)
- число переменных (+1)
- число кластеров
и .п.

Слайд 15

Индуктивное моделирование
Каноническая проблема
Описание временного ряда некоторой
формулой
Пусть начальная информация задана ?
Заданная

информация
- Тип зависимости (формула)
- Серия моделей из заданного класса и уровень шума
и т.п.

Экспериментальные данные

Слайд 16

Индуктивное моделирование
Мы имеем начальную информацию
Заданная регрессионная модель
Ym= a0 + a1t or

Ym=a0+a1t + a2t2 , etc.
|| Ym – Ye || => мин (используем МНК)
или
Серия моделей из заданного класса
с заданным уровнем шума
Ym=a0+a1t + a2t2 + .....
|| Ym – Ye || => ε2 (используем МНК)
МНК = метод наименьших квадратов

Точки – эксперим. данные
Красные линии – возм. модели

Корридор отражает ошибку ε

Слайд 17

Индуктивное моделирование
Каноническая проблема
Описание временного ряда некоторой формулой
Пусть начальная информация отсутствует ?
У

нас нет информации
В этом случае мы используем Индуктивное Моделирование
Для этого мы фиксируем класс моделей
Замечание: класс моделей должен отражать возрастающую сложность
модели

Экспериментальные данные

Слайд 18

Индуктивное моделирование
Принцип индуктивности
ИМСОМ не может найти самую оптимальную модель среди всех
возможных!

Он ищет оптимальную модель только в заданном классе
Пример класса моделей: полиномы одной пременной (t)
Y0 = a0
Y1 = a0+a1t
Y2 = a0+a1t + a2t2;
........
Пример класса моделей: линейные функции многих пременных (x1,x2..)
Y0 = a0
Y1 = a0 + a1x1 Y1 = a0 + a2x2 .. Y1 = a0 + a10x10 ..
Y2 = a0 + a1x1 + a2x2 Y2 = a0 + a1x1 + a3x3 … Y2 .= a0+ a9x9 + a99x99 ..

Слайд 19

Индуктивное моделирование
Подход 1
Мы должны обеспечить хорошее свойство
прогнозирования, то есть ограниченную
чувствительность к

новым данным

Критерий 1 (регулярность)
Mодель, oбученная на 1-м наборе данных должна давать хорошие
результаты на втором наборе данных ( T обучение, C контроль)

Тraining – нечетные точки

Control – четные точки

Экспериментальные данные

Слайд 20

Индуктивное моделирование
Подход 2
Мы должны обеспечить хорошее
описательное свойство, то есть
независимость описания

от данных

Критерий 2 (несмещенность)
Модель, обученная на 1-м наборе и проверенная на 2-м наборе
(красная линия), должна быть подобна модели, обученной на 2-м
наборе и проверенной на 1-м наборе (фиолетовая прямая)

Экспериментальные данные

Тraining – нечетные точки

Control – четные точки

Слайд 21

Индуктивное моделирование
Формы внешних критериев
Качество модели оценивается внешними критериями
Каждый из критериев может

быть представлен в одной из 2-х форм:
1) Критерии, ориентированные на данные
2) Критерии, ориентированные на модель

Критерий регулярности
по данным: подсчет невязки ~ √∑e2i

Критерий регулярности
по модели: оценка близости
~ |AT -AC|/ AT + |BT -BC|/ BT

Слайд 22

Индуктивное моделирование
Шаги ИМСОМ <= !
Определить серию моделей
2. Экспериментальные данные =

Данные для обучения +
Данные для контроля
3. Для заданной сложности
определяется лучшая модель
для каждого набора, здесь
используется внутренний критерий
4. Обе модели сравниваются
с помощью внешних критериев
(регулярность, несмещенность)

5. Если внешний критерий
достигает минимума,
то STOP, иначе
увеличиваем сложность
модели и идем на шаг 3

Слайд 23

Индуктивное моделирование
Применение двух критериев, правило свертки
Назначаются веса λ1, λ2: λ1+ λ2

=1 и рассчитывается
комбинированный критерий K=λ1Kr + λ2Ku
- Выбирается модель, лучшая по комбинированному критерию

Слайд 24

Индуктивное моделирование
Применение двух критериев, последовательный отбор
Вместо отбора модели по комбинированному
критерию K=λ1Kr

+ λ2Ku мы используем другую стратегию
- Выбираются лучшие модели по Kr
- Из них выбираются лучшие по Ku

В данном примере лучшими по Kr являются модели 1,2 и 3
Критерий Ku отбирает модель 3

Слайд 25

Индуктивное моделирование
Подавление шума
Утверждение
Пусть имеем N-данных наблюдений y1, y2, y3, ....yN
Пусть имеем k-параметров

линейной регрессионной модели
F(t) = a0 + a1t + a2t2 + ….ak-1tk-1
Число n=N / k есть удельное число измерений
Тогда при расчете параметров модели шум будет подавлен в √n раз

Пояснение
Пусть имеем с.в. X c отклонением σ. Пусть X = x1,x2,x3,….. выборка
Известно, что среднее M =∑xi/n имеет отклонение σM = σ/ √n
Утверждение (см.выше) следует из того, что коэффициенты регрессии
также рассчитываются по формулам, связанным с усреднением

Слайд 26

Индуктивное моделирование
Пример
Пусть мы должны восстановить параболу Y(t)=a0 + a1t + a2t2
Имеем N=12,

n=12/3=4
Тогда подавление шума √4 = 2

Следствие
Требование подавления шума определяет ограничения на
необходимый объем данных измерений.
А именно, для подавления шума в 2-3 раза (это обычное требование)
на один параметр должно приходиться 5-10 измерений

Экспериментальные данные

Слайд 27

Варианты ИМСОМ
Имеется два традиционных варианта:
1) Комбинаторный вариант ИСОМ - КОМБИ
Перебираются

всевозможные модели в заданном классе от простых
к сложным без селекции моделей. То есть, рассматриваются:
0-й порядок Y0 = a0,
1-й порядок Y1 = a0+a1x
2-й порядок Y2 = a0+a1x + a2x2
3-й порядок Y3 = a0+a1x + a2x2 + a3x3 …..
2) Селективный вариант ИМСОМ - МГУА
В процессе перебора оставляют лишь наиболее значимые элементы
модели, параметр селекции p задается. Пусть p = 2. Тогда имеем:
0-й порядок Y0 = a0,
1-й порядок Y1 = a0+a1x
2-й порядок Y2 = a0+ a2x2 Y2 = a1 x + a2x2
3-й порядок Y3 = a0+ a3x3 Y3 = a1x + a3x3 Y3 = a2x2 + a3x3

Индуктивное моделирование

Слайд 28

Индуктивное моделирование
Пример применения селекции
Пусть имеем 20 точек наблюдений = 10 (обучение)

+ 10 (контроль)
Необходимо восстановить полиномиальную модель F(t) =a0+∑ai ti
Пусть число параметров = 2, тогда шум подавляется в √(10/2) ~ 2 раза
1) Используем КОМБИ
Тогда, очевидно, что максимально-допустимый порядок модели 1
Мы сможем рассмотреть только F1(t) = a0 и F1(t) =a0+ a1t
2) Используем МГУА с селекцией 2-х параметрических моделей
Тогда на каждом шаге отбираем модели с 2 параметрами
В результате можем «добраться», например, до F5(t) = a3t3+ a5t5
Почему называется МГУА = Метод Группового Учета Аргументов?
На каждом уровне сложности модели происходит селекция
наиболее перспективных сочетаний аргументов (признаков)

Слайд 29

Содержание
Введение
Коллеги и соавторы
Индуктивное моделирование
Статистический стеммер
Subjectivity/Sentiment analysis
Терминография
Ресурсы

Слайд 30

Постановка задачи
Предмет рассмотрения
Статистический стеммер.
Построение эмпирической формулы, обученной на примерах
Техника
Индуктивное моделирование

Слайд 31

Постановка задачи
Стемминг
Состоит в выборе части слова,
отражающей основное значение слова
Примеры
sad, sadly,

sadness, sadden, saddened
move, moving, moved, [moveable <= ? ]
Применение
Индексация ( параметризация ) текстов,
где используются частотные списки слов

Слайд 32

Постановка задачи
Проблема
Построить формулу для принятия решения
о подобии пары слов
Актуальность
Нам приходится обрабатывать

многоязыковые корпуса и
документов. Реальность: 25 официальных языков в Европе
Ограничения подхода
Только для флективных языков

Слайд 33

Эмпирические формулы
Параметры для сравнения пары слов
Мы будем обучать формулу на положительных примерах,

то есть на парах подобных слов

1) asking
asked
y = 3 n = 5 s = 11

2) translation
translated
y = 8 n = 5 s = 21

Здесь:
y - длина общей части пары слов (y - yes) n - длина финальных частей (n - no)
s - общая длина пары слов (s - sum)
n/s - относительная доля несовпавших букв

Слайд 34

Эмпирические формулы
Требования
Построенная формула должна отражать два обстоятельства:
Поддержать факт, что небольшое относительное число

несовпавших букв n/s есть индикатор подобия слов
translation translated
Провести дискриминацию длинных слов. А именно:
чем слова длинее, тем менее вероятно, что они подобны
при том же отношении n/s ratio.
Лингвисты полностью поддержали эти два требования

Слайд 35

Эмпирические формулы
Модели для принятия решений
Какую формулу стоит настраивать
под примеры, заданные экспертом?

n/s < C n/s < F (s) n/s < F(y) n/s < F (y/s) etc.
Здесь:
C - константа
F (.) - некоторая функция

translation
translated
y = 8 n = 5
s = 21

Слайд 36

Эмпирические формулы
Число степеней свободы
Как было указано выше, формула должна зависеть от:
- относительной

доли числа несовпавших букв, то есть n/s
- длины слов, то есть s или y
Это определяет необходимость иметь 2 степени свободы
Рассмотрим:
n/s < C 1 степень свободы n/s n/s < F (s) 2 степени свободы n/s и s n/s < F(y) 2 степени свободы n/s и y n/s < F (y/s) 1 степень свободы, n/s etc.
Коментарий: y = (s-n)/2, тогда y/s = (s-n)/2s = 0.5 (1- n/s)
Поэтому: n/s < F (y/s) имеет 1 степень свободы

Слайд 37

Дискриминация длинных слов
yyynn yyynn n/s = 0.4
yyyyyynnnn yyyyyynnnn n/s = 0.4

<= Пусть они подобны
<= Меньшая вероятность,
что они подобны

Объяснение
Финальная флективная часть в среднем имеет имеет ту же самую
длину независимо от начальной основной части. Действительно:
-ing, -ly, -ingly, -al, -able, -ed, ....
те же самые как для длинных, так и для коротких слов

Эмпирические формулы

Слайд 38

Эмпирические формулы
Сложность модели F(y) ?
Чтобы определить сложность модели (степень полинома), мы
используем ИМСОМ

= Индуктивный Метод Самоопределения Модели
ИМСОМ позволяет построить подходящую модель при
ограниченном наборе экспериментальных данных

Таким образом, наше решение
n/s < F(y), F(y) = a0 + a1y + a2 y2 + a3 y3+... ak yk+... y – длина начальной общей части двух слов n – общая длина их финальных несовпадающих частей
s – общая длина двух слов

Слайд 39

Подход
1) Мы рассматриваем
экстремальные случаи (равенство)
n/s = a0 + a1y + a2y2 + ...

2) Эксперт готовит «вручную»
пары подобных слов
Примеры
asking asked
translation translated
Перед началом эксперимента весь набор
исходных данных (пары подобных слов)
делится на обучающую и контрольную выборки

ИМСОМ - Реализация

Слайд 40

ИМСОМ - Реализация
Пример
n/s = a0 + a1y + a2y2+....
asking asked
n = 5 s =

11 y = 3
0-порядок
5/11 = a0
Линейная
5/11 = a0 + a13
Квадратичная
5/11 = a0 + a13 + a29
и т.д.

Решение
Для решения системы линейных уравнений
мы используем МНК –
метод наименьших квадратов

Слайд 41

Внешние критерии
Регулярность Kr
Несмещенность Ku
Комбинированный критерий
K = 2/3 Kr + 1/3 Ku

Эксперимент

Динамика критерия K
Порядок 0 1 2 3
French 0.19 0.15 0.25 2.78
Italian 0.24 0.17 0.19 0.29
Portugal 0.25 0.20 0.22 2.30
Spanish 0.20 0.16 0.16 0.21

Слайд 42

Результаты
Формулы (линейные модели)
French n/s ≤ 0.48 – 0.024 y
Italian

n/s ≤ 0.57 – 0.035 y
Portugal n/s ≤ 0.53 – 0.029 y
Spanish n/s ≤ 0.55 – 0.029 y
Common n/s ≤ 0.53 – 0.029 y

Точность
Лемматизация 100%,~100%
Стемминг (Porter) > 90%
Эмпирическая формула ~ 80%-90%

Таким образом, общая формула
может быть записана так: n/s ≤ a - by

Слайд 43

Демонстрация
Пример
Начальный список 1-й шаг 2-й шаг 3-й шаг
transform (7) transform (12) transform

(19) transform (19)
transformed(5) transformation(7) translating (6) translat (13)
transformation(7) translating (6) translator (7) transport (11)
translating (6) translator (7) transport (11) transported (2)
translator (7) transport (11) transported (2)
transport (11) transported (2)
transported (2)
Здесь:
Скобки содержат число появлений слов в тексте.
Значения сумируются, когда слова рассматриваются, как подобные

Слайд 44

Дискуссия и выводы
Примеры Мартина Портера
Д-р Портер, автор знаменитого стеммера, реализованного
на многих

европейских языках, прислал письмо с примерами
1a. bead, bear, beat (короткий текст)
1b. cat, cats (короткий текст)
2a. bead, ..., beagle, beagling, ..., bear,...,
beast, beastliness, ..., beat (длинный текст)
2b. cat, catalogue, cataplasm, catastrophe,
catenary, cats (длинный текст)
Примеры показывают влияние длины текста на работу стеммера:
- на коротких текстах различные по смыслу слова
могут оказаться рядом и быть принятыми за сходные (см. 1a)
- на длинных текстах сходные по смыслу слова могут не
оказаться рядом, и сходство не будет обнаружено (см. 2b)

Слайд 45

Дискуссия и выводы
Недостатки стеммера
- Относительно низкая точность (80%-90%)
- Зависимость результатов применения от

длины текста
Преимущества стеммера
- Языково независим – легко настраивается на язык и тему
- Простая настройка на заданный уровень ошибок 1 и 2 рода
Замечания
а) зависимость результатов от длины текста легко устраняется,
если проверка сходства выполняется по всему списку, а не только
для рядом стоящих слов
б) ошибки 1-го рода (пропуск сходных по смыслу слов) легко
обнаруживаются и исправляются при ручном контроле результата

Слайд 46

Содержание
Введение
Коллеги и соавторы
Индуктивное моделирование
Статистический стеммер
Subjectivity/Sentiment analysis
Терминография
Ресурсы

Слайд 47

Введение
Предмет рассмотрения
Subjectivity/Sentiment analysis. Построение эмпирических формул для автоматической оценки вежливости, удовлетворенности и компетентности

на основе диалогов
Техника
Индуктивное моделирование

Слайд 48

Введение
Subjectivity/Sentiment анализ это область обработки
естественных языков (NLP), которая направлена на
автоматическую

оценку
эмоций и мнений людей по отношению к некоторому объекту или событию. Эта тема стала популярной в эпоху Web 2.0
Это может быть интересно для таких бизнесс приложений, как оценка:
1. Удовлетворенности покупателей товарами и услугами
2. Мнений, относящихся к продуктам или событиям
3. Компетенции автора, использующего некий товар и услугу

Слайд 49

Введение
Одно из приложений SSA это обработка диалогов.
В настоящее время такая обработка

широко используется
для построения автоматических диалоговых систем
и для улучшения качества обслуживания.
В данной работе мы рассмотрим построение эмпирической
формулы для оценки вежливости и приведем формулы
для оценки удовлетворенности и компетенции
Будут использованы:
объективные лексико-грамматические индикаторы,
связанные с этими характеристиками
(ii) субъективные экспертные оценки диалогов

Слайд 50

Исходные данные
Данные состояли из 85 диалогов между пассажирами
и справочной железнодорожного вокзала

Барселоны
Язык – испанский и каталанский

Распределение экспериментального материала
Обучение: 30 диалогов
Контроль: 30 диалогов
Экзамен: 25 диалогов

Слайд 51

Пример: Вежливость

Слайд 52

Вежливость, параметризация
А. Индиктор первого приветствия (g - greeting)
Имеет значение 1, при

первом приветствии
«Could you please inform me ...»
и значение 0, если нетt:
«I need the information about ...»
Б. Вежливые слова (w-words):
«please», «thank you», «excuse me»
В. Вежливые грамматические формы (v-verbs):
глаголы в состагательном наклонении, то есть
«could», «would»,...

Слайд 53

Вежливость, параметризация
Для числового представления v и w следует учесть
- длину документа
информационный

аспект появления слов
Поэтому вводятся:
нормировка на число фраз и подавление высоких частот
Вежливые слова: w =Ln (l + Nw /L),
Вежливые формы: v =Ln (l + Nv/L),
где Nw, Nv число вежливых слов и грамматических форм
соответственно, и L число фраз.

Слайд 54

Вежливость, параметризация
Ручные оценки учитывают только вежливость
(но не грубость) по шкале:
0

- обычная вежливость
0.5 - повышенная вежливость
- чрезмерная вежливость
Примечание: опытные эксперты использовали шаг 0.25

Слайд 55

Вежливость, параметризация

Слайд 56

Вежливость, модели
Мы предположили, что зависимость между числовыми
индикаторами и и уровнем

вежливости может быть описана
полиномиальной моделью.
Серия моделей увеличивающейся сложности:
Model 0: F(g,w,v) = A0
Model 1: F(g,w,v) = C0g + B10w + B01v
Model 2: F(g,w,v) = C0g + B10w + B01v + B11vw
Model 3: F(g,w,v) = C0g + B10w2 + B01v2
Model 4: F(g,w,v) = C0g + B11vw + B20w2 + B02v2
Model 5: F(g,w,v) = C0g + B10w + B01v + B11vw + B20w2 + B02v2

Слайд 57

Вежливость, модели
Подготовка данных для МНК

Слайд 58

Вежливость, результаты
Наилучшая модель (по двум критериям)
F(g,w,v) = 0.18g + 3.29w + 3.43v

ε =0.16

Слайд 59

Удовлетворенность, параметризация
Серия моделей
Model 0: F(b,f,q) = A0
Model 1: F(b,f,q) = B100b +

B010f + B001q
Model 2: F(b,f,q) = B100b + B010f + B001q + B110bf + B101bq + B011fq
Model 3: F(b,f,q) = B200b2 + B020f2 + B002q2
Model 4: F(b,f,q) = B110bf + B101bq + B011fq + B200b2 + B020f2 + B002q2
Model 5: F(b,f,q) = B100b + B010f + B001q + B110bf + B101bq + B011fq +
B200b2 + B020f2 + B002q2
где:
b and f – положительная обратная связь с пользователем,
в теле диалога ('well', 'ok', 'all right', 'correct', 'splendid', etc) и конце
q – вопрос-ответ, что отражает неудовлетворенность

Слайд 60

Удовлетворенность, результаты
Наилучшие модели (по двум критериям)
F(b,f,q) = 0.18b + 0.06f - 1.11q

ε = 0.35
F(b,f,q) = 0.20b2 + 0.006f2 - 1.78q2 ε = 0.38

Слайд 61

Компетентность,параметризация
Серия моделей
Model 0: F(b,f,q) = A0
Model 1: F(b,f,q) = B100l + B010f

+ B001q
Model 2: F(b,f,q) = B100l + B010f + B001q + B110lf + B101lq + B011fq
Model 3: F(b,f,q) = B200l2 + B020f2 + B002q2
и т.д., как в предыдущем случае
где:
f – уровень компетентности в первом вопросе пассажира
('any train to…?‘ vs. 'regional express at night to…?', etc.)
l –использованная специализированная лексика (номер поезда,..)
q – вопрос-ответ, который относится к вопросам пассажира и
может отражать положительный и отрицательный ответ

Слайд 62

Компетентность, результаты
Наилучшая модель (по двум критериям)
F(f,l,q) = 0.52f + 0.19l + 0.16q

ε =0.26

Слайд 63

Выводы
1. ИМСОМ обеспечивает методологию для автоматической
оценки различных «размытых» характеристик диалога,
имеющих

высокий уовень субъективности
Построенные формулы правильно отражают
вклад выбранных факторов в оцениваемую
характеристику. Ошибки сравнимы с шагом
ручной оценки диалога

Слайд 64

Содержание
Введение
Коллеги и соавторы
Индуктивное моделирование
Статистический стеммер
Subjectivity/Sentiment analysis
Терминография
Ресурсы

Слайд 65

Предмет рассмотрения
Терминография. Выявление гранулярности терминов
заданной предметной области
Техника
Идеи индуктивного моделирования

Слайд 66

Под терминами будем понимать ключевые слова предметной области
Ключевые слова используются для:
A.

Суммаризации документов
Б. Кластеризация документов
В. Построение онтологии

Мы полагаем, что
- корпус документов отражает несколько тем
имеющих различную степень общности
- имеются слова ответственные за каждый уровень

Слайд 67

Главные термины
области
Рост специфичности
Применения гранулированных терминов:
1. Суммаризация документов по различным уровням детальности
2.

Кластеризация документов на различных уровнях детальности
3. Построение онтологий для различных уровней детальности

Мы можем назвать общие термины
предметной области как
coarse-grained terms
и очень специализированные термины как
fine-grained terms
Проблема: собрать вместе
термины, связанные с одним уровнем гранулярности

Слайд 68

Определение гранулярности на основе корпуса текстов (corpus-based granularity):
Уровни гранулярности это классы

терминов, имеющих близкие
значения специфичности

Пусть s0, s1,..., sn расщепление шкалы специфичности на n
сегментов, так что si ≥ si+1, s0=S, sn=s.
Точки si называются точками перехода так как они находятся
на границах между примыкающими уровнями гранулярности

Слайд 69

Definitions
Определение проблемы:
Выявление уровней гранулярности эквивалентно проблеме размещения точек перехода на оси

специфичности.
Проблема гранулярности может быть разделена на две
подпроблемы:
1. Aппроксимация специфичности терминов предметной
области посредством некоторой схемы взвешивания
– основанной на энтропии
– основанной на стандартной девиации
2. Размещение точек перехода на оси специфичности
Мы будем использовать идеи индуктивного моделирования

Слайд 70

Слайд 71

Мы используем ИМСОМ-подобный алгоритм
Напомним основные шаги ИМСОМ:
1. Эксперт определяет последовательность моделей

от простейшей к более сложным
2. Экспериментальные данные делятся на обучающую
и контрольную выборки
3. Для заданного вида модели определяются наилучшие
параметры на обучающей выборке с помощью некоторого
внутреннего критерия (например МНК) <= сейчас шаг исключен
4. Полученная модель проверяется на контрольной выборке
на основе некоторого внешнего критерия. Глобальный
минимум внешнего критерия определяет оптимальную модель

Слайд 72

Первое, мы делим документы на два набора.
Оба они равноценны и называем

их Набор-1 и Набор-2,
а не обучающий и и контрольный, как в ИМСОМ
Затем мы упорядочиваем все слова согласно их специфичности:

Затем мы вычисляем расстояние между двумя наборами, в рамках скользящего окна

Слайд 73

Шаги алгоритма
1. Фиксируем длину окна специфичности, прикладываем его к началу диапазона

специфичности и берем термины внутри
этого окна для обоих наборов данных
2. Вычисляем расстояние (внешний критерий) между распределениями специфичности обоих наборов данных.
В наших экспериментах мы используем относительную энтропию
для специфичности, основанной на энтропии, и евклидово
расстояние для специфичности, основанной на девиации.
3. Перемещаем окно специфичности и переходим к Шагу 2.

Слайд 74

Главная гипотеза:
Если распределения специфичностей внутри некоторого окна
специфичности для обоих наборов данных

близки,
то термины, содержащиеся в этом окне, принадлежат одному и тому же уровню гранулярности.
Окно, где два распределения достигают максимального
расхождения, содержит точки неустойчивости, т.е. точки перехода
от одного уровня гранулярности к другому.

Слайд 75

Внешние критерии
Давайте зафиксируем одно и тоже окно Δs = [s1,s2] внутри диапазонов

специфичности для каждого набора данных
и давайте обозначим pt=pt(Δs) и pc=pc(Δs) распределения специфичности терминов, покрываемых этим окном для обоих наборов данных соответственно.
1. Относительная энтропия (или расстояние Кульбака-Лейбла):
2. Нормализованная версия Евклидова расстояния:

Слайд 76

Мы используем корпус, названный hep-ex, изначально
принадлежащий CERN -у.
Он состоит из абстрактов

статей, связанных с различными
направлениями физики.
Техника препроцессинга: удаление стоп-слов и стемминг

Слайд 77

Поведение критерия K1 (основанный на энтропии)
для различной длины окна

Слайд 78

Поведение критерия K1 (основанного на энтропии)
для различных разбиений корпуса

Слайд 79

Слайд 80

Слайд 81

Слова в Таблице упорядочены согласно их специфичности

Слайд 82

1) Мы постарались формализовать понятие гранулярности для терминологии предметной области. Для этого

мы ввели различные меры специфичности терминов и оределили класс гранулярности как множество терминов с близкой специфичностью
2) Был предложен ИМСОМ подобный алгоритм для
выявления границ уровней гранулярностей
3) Приблизительно 10%-15% слов были расположены
не на своих местах. Таким образом, метод подходит для
экспресс обработки, но должен быть улучшен для получения более точных результатов

Слайд 83

Содержание
Введение
Коллеги и соавторы
Индуктивное моделирование
Статистический стеммер
Subjectivity/Sentiment analysis
Терминография
Ресурсы

Слайд 84

Ресурсы - Украина
(1) Международный центр информационных технологий и систем, НАН и МОН

Украины, отдел информационных технологий
индуктивного моделирования
http:// www.mgua.irtc.org.ua/ru/index.php?page=index
http:// www.gmdh.net/index.html
Основные направления научных исследований:
- теория ИМ сложных процессов по данным наблюдений
- создание интеллектуальных информ. технологий и инструментов
моделирования и прогнозирования сложных процессов;
- решение прикладных задач моделирования и оптимизации
экономических, экологических и технологических процессов
Заведующий отделом профессор, д.т.н. В.С. Степашко
Адрес: пр.Глушкова 40, Киев, 03680, Украина

Слайд 85

Ресурсы - Украина
Поддержка сообщества ИМ
Отдел проф. В.С. Степашко организует:
1) Ежегодные Летние Школы

по ИМ и смежным вопросам
г. Жукин (Киев.обл.), июль, база ФМШ НАН Украины
2) Ежегодные Международные Конференции и Workshops по ИМ
(чередуются конференции и workshops), Украина, Чехия, Польша
В текущем году:
Евпатория, май 2010 http:// icim2010.felk.cvut.cz

Слайд 86

Ресурсы - Украина
(2) Компания Geos Research Group, Киев, Украина
http:// www.gmdhshell.com
Компания

разработала промышленную оболочку GMDH Shell, которая
реализует ИМСОМ для решения задач Data Mining:

- прогноз временных рядов
- классификация
- визуализация результатов
Используются:
- персональные ЭВМ
- кластерные системы
Для начинающих имеется Wizzard

Слайд 87

Ресурсы - Украина
Пример работы оболочки GMDH-Shell

Слайд 88

Ресурсы - Москва
(1) Вычислительный Центр РАН
Московский физико-технический институт
http:// www.machinelearning.ru
Это Wiki подобный

ресурс, связанный с Machine Learning
Содержит учебные и справочные материалы по ИМ: лекции,
данные экспериментов, описание программ
Администратор ресурса д.ф.-м.н. К.В. Воронцов
Адрес: ул. Вавилова 40, Москва, 119333, Россия

Слайд 89

Ресурсы - Москва
Часть главной страницы Wiki ресурса http:// www.machinelearning.ru

Слайд 90

Ресурсы - Москва
(2) Компания Forecsys, Москва, Россия
http:// www.forecsys.ru/site/about/about/
Компания Forecsys — российский вендор

BI-решений. Компания
производит программное обеспечение и оказывает консалтинговые
услуги в области анализа данных, прогнозирования, моделирования
и оптимизации бизнес-процессов.
Одно из направлений: построение оптимальных регрессионных моделей
Подход: индуктивное порождение моделей (в т.ч. нелинейных)
Техника: обучение/контроль, регуляризация
Реализация: программа MVR в форме открытого кода MatLab
Разработчик MVR: к.ф.-м.н. В.В. Стрижов

Слайд 91

Ресурсы - Москва
Процедуры генерации моделей, реализованные в MVR
Модель как произвольная
суперпозиция
Список порождающих

функций

f=g1(g2(x1),g3(x2))+ g4(x2,θ)

Индуктивное моделирование: содержание и примеры применения в задачах обработки текстов М. Александров Академия народного хозяйст

Содержание

СодержаниеВведениеКоллеги и соавторыИндуктивное моделированиеСтатистический стеммерSubjectivity/Sentiment analysisТерминографияРесурсы

ВведениеИсторияИМСОМ = Индуктивный Метод Самоорганизации Моделей Был разработан в в 70-80 годы

ВведениеЧто стоит за названием?ИМСОМ = Индуктивный Метод Самоорганизации МоделейПонятие модели зависит от

ВведениеВ чем индуктивность?Индукция = из частных случаев делают обобщенный вывод Дедукция =

ВведениеВ чем самоорганизация? Саморганизация системы – это изменение ее структуры/параметров под влиянием

ВведениеВозможностиИМСОМ позволяет выбрать модель оптимальной сложностииз заданного класса моделей, чтобы описать ограниченныйнабор

ВведениеТерминологияТермин ИМСОМ был почти сразу заменен авторами метода на термин МГУАМГУА =

СодержаниеВведениеКоллеги и соавторыИндуктивное моделированиеСтатистический стеммерSubjectivity/Sentiment analysisТерминографияРесурсы

Коллеги и соавторыPavel Makagonov Titled Research Professor Mixteca University of Technology, Mexico

Коллеги и соавторыXavier Blanco Titled Professor of French Philology Department Universidad Autonoma

Коллеги и соавторыAlexander Gelbukh Chief of NLP Laboratory Center for

СодержаниеВведениеКоллеги и соавторыИндуктивное моделированиеСтатистический стеммерSubjectivity/Sentiment analysisТерминографияРесурсы

Индуктивное МоделированиеКлассы и сложность моделиИМСОМ имеет дело с заранее фиксированным классом моделей.

Индуктивное моделированиеКаноническая проблемаОписание временного ряда некоторой формулой Пусть начальная информация задана ?Заданная

Индуктивное моделированиеМы имеем начальную информациюЗаданная регрессионная модель Ym= a0 + a1t or

Индуктивное моделированиеКаноническая проблемаОписание временного ряда некоторой формулойПусть начальная информация отсутствует ? У

Индуктивное моделированиеПринцип индуктивностиИМСОМ не может найти самую оптимальную модель среди всех возможных!

Индуктивное моделированиеПодход 1 Мы должны обеспечить хорошее свойствопрогнозирования, то есть ограниченнуючувствительность к

Индуктивное моделированиеПодход 2Мы должны обеспечить хорошее описательное свойство, то есть независимость описания

Индуктивное моделированиеФормы внешних критериевКачество модели оценивается внешними критериями Каждый из критериев может

Индуктивное моделированиеШаги ИМСОМ <= ! Определить серию моделей2. Экспериментальные данные =

Индуктивное моделированиеПрименение двух критериев, правило свертки Назначаются веса λ1, λ2: λ1+ λ2

Индуктивное моделированиеПрименение двух критериев, последовательный отборВместо отбора модели по комбинированному критерию K=λ1Kr

Индуктивное моделированиеПодавление шумаУтверждениеПусть имеем N-данных наблюдений y1, y2, y3, ....yNПусть имеем k-параметров

Индуктивное моделированиеПримерПусть мы должны восстановить параболу Y(t)=a0 + a1t + a2t2Имеем N=12,

Варианты ИМСОМИмеется два традиционных варианта:1) Комбинаторный вариант ИСОМ - КОМБИ Перебираются

Индуктивное моделированиеПример применения селекции Пусть имеем 20 точек наблюдений = 10 (обучение)

СодержаниеВведениеКоллеги и соавторыИндуктивное моделированиеСтатистический стеммерSubjectivity/Sentiment analysisТерминографияРесурсы

Постановка задачиПредмет рассмотренияСтатистический стеммер. Построение эмпирической формулы, обученной на примерахТехникаИндуктивное моделирование

Постановка задачиСтемминг Состоит в выборе части слова, отражающей основное значение словаПримерыsad, sadly,

Постановка задачиПроблемаПостроить формулу для принятия решения о подобии пары словАктуальностьНам приходится обрабатывать

Эмпирические формулыПараметры для сравнения пары словМы будем обучать формулу на положительных примерах,

Эмпирические формулыТребованияПостроенная формула должна отражать два обстоятельства:Поддержать факт, что небольшое относительное число

Эмпирические формулыМодели для принятия решенийКакую формулу стоит настраивать под примеры, заданные экспертом?

Эмпирические формулыЧисло степеней свободыКак было указано выше, формула должна зависеть от:- относительной

Дискриминация длинных словyyynn yyynn n/s = 0.4yyyyyynnnn yyyyyynnnn n/s = 0.4

Эмпирические формулыСложность модели F(y) ?Чтобы определить сложность модели (степень полинома), мыиспользуем ИМСОМ

Подход1) Мы рассматриваем экстремальные случаи (равенство) n/s = a0 + a1y + a2y2 + ...

ИМСОМ - РеализацияПримерn/s = a0 + a1y + a2y2+.... asking askedn = 5 s =

Внешние критерииРегулярность KrНесмещенность KuКомбинированный критерийK = 2/3 Kr + 1/3 Ku

РезультатыФормулы (линейные модели) French n/s ≤ 0.48 – 0.024 y Italian

ДемонстрацияПримерНачальный список 1-й шаг 2-й шаг 3-й шагtransform (7) transform (12) transform

Дискуссия и выводыПримеры Мартина Портера Д-р Портер, автор знаменитого стеммера, реализованногона многих

Дискуссия и выводыНедостатки стеммера- Относительно низкая точность (80%-90%)- Зависимость результатов применения от

СодержаниеВведениеКоллеги и соавторыИндуктивное моделированиеСтатистический стеммерSubjectivity/Sentiment analysisТерминографияРесурсы

ВведениеПредмет рассмотренияSubjectivity/Sentiment analysis. Построение эмпирических формул для автоматической оценки вежливости, удовлетворенности и компетентности

ВведениеSubjectivity/Sentiment анализ это область обработки естественных языков (NLP), которая направлена на автоматическую

ВведениеОдно из приложений SSA это обработка диалогов. В настоящее время такая обработка

Исходные данныеДанные состояли из 85 диалогов между пассажирами и справочной железнодорожного вокзала

Пример: Вежливость

Вежливость, параметризацияА. Индиктор первого приветствия (g - greeting) Имеет значение 1, при

Вежливость, параметризацияДля числового представления v и w следует учесть- длину документа информационный

Вежливость, параметризацияРучные оценки учитывают только вежливость (но не грубость) по шкале: 0

Вежливость, параметризация

Вежливость, модели Мы предположили, что зависимость между числовыми индикаторами и и уровнем

Вежливость, моделиПодготовка данных для МНК

Вежливость, результатыНаилучшая модель (по двум критериям)F(g,w,v) = 0.18g + 3.29w + 3.43v

Удовлетворенность, параметризацияСерия моделейModel 0: F(b,f,q) = A0Model 1: F(b,f,q) = B100b +

Удовлетворенность, результатыНаилучшие модели (по двум критериям)F(b,f,q) = 0.18b + 0.06f - 1.11q

Компетентность,параметризацияСерия моделейModel 0: F(b,f,q) = A0Model 1: F(b,f,q) = B100l + B010f

Компетентность, результатыНаилучшая модель (по двум критериям)F(f,l,q) = 0.52f + 0.19l + 0.16q

Выводы1. ИМСОМ обеспечивает методологию для автоматической оценки различных «размытых» характеристик диалога, имеющих

СодержаниеВведениеКоллеги и соавторыИндуктивное моделированиеСтатистический стеммерSubjectivity/Sentiment analysisТерминографияРесурсы

Предмет рассмотренияТерминография. Выявление гранулярности терминов заданной предметной областиТехникаИдеи индуктивного моделирования

Под терминами будем понимать ключевые слова предметной областиКлючевые слова используются для: A.

Главные термины областиРост специфичностиПрименения гранулированных терминов:1. Суммаризация документов по различным уровням детальности2.

Определение гранулярности на основе корпуса текстов (corpus-based granularity): Уровни гранулярности это классы

DefinitionsОпределение проблемы: Выявление уровней гранулярности эквивалентно проблеме размещения точек перехода на оси

Мы используем ИМСОМ-подобный алгоритмНапомним основные шаги ИМСОМ:1. Эксперт определяет последовательность моделей

Первое, мы делим документы на два набора. Оба они равноценны и называем

Шаги алгоритма1. Фиксируем длину окна специфичности, прикладываем его к началу диапазона

Главная гипотеза: Если распределения специфичностей внутри некоторого окнаспецифичности для обоих наборов данных

Внешние критерииДавайте зафиксируем одно и тоже окно Δs = [s1,s2] внутри диапазонов

Содержание
Введение
Коллеги и соавторы
Индуктивное моделирование
Статистический стеммер
Subjectivity/Sentiment analysis
Терминография
Ресурсы

Введение
История
ИМСОМ = Индуктивный Метод Самоорганизации Моделей
Был разработан в в 70-80 годы

Введение
Что стоит за названием?
ИМСОМ = Индуктивный Метод Самоорганизации Моделей
Понятие модели зависит от

Введение
В чем индуктивность?
Индукция = из частных случаев делают обобщенный вывод
Дедукция =

Введение
В чем самоорганизация?
Саморганизация системы – это изменение ее структуры/параметров
под влиянием

Введение
Возможности
ИМСОМ позволяет выбрать модель оптимальной сложности
из заданного класса моделей, чтобы описать ограниченный
набор

Введение
Терминология
Термин ИМСОМ был почти сразу заменен авторами метода
на термин МГУА
МГУА =

Содержание
Введение
Коллеги и соавторы
Индуктивное моделирование
Статистический стеммер
Subjectivity/Sentiment analysis
Терминография
Ресурсы

Коллеги и соавторы
Pavel Makagonov
Titled Research Professor
Mixteca University of Technology, Mexico

Коллеги и соавторы
Xavier Blanco
Titled Professor of French Philology Department
Universidad Autonoma

Коллеги и соавторы
Alexander Gelbukh
Chief of NLP Laboratory
Center for

Содержание
Введение
Коллеги и соавторы
Индуктивное моделирование
Статистический стеммер
Subjectivity/Sentiment analysis
Терминография
Ресурсы

Индуктивное Моделирование
Классы и сложность модели
ИМСОМ имеет дело с заранее фиксированным классом моделей.

Индуктивное моделирование
Каноническая проблема
Описание временного ряда некоторой
формулой
Пусть начальная информация задана ?
Заданная

Индуктивное моделирование
Мы имеем начальную информацию
Заданная регрессионная модель
Ym= a0 + a1t or

Индуктивное моделирование
Каноническая проблема
Описание временного ряда некоторой формулой
Пусть начальная информация отсутствует ?
У

Индуктивное моделирование
Принцип индуктивности
ИМСОМ не может найти самую оптимальную модель среди всех
возможных!

Индуктивное моделирование
Подход 1
Мы должны обеспечить хорошее свойство
прогнозирования, то есть ограниченную
чувствительность к

Индуктивное моделирование
Подход 2
Мы должны обеспечить хорошее
описательное свойство, то есть
независимость описания

Индуктивное моделирование
Формы внешних критериев
Качество модели оценивается внешними критериями
Каждый из критериев может

Индуктивное моделирование
Шаги ИМСОМ <= !
Определить серию моделей
2. Экспериментальные данные =

Индуктивное моделирование
Применение двух критериев, правило свертки
Назначаются веса λ1, λ2: λ1+ λ2

Индуктивное моделирование
Применение двух критериев, последовательный отбор
Вместо отбора модели по комбинированному
критерию K=λ1Kr

Индуктивное моделирование
Подавление шума
Утверждение
Пусть имеем N-данных наблюдений y1, y2, y3, ....yN
Пусть имеем k-параметров

Индуктивное моделирование
Пример
Пусть мы должны восстановить параболу Y(t)=a0 + a1t + a2t2
Имеем N=12,

Варианты ИМСОМ
Имеется два традиционных варианта:
1) Комбинаторный вариант ИСОМ - КОМБИ
Перебираются

Индуктивное моделирование
Пример применения селекции
Пусть имеем 20 точек наблюдений = 10 (обучение)

Содержание
Введение
Коллеги и соавторы
Индуктивное моделирование
Статистический стеммер
Subjectivity/Sentiment analysis
Терминография
Ресурсы

Постановка задачи
Предмет рассмотрения
Статистический стеммер.
Построение эмпирической формулы, обученной на примерах
Техника
Индуктивное моделирование

Постановка задачи
Стемминг
Состоит в выборе части слова,
отражающей основное значение слова
Примеры
sad, sadly,

Постановка задачи
Проблема
Построить формулу для принятия решения
о подобии пары слов
Актуальность
Нам приходится обрабатывать

Эмпирические формулы
Параметры для сравнения пары слов
Мы будем обучать формулу на положительных примерах,

Эмпирические формулы
Требования
Построенная формула должна отражать два обстоятельства:
Поддержать факт, что небольшое относительное число

Эмпирические формулы
Модели для принятия решений
Какую формулу стоит настраивать
под примеры, заданные экспертом?

Эмпирические формулы
Число степеней свободы
Как было указано выше, формула должна зависеть от:
- относительной

Дискриминация длинных слов
yyynn yyynn n/s = 0.4
yyyyyynnnn yyyyyynnnn n/s = 0.4

Эмпирические формулы
Сложность модели F(y) ?
Чтобы определить сложность модели (степень полинома), мы
используем ИМСОМ

Подход
1) Мы рассматриваем
экстремальные случаи (равенство)
n/s = a0 + a1y + a2y2 + ...

ИМСОМ - Реализация
Пример
n/s = a0 + a1y + a2y2+....
asking asked
n = 5 s =

Внешние критерии
Регулярность Kr
Несмещенность Ku
Комбинированный критерий
K = 2/3 Kr + 1/3 Ku

Результаты
Формулы (линейные модели)
French n/s ≤ 0.48 – 0.024 y
Italian

Демонстрация
Пример
Начальный список 1-й шаг 2-й шаг 3-й шаг
transform (7) transform (12) transform

Дискуссия и выводы
Примеры Мартина Портера
Д-р Портер, автор знаменитого стеммера, реализованного
на многих

Дискуссия и выводы
Недостатки стеммера
- Относительно низкая точность (80%-90%)
- Зависимость результатов применения от

Содержание
Введение
Коллеги и соавторы
Индуктивное моделирование
Статистический стеммер
Subjectivity/Sentiment analysis
Терминография
Ресурсы

Введение
Предмет рассмотрения
Subjectivity/Sentiment analysis. Построение эмпирических формул для автоматической оценки вежливости, удовлетворенности и компетентности

Введение
Subjectivity/Sentiment анализ это область обработки
естественных языков (NLP), которая направлена на
автоматическую

Введение
Одно из приложений SSA это обработка диалогов.
В настоящее время такая обработка

Исходные данные
Данные состояли из 85 диалогов между пассажирами
и справочной железнодорожного вокзала

Вежливость, параметризация
А. Индиктор первого приветствия (g - greeting)
Имеет значение 1, при

Вежливость, параметризация
Для числового представления v и w следует учесть
- длину документа
информационный

Вежливость, параметризация
Ручные оценки учитывают только вежливость
(но не грубость) по шкале:
0

Вежливость, модели
Мы предположили, что зависимость между числовыми
индикаторами и и уровнем

Вежливость, модели
Подготовка данных для МНК

Вежливость, результаты
Наилучшая модель (по двум критериям)
F(g,w,v) = 0.18g + 3.29w + 3.43v

Удовлетворенность, параметризация
Серия моделей
Model 0: F(b,f,q) = A0
Model 1: F(b,f,q) = B100b +

Удовлетворенность, результаты
Наилучшие модели (по двум критериям)
F(b,f,q) = 0.18b + 0.06f - 1.11q

Компетентность,параметризация
Серия моделей
Model 0: F(b,f,q) = A0
Model 1: F(b,f,q) = B100l + B010f

Компетентность, результаты
Наилучшая модель (по двум критериям)
F(f,l,q) = 0.52f + 0.19l + 0.16q

Выводы
1. ИМСОМ обеспечивает методологию для автоматической
оценки различных «размытых» характеристик диалога,
имеющих

Содержание
Введение
Коллеги и соавторы
Индуктивное моделирование
Статистический стеммер
Subjectivity/Sentiment analysis
Терминография
Ресурсы

Предмет рассмотрения
Терминография. Выявление гранулярности терминов
заданной предметной области
Техника
Идеи индуктивного моделирования

Под терминами будем понимать ключевые слова предметной области
Ключевые слова используются для:
A.

Главные термины
области
Рост специфичности
Применения гранулированных терминов:
1. Суммаризация документов по различным уровням детальности
2.

Определение гранулярности на основе корпуса текстов (corpus-based granularity):
Уровни гранулярности это классы

Definitions
Определение проблемы:
Выявление уровней гранулярности эквивалентно проблеме размещения точек перехода на оси

Мы используем ИМСОМ-подобный алгоритм
Напомним основные шаги ИМСОМ:
1. Эксперт определяет последовательность моделей

Первое, мы делим документы на два набора.
Оба они равноценны и называем

Шаги алгоритма
1. Фиксируем длину окна специфичности, прикладываем его к началу диапазона

Главная гипотеза:
Если распределения специфичностей внутри некоторого окна
специфичности для обоих наборов данных

Внешние критерии
Давайте зафиксируем одно и тоже окно Δs = [s1,s2] внутри диапазонов