Программный комплекс «СМАЛТ». Морфологически размеченный корпус по русской публицистикевторой половины XIX века

Февраль 20, 2021

Главная
Разное
Программный комплекс «СМАЛТ». Морфологически размеченный корпус по русской публицистикевторой половины XIX века

Содержание

2. Программный комплекс «СМАЛТ»
3. Система подготовки данных для БД
4. Особенности морфологического разбора текстов XIX века (орфографическая вариативность) Примеры: очень-многiе, само-по-себе, до-сихъ-поръ, на-дняхъ, какъ-будто, ничемъ другъ-къ-другу
5. Виды морфологической разметки Разметка 1 Опирается на следующий инвентарь частей речи: существительное, прилагательное, числительное, местоимение, глагол,
6. Фрагмент структуры морфологической разметки Часть речи Глагол Существительное Время ……… ……….. Прошедшее Род Мужской ……….. Падеж
7. Статистика словаря Корпус текстов состоит из публицистических статей разной тематической направленности из петербургских журналов «Время», «Эпоха»,
8. Преформатирование и грамматический разбор
9. Схема доступа к БД Алфавитный словарь Частотный словарь Поиск слов по грамматическим признакам Функция показа выбранного
10. Схема доступа к БД Интернет-доступ http://smalt.karelia.ru/projects.html Локальный доступ Быстрая скорость Возможность самостоятельно формировать БД
11. Поиск
12. Вывод результата
13. Вывод контекстов
14. Вывод оригинального текста
15. Поиск по грамматическим параметрам
16. Словарь
17. Модуль статистического анализа программного комплекса «СМАЛТ»
18. Достоевский редактировал и возглавлял три журнала Время (1861-1863) Эпоха (1864-1865) Гражданин (1873-1874) Издавал свой личный журнал
19. Методы анализа текстов Статистические методы Проверка статистических гипотез Разбиение текстов на группы с использованием кластерного анализа
20. Авторский инвариант Под авторским инвариантом понимают такую характеристику литературных текстов (некий параметр), которая 1. однозначно характеризует
21. Свойства авторского инварианта 1. Она должна быть достаточно «массовой», интегральной, чтобы слабо контролироваться автором на сознательном
22. «Некролог. Иван Иванович Панаев», Dubia, «Время», 1862, №2, 16 предложений «Несколько слов о Ристори», А. А.
23. «Сильный граф» для произведения «Подписка на 1863 год», Ф. М. Достоевский, «Время», 1862, №9, 161 предложение
24. Часть таблицы коэффициентов близости текстов Узловые значение графа устанавливались экспериментально и варьировались от 3 до 6.
25. Развитие исследования Гейра Хетсо Отличия: Использование текстов в авторской орфографии и пунктуации; Проверка устойчивости методик на
26. Используемые лингвостатистические параметры 1. Средняя длина слова в буквах, вычисляемая на основании выборок размером в 200,
27. Средняя длина слова в буквах H0 = {гипотеза о равенстве средних для двух выборок, одна из
28. использовалась следующая формула критерия Стьюдента: В этой формуле m1 и m2 - сравниваемые средние частоты, n1
29. Средняя длина слова в буквах. Критерий Стьюдента для разных объемов выборки.
30. Общее распределение длины слова. Получены данные о том, сколько в каждом тексте слов, имеющих по 1,
31. Средняя длина предложения в словах Проводится тест исключительности на основании выборок в 30 предложений. Проверка на
32. Общее распределение длины предложения Информация об общем распределении длины предложения была получена по интервалам в 1-5,
33. Лексический спектр текста на уровне словаря и Лексический спектр текста на уровне текста Лексический спектр текст
34. Индекс разнообразия лексики Индекса разнообразия лексики - отношения числа разных слов к числу словоупотреблений. Исследуется степень
35. Результаты исследования Несмотря на использование разных источников и соответственно на наличие некоторых различий, результаты с исследованием
36. Основной результат В исследовании Хетсо был использован общий принцип применимости статистических методов. То есть для каждого
37. Предположение о том, что распределение частей речи на первых трех и последних трех позициях предложения может
38. 1) с номера 1 по 7. Имя существительное (падеж) 2) с номера 8 по 13. Имя
39. Иерархическая кластеризация Алгоритмы кластеризации: метод ближайшего соседа метод дальнего соседа Меры близости между объектами: 1. Евклидова
40. В результате применения метода иерархической кластеризации оказалось, что невозможно четко выделить две группы объектов, ядро первой
41. Оценка близости иерархических деревьев где n-1 показывает число уровней объединения или сечения, а Пусть n –
42. Оценка близости иерархических деревьев при соответствующих уровнях надежности и для разного числа объектов
43. Результаты
45. Скачать презентацию

Программный комплекс «СМАЛТ»

Система подготовки данных для БД

Особенности морфологического разбора текстов XIX века
(орфографическая вариативность)
Примеры: очень-многiе,
само-по-себе, до-сихъ-поръ, на-дняхъ, какъ-будто,

ничемъ другъ-къ-другу необязанныхъ,
студентскiй миръ, взмахнутый,
въ самомъ-достойнѢйшемъ, самоновѢйшiй, низачто, само-малѢйшей,
истинно-умные расположонъ, предстоитъ современем, состарѢлась, выростетъ, комунистЪ, колосальный

Слайд 5

Виды морфологической разметки
Разметка 1
Опирается на следующий инвентарь частей речи: существительное, прилагательное,

числительное, местоимение, глагол, причастие, деепричастие, наречие, предикатив, союз, предлог, модально-дискурсивное слово или частица, междометие, компонент идиомы, антропоним
Предоставляет возможность поиска по значениям базовых морфологических категорий соответствующих частей речи.

Разметка 2
Ориентирована на школьную традицию и включает дополнительные грамматические параметры: лексико-грамматические разряды существительных. прилагательных, числительных, местоимений, типы склонения и спряжения.
Она предназначена для использования в образовательных целях и может рассматриваться как параллельный обучающий корпус.

Слайд 6

Фрагмент структуры морфологической разметки
Часть речи
Глагол
Существительное
Время
………
………..
Прошедшее
Род
Мужской
………..
Падеж
Именительный
Прилагательное
Число
……….

Слайд 7

Статистика словаря
Корпус текстов состоит из публицистических статей разной тематической направленности из петербургских

журналов «Время», «Эпоха», «Современник», «Гражданин» «Светоч», «Молва», «Библиотека для чтения», «Заря» XIX века в оригинальной орфографии.

Слайд 8

Преформатирование и грамматический разбор

Слайд 9

Схема доступа к БД
Алфавитный словарь
Частотный словарь
Поиск слов по грамматическим признакам
Функция показа выбранного

слова в контексте

Морфолого-семантический анализ произведения

Вывод словоформ, упорядоченных по алфавиту

Вывод словоформ, упорядоченных по частоте встречаемости

Функция показа двух выбранных слов в контексте

Оригинальный текст

Графика XIX века

Современная графика

Поиск словоформы

Слайд 10

Схема доступа к БД
Интернет-доступ
http://smalt.karelia.ru/projects.html
Локальный доступ
Быстрая скорость
Возможность самостоятельно формировать БД

Слайд 11

Поиск

Слайд 12

Вывод результата

Слайд 13

Вывод контекстов

Слайд 14

Вывод оригинального текста

Слайд 15

Поиск по грамматическим параметрам

Слайд 16

Словарь

Слайд 17

Модуль статистического анализа программного комплекса «СМАЛТ»

Слайд 18

Достоевский редактировал и возглавлял три журнала
Время (1861-1863)
Эпоха (1864-1865)
Гражданин (1873-1874)
Издавал свой личный журнал

Дневник писателя (1876-1877, 1880-1881).
До сих пор остается открытым вопрос: какие же статьи из этих журналов действительно были написаны Ф.М. Достоевским?
Рабочим материалом исследования является 81 статья из Петербургских журналов «Время» и «Эпоха» (1861 – 1865 г.г.)

Объект исследования

Слайд 19

Методы анализа текстов
Статистические методы
Проверка статистических гипотез
Разбиение текстов на группы с использованием кластерного

анализа
Изучение переходов между составляющими единицами текста
Метод «сильного графа»
Метод подсчета отличий между матрицами
Методы распознавания образов и искусственного интеллекта
Индуктивное построение статистических классификаторов

Слайд 20

Авторский инвариант
Под авторским инвариантом понимают такую характеристику литературных текстов (некий параметр),

которая
1. однозначно характеризует своим поведением произведения одного автора или небольшого числа «близких авторов»,
2. принимает существенно разные значения для произведений разных групп авторов.
Желательно, чтобы число «разных групп» было достаточно велико, и чтобы каждая группа объединяла относительно мало похожих, близких по стилю авторов.

Слайд 21

Свойства авторского инварианта
1. Она должна быть достаточно «массовой», интегральной, чтобы слабо контролироваться

автором на сознательном уровне. Другими словами, она должна быть его «бессознательным параметром», коренящемся настолько глубоко, что автор даже не задумывается о нем.
2. Искомый параметр должен сохранять «постоянное значение» для произведений данного автора. То есть, иметь небольшое отклонение от среднего значения (слабо колебаться) на протяжении всех его книг.
3. Параметр должен уверенно различать между собой разные группы писателей. Другими словами, должно существовать достаточное число авторских групп, заметно отличающихся друг от друга значениями инварианта.

Слайд 22

«Некролог. Иван Иванович Панаев», Dubia, «Время», 1862, №2, 16 предложений
«Несколько слов о

Ристори», А. А. Григорьев, «Время», 1861, №2, 60 предложений

Слайд 23

«Сильный граф» для произведения «Подписка на 1863 год»,
Ф. М. Достоевский, «Время», 1862, №9,

161 предложение

Слайд 24

Часть таблицы коэффициентов близости текстов
Узловые значение графа устанавливались экспериментально
и варьировались от 3

до 6.

Слайд 25

Развитие исследования Гейра Хетсо
Отличия:
Использование текстов в авторской орфографии и пунктуации;

Проверка устойчивости методик на разных объемах выборок;
Проверка гипотез о нормальности выборок, с целью
правомерности использования некоторых статистических
критериев;
Использование статей, автором которых Ф.М. Достоевский не
является (например, статья А. Григорьева
«Стихотворения А. С. Хомякова». )

Хетсо Г. Принадлежность Достоевскому: к вопросу об атрибуции Ф.М. Достоевскому анонимных статей в журналах “Время” и “Эпоха”. SOLUM FORLAG A.S.: OSLO 1986.

Слайд 26

Используемые лингвостатистические параметры
1. Средняя длина слова в буквах, вычисляемая на основании
выборок размером

в 200, 300, 400, 500 и 600 текстовых слов.
2.  Общее распределение длины слова.
3.  Средняя длина предложения в словах, вычисляемая на
основании выборок размером в 30 предложений.
4.  Общее распределение длины предложения.
5.  Лексический спектр текста на уровне словаря.
6.  Лексический спектр текста на уровне текста.
7. Индекс разнообразия лексики.

Слайд 27

Средняя длина слова в буквах
H0 = {гипотеза о равенстве средних для

двух выборок, одна из
которых включает общую выборку по всем произведениям
Достоевского}

Проверка данных выборки «Весь Достоевский» (ВД), состоящей из
объединения 26 статей Достоевского на нормальность:

Слайд 28

использовалась следующая формула критерия Стьюдента:
В этой формуле m1 и m2 -

сравниваемые средние частоты,
n1 и n2- число выборок, и sd – несмещенная оценка среднего
квадратичного отклонения в двух сериях выборок, вычисляемая
по формуле:

Слайд 29

Средняя длина слова в буквах. Критерий Стьюдента для разных объемов выборки.

Слайд 30

Общее распределение длины слова.
Получены данные о том, сколько в каждом тексте

слов, имеющих по 1, 2, 3, …16 и более буквам. Ставится вопрос: какова вероятность того, что распределения длин слов в буквах в двух статьях, одна и которых объединение статей Достоевского – ВД, взяты из одной и той же «генеральной совокупности» и могут рассматриваться как управляемые одними и теми же закономерностями?
непараметрический критерий Колмогорова-Смирнова, измеряющий разницу между накопленными частотами в сравниваемых текстах по формуле:

где dmax обозначает максимальную разницу между
накопленными относительными частотами, и n1 и n2 – количество
слов в сопоставляемых текстах.

Слайд 31

Средняя длина предложения в словах
Проводится тест исключительности на основании выборок в

30 предложений.
Проверка на нормальность дала положительный результат.
Подтверждается версия о том, что данный параметр обладает меньшей дискриминирующей силой, чем параметр «средняя длина слова».

Слайд 32

Общее распределение длины предложения
Информация об общем распределении длины предложения была получена

по интервалам в 1-5, 6-10, 11-15, …, 61 и более слов.
Использован непараметрический критерий Колмогорова-Смирнова.

Слайд 33

Лексический спектр текста на уровне словаря
и
Лексический спектр текста на уровне текста

Лексический спектр текст - распределение частот слов в тексте.
Использовались частотные словари на каждые 500 слов текста. Все слова распределились в группы по 1, по 2, по 3, …, по 10 и более раз встречаемости в выборке. Далее определяем число слов в каждой группе, что означает распределение частот на уровне словаря, и «покрываемость» (Для определения лексического спектра на уровне текста рассматривается число словоформ в каждой группе, умноженное на частоту встречаемости слов из этой группы. ) текста, что означает распределение частот на уровне текста. Если текст состоит из нескольких выборок, суммируются частоты встречаемости в тексте.

Слайд 34

Индекс разнообразия лексики
Индекса разнообразия лексики - отношения числа разных слов к

числу словоупотреблений.
Исследуется степень повторяемости в словаре писателя.
Общеизвестна тяга Достоевского к повторению одних и тех же слов и выражений.
Получены списки с указанием числа разных слов на каждые 200, 300, 400, 500 и 600 новых текстовых слов.
Проведен тест исключительности.

Слайд 35

Результаты исследования
Несмотря на использование разных источников и соответственно на наличие некоторых

различий, результаты с исследованием Хетсо совпали;
Показана правомерность использования статистического критерия Стьюдента с уровнем значимости 0,05 ;
Показана неустойчивость методик для некоторых параметров на разных объемах выборок;
Удалось показать неправомерность использования указанных параметров для атрибуции статей, являющихся материалом данного исследования.

Слайд 36

Основной результат
В исследовании Хетсо был использован общий принцип применимости статистических методов.

То есть для каждого метода определялась критическая граница αкр и для каждой статьи определялся числовой параметр α. Далее делался вывод на основании двух гипотез: Н1 – {если α < αкр , то статья скорее всего принадлежит Достоевскому}; Н2 – {если α > αкр , то статья скорее всего не принадлежит Достоевскому}.
В данной работе удалось показать, что на данных методиках гипотеза Н1 не верна: в противном случае, следовало бы принять гипотезу о принадлежности Достоевскому статьи А. Григорьева «Стихотворения А. С. Хомякова», статей М. Достоевского «Рассказы из народного русского быта Марка Вовчка», «Пожары», «Гроза» и др.

Слайд 37

Предположение о том, что распределение частей речи на первых трех и последних

трех позициях предложения может быть авторским инвариантом

Исследование проводилось:
Для каждого предложения текста
Для каждого первого и последнего предложения абзаца
Для каждого первого предложения абзаца
Для каждого последнего предложения абзаца

Слайд 38

1) с номера 1 по 7. Имя существительное (падеж)
2) с номера 8

по 13. Имя прилагательное (форма, степень сравнения)
3)   с номера 14 по 25. Числительное (разряд по составу, разряд по значению)
4)       с номера 26 по 34. Местоимение (разряд по значению)
5)       с номера 35 по 45. Наречие (разряд по значению)
6)       с номера 46 по 54. Наклонение (грамматическое значение, время)
7)       с номера 55 по 102. Глагол (вид, залог, лицо)
8)       с номера 103 по 106. Причастие, действительное, возвратное
9)   с номера 107 по 112. Деепричастие, возвратное, одновременное с действительным глаголом – сказуемым
10)    с номера 113 по 114. Модальное слово (синтаксические особенности)
11)    с номера 115 по 117. Предлог (по составу)
12)    с номера 118 по 126. Союз (по составу, по употреблению)
13)    с номера 127 по 129. Частица (словообразующая функция)
14)  с номера 130 по 147. Междометие (по образованию, по значению, синтаксические особенности)
15)    с номера 148 по 154. Иностранное слово (язык)
16) с номера 155 по 156. Цитата (прозаическая/стихотворная).

Исследование проводилось как с основным набором признаков (16), так и с расширенным (156):

Слайд 39

Иерархическая кластеризация
Алгоритмы кластеризации:
метод ближайшего соседа
метод дальнего соседа
Меры близости между объектами:
1.

Евклидова мера:
2. Мера Чебышева:

Слайд 40

В результате применения метода иерархической кластеризации оказалось, что невозможно четко выделить две

группы объектов, ядро первой из которых преимущественно состояло бы из статей Достоевского, а ядро второй - из статей других авторов. Более того, во всех случаях на последних шагах объединения к основной группе присоединяются как атрибутируемые статьи, так и статьи Достоевского.
Одна из возможных причин – малый объемы текстов.
Необходимо отметить следующий факт, что при изучении деревьев иерархической кластеризации, можно заметить устойчивую тенденции к объединению в одну группу следующих объектов: 100, 202, 203. Под номером 100 обозначено объявление о подписке журнала "Время" с 1861 г., а под номерами 202 и 203 обозначены разные части объявления об издании журнала "Время" с 1861г. Естественно, что по содержанию и по стилистике эти тексты могли иметь много схожего, и быть написаны одним автором.

Слайд 41

Оценка близости иерархических деревьев
где n-1 показывает число уровней объединения или сечения, а
Пусть

n – число объектов объединения, тогда коэффициент близости 2 деревьев записывается как:

где

(1), либо

(2)

где ni,1 и ni,2 – число объектов в группе, содержащей объект i,
соответственно в первом и втором дереве, Ni – число совпадающих
элементов в группах, содержащих объект i.

Слайд 42

Оценка близости иерархических деревьев при соответствующих уровнях надежности и для разного числа

объектов

Программный комплекс «СМАЛТ». Морфологически размеченный корпус по русской публицистикевторой половины XIX века

Содержание

Программный комплекс «СМАЛТ»

Система подготовки данных для БД

Особенности морфологического разбора текстов XIX века(орфографическая вариативность)Примеры: очень-многiе, само-по-себе, до-сихъ-поръ, на-дняхъ, какъ-будто,

Виды морфологической разметки Разметка 1 Опирается на следующий инвентарь частей речи: существительное, прилагательное,

Статистика словаряКорпус текстов состоит из публицистических статей разной тематической направленности из петербургских

Преформатирование и грамматический разбор

Схема доступа к БДАлфавитный словарьЧастотный словарьПоиск слов по грамматическим признакамФункция показа выбранного

Схема доступа к БДИнтернет-доступhttp://smalt.karelia.ru/projects.htmlЛокальный доступБыстрая скоростьВозможность самостоятельно формировать БД

Поиск

Вывод результата

Вывод контекстов

Вывод оригинального текста

Поиск по грамматическим параметрам

Словарь

Модуль статистического анализа программного комплекса «СМАЛТ»

Достоевский редактировал и возглавлял три журналаВремя (1861-1863)Эпоха (1864-1865)Гражданин (1873-1874)Издавал свой личный журнал

Методы анализа текстовСтатистические методыПроверка статистических гипотезРазбиение текстов на группы с использованием кластерного

Авторский инвариант Под авторским инвариантом понимают такую характеристику литературных текстов (некий параметр),

Свойства авторского инварианта 1. Она должна быть достаточно «массовой», интегральной, чтобы слабо контролироваться

«Некролог. Иван Иванович Панаев», Dubia, «Время», 1862, №2, 16 предложений«Несколько слов о

«Сильный граф» для произведения «Подписка на 1863 год», Ф. М. Достоевский, «Время», 1862, №9,

Часть таблицы коэффициентов близости текстовУзловые значение графа устанавливались экспериментальнои варьировались от 3

Развитие исследования Гейра Хетсо Отличия: Использование текстов в авторской орфографии и пунктуации;

Используемые лингвостатистические параметры1. Средняя длина слова в буквах, вычисляемая на основании выборок размером

Средняя длина слова в буквах H0 = {гипотеза о равенстве средних для

использовалась следующая формула критерия Стьюдента: В этой формуле m1 и m2 -