Методы статистического анализа литературных текстов

Март 4, 2021

Главная
Математика
Методы статистического анализа литературных текстов

Содержание

2. Обсуждаемые вопросы Точность статистического анализа в зависимости от объема текста. Идентификация автора неизвестного текста в библиотеке
3. Обсуждаемые вопросы Анализ авторских тандемов и проверка текста на однородность. Динамические системы, генерирующие ряд расстояний между
4. Цель и программа работы Сопоставление тексту структуры в фазовом пространстве (букв, слов и т.п.) Введение нормы
5. Текстовый инвариант? – Нет! Текстовый инвариант – это функционал F(T) от текстовой структуры. Два текста близки
6. 1. Статистическая достоверность определения частот употребления букв в литературных произведениях
7. Выборочное распределение текста по буквам Пусть ξ – случайная величина (буква или буквосочетание), принимающая значения из
8. Минимально достаточная длина текста Тексты должны быть таких длин, чтобы статистическая неопределенность в оценке вероятностей буквосочетаний
9. Оценка достаточной длины текста Для стационарного процесса оценка среднего при неизвестной дисперсии дается статистикой Стьюдента Оценка
10. Достаточная длина текста При ε=0,05: для 1-ПФР N=40 тыс. знаков, для 2-ПФР N=400 тыс. знаков, для
11. Распределение расстояний между 2-ПФР в норме L1
12. Минимальная длина текста
13. Уровень нестационарности текстов Расстояние между ПФР текстов: Чтобы сравнивать распределения текстов разных объемов, следует убедиться в
14. Длина квазистационарности L(ε) для 1-ПФР Для практических целей, где допустимы небольшие отклонения 1-ПФР отрывка от 1-ПФР
15. 2. Кластеризация текстов, создание эталонных распределений и метод идентификации автора
16. Идентификация автора текста Пусть имеется библиотека из A авторов, у a-го автора текстов, в i-ом тексте
17. Авторские 1-ПФР Вывод: авторские 1-ПФР очень близки, поэтому различие между ними должно выявляться на «тонкой структуре»
18. Ошибки 1-го и 2-го родов функция распределения расстояний текстов автора от его эталона; чужих текстов от
19. Мощность статистических методов идентификации автора
20. Шолохов – автор «Тихого Дона» по расстояниям между 2-ПФР текстов с вероятностью 96%
21. Распределение расстояний между произведениями Шекспира
22. Шекспир – автор всех своих пьес по расстояниям между 2-ПФР текстов с вероятностью 94%
23. 3. Спектральные портреты авторов и эффект переводчика
24. Оператор трансляций Пусть есть условная вероятность того, что буква следует за буквой . Пусть также есть
25. Оператор трансляций на 1 шаг выражается через 1-ПФР и 2-ПФР: По формуле полной вероятности Следовательно, 1-ПФР
26. ε-спектр оператора соседних трансляций Число λ называется принадлежащим ε-спектру матрицы P, если существует матрица Δ такая,
27. Вычисление ε-спектра Параметром дихотомии спектра относительно кривой называется норма квадрата резольвенты на данной кривой: Если на
28. Примеры спектральных портретов писателей
29. Примеры спектральных портретов писателей
30. Примеры спектральных портретов писателей
31. Примеры спектральных портретов писателей
32. Примеры спектральных портретов писателей
33. Эффект переводчика и вектор «подсознания» Кроме с.з. , которому отвечает с.в. 1-ПФР f , у оператора
34. Шекспир – оригинальный текст «Гамлет» «Много шума из ничего»
35. Шекспир – перевод «Гамлет» (Лозинский) «Много шума из ничего» (Щепкина-Куперник)
36. 4. Анализ авторских тандемов и проверка текста на однородность
37. Горизонтный ряд Пусть x(t) – эквидистантный временной ряд, f(N,t) – его ВПФР, построенная к моменту t
38. Примеры горизонтных рядов Сдвиг ВПФР на τ = 10 при уровне ε = 0,05 Значения h,
39. Горизонтный ряд как индикатор разладки (τ = 10, ε = 0,05)
40. Распределения горизонтных рядов для τ = 10, ε = 0,05
41. Распределение расстояний между одинаковыми буквами
42. Распределение горизонтного ряда для расстояний «b-b» (τ = 10, ε = 0,05) Для всех букв распределение
43. Горизонтные ряды расстояний между гласными для моно и тандема У моно-писателей горизонтный ряд не достигает последней
44. 5. Упорядоченность букв по частоте встречаемости в европейских языках
45. Расстояния между текстами при различном упорядочении
46. Распределение букв по частоте в алфавите из n=32 знаков С детерминацией 0,97
47. Распределение букв по частоте в текстах на русском языке Минимальная интегральная ошибка приближения, равная 0,05, получается
48. Избыточность и недостаточность алфавитов европейских языков Параметр o трактуем как оценку избыточности (o 0) алфавита по
49. Основные результаты 3-ПФР представляет ту текстовую структуру, расстояние в которой позволяет с высокой точностью опознавать автора
51. Скачать презентацию

Обсуждаемые вопросы
Точность статистического анализа в зависимости от объема текста.
Идентификация автора неизвестного текста

в библиотеке эталонов, создание эталонов и кластеризация текстов.
Оператор трансляций распределения текста по буквам и спектральные портреты. Эффект переводчика.

Обсуждаемые вопросы
Анализ авторских тандемов и проверка текста на однородность. Динамические системы, генерирующие

ряд расстояний между одинаковыми буквами в тексте.
Анализ европейских языков. Функция распределения букв по частоте встречаемости. Фонетический анализ алфавитов по избыточности или недостаточности символов.

Слайд 4

Цель и программа работы
Сопоставление тексту структуры в фазовом пространстве (букв, слов и

т.п.)
Введение нормы как расстояния между структурами в фазовом пространстве
Определение проекторов на подпространства с целью классификации: языка текста, эпохи написания, типа (проза или поэзия), формата (роман, очерк, эссе), жанра (детектив, триллер), автора

Слайд 5

Текстовый инвариант? – Нет!
Текстовый инвариант – это функционал F(T) от текстовой структуры.

Два текста близки в фазовом пространстве, если близки функционалы: .
Цель работы – ввести наилучшим образом расстояние в пространстве структур
,
т.е. рассматривать не разность функционалов, а функционал разности.

Слайд 6

1. Статистическая достоверность определения частот употребления букв
в литературных произведениях

Слайд 7

Выборочное распределение текста по буквам
Пусть ξ – случайная величина (буква или

буквосочетание), принимающая значения из конечного упорядоченного множества букв (пар букв, и т.д.) в алфавите.
1-ВПФР f1N(i) есть эмпирическая вероятность обнаружения данной (i-ой) буквы в тексте из N символов, 2-ВПФР f2N(i,j) – пары букв, и т.д.
«Время» – это порядковый номер буквы в тексте. Пробелы и знаки игнорируются.

Слайд 8

Минимально достаточная длина текста
Тексты должны быть таких длин, чтобы статистическая неопределенность в

оценке вероятностей буквосочетаний была «много меньше» наблюденного расстояния между распределениями
Основная гипотеза: распределения буквосочетаний для каждого автора квазистационарны

Слайд 9

Оценка достаточной длины текста
Для стационарного процесса оценка среднего при неизвестной дисперсии дается

статистикой Стьюдента
Оценка длины текста для построения распределения с точностью ε:

Слайд 10

Достаточная длина текста
При ε=0,05:
для 1-ПФР N=40 тыс. знаков,
для

2-ПФР N=400 тыс. знаков,
для 3-ПФР N=4 млн знаков.

Слайд 11

Распределение расстояний между 2-ПФР в норме L1

Слайд 12

Минимальная длина текста

Слайд 13

Уровень нестационарности текстов
Расстояние между ПФР текстов:
Чтобы сравнивать распределения текстов разных объемов, следует

убедиться в том, что каждый из них стабилизируется:

Слайд 14

Длина квазистационарности L(ε) для 1-ПФР
Для практических целей, где допустимы небольшие отклонения 1-ПФР

отрывка от 1-ПФР всего текста, достаточно сравнительно небольших объемов текстов.

Слайд 15

2. Кластеризация текстов, создание эталонных распределений
и метод идентификации автора

Слайд 16

Идентификация автора текста
Пусть имеется библиотека из A авторов, у a-го автора текстов,

в i-ом тексте знаков, и есть ПФР отдельного текста. Вводится эталонная ПФР автора:
Пусть - ПФР текста неизвестного автора. Автор определяется по правилу

Слайд 17

Авторские 1-ПФР
Вывод: авторские 1-ПФР очень близки, поэтому различие между ними должно выявляться

на «тонкой структуре» их взаимных различий, а не функционала от них как таковых

Слайд 18

Ошибки 1-го и 2-го родов
функция распределения расстояний текстов автора от его

эталона;
чужих текстов от него же;
есть вероятность ошибочно отклонить текст автора, посчитав его чужим (ошибка 1-го рода);
есть вероятность ошибочно признать чужой текст авторским (ошибка 2-го рода)

Слайд 19

Мощность статистических методов идентификации автора

Слайд 20

Шолохов – автор «Тихого Дона» по расстояниям между 2-ПФР текстов с вероятностью

96%

Слайд 21

Распределение расстояний между произведениями Шекспира

Слайд 22

Шекспир – автор всех своих пьес по расстояниям между 2-ПФР текстов с

вероятностью 94%

Слайд 23

3. Спектральные портреты авторов
и эффект переводчика

Слайд 24

Оператор трансляций
Пусть есть условная вероятность того, что буква следует за буквой .

Пусть также есть -ая компонента вектора вероятностей того, что буква реализуется в тексте в момент .
Тогда

Слайд 25

Оператор трансляций на 1 шаг
выражается через 1-ПФР и 2-ПФР:
По формуле полной

вероятности
Следовательно, 1-ПФР
является с.в. оператора , отвечающим с.з. 1.

Слайд 26

ε-спектр оператора соседних трансляций
Число λ называется принадлежащим ε-спектру матрицы P, если существует

матрица Δ такая, что
Резольвентой матрицы P называется
матрица
Тогда если

Слайд 27

Вычисление ε-спектра
Параметром дихотомии спектра относительно кривой называется норма квадрата резольвенты на данной

кривой:
Если на кривой нет точек спектра, то норма резольвенты на этой кривой конечна.
Спектральные портреты операторов P для разных авторов показывают устойчивость этой структуры для текстов одного автора и различающиеся картины для разных авторов.

Слайд 28

Примеры спектральных портретов писателей

Слайд 29

Примеры спектральных портретов писателей

Слайд 30

Примеры спектральных портретов писателей

Слайд 31

Примеры спектральных портретов писателей

Слайд 32

Примеры спектральных портретов писателей

Слайд 33

Эффект переводчика и вектор «подсознания»
Кроме с.з. , которому отвечает с.в. 1-ПФР f

, у оператора P(1) еще одно устойчивое с.з. .
Ему отвечает правый с.в. S и левый S*.
Оказалось, что , т.е. векторы S* и f приближенно образуют главные направления оператора трансляций.
Вектор S, как и вектор 1-ПФР f , весьма точно идентифицирует автора. Однако в переводах это идентификационное свойство теряется.
Вывод: изложение можно отличить от сочинения, а переводчик не является соавтором.

Слайд 34

Шекспир – оригинальный текст
«Гамлет»
«Много шума из ничего»

Слайд 35

Шекспир – перевод
«Гамлет»
(Лозинский)
«Много шума из ничего»
(Щепкина-Куперник)

Слайд 36

4. Анализ авторских тандемов
и проверка текста на однородность

Слайд 37

Горизонтный ряд
Пусть x(t) – эквидистантный временной ряд, f(N,t) – его ВПФР, построенная

к моменту t по выборке объема N.
Горизонтным рядом для ряда x(t) называется минимальный объем выборки такой, что

Слайд 38

Примеры горизонтных рядов
Сдвиг ВПФР на τ = 10
при уровне

ε = 0,05
Значения h, близкие к предельным, означают хаос, а уменьшение означает взаимосвязь элементов

Слайд 39

Горизонтный ряд как индикатор разладки (τ = 10, ε = 0,05)

Слайд 40

Распределения горизонтных рядов для τ = 10, ε = 0,05

Слайд 41

Распределение расстояний между одинаковыми буквами

Слайд 42

Распределение горизонтного ряда для расстояний «b-b» (τ = 10, ε = 0,05)
Для

всех букв распределение горизонтного ряда одинаково. Оно похоже на распределение для нелинейно коррелированных многомерных ХДС.

Слайд 43

Горизонтные ряды расстояний между гласными для моно и тандема
У моно-писателей горизонтный ряд

не достигает последней полосы шириной в горизонт, а у тандемов есть места максимальных рассогласований

Слайд 44

5. Упорядоченность букв по частоте встречаемости в европейских языках

Слайд 45

Расстояния между текстами при различном упорядочении

Слайд 46

Распределение букв по частоте в алфавите из n=32 знаков
С детерминацией 0,97

Слайд 47

Распределение букв по частоте в текстах на русском языке
Минимальная интегральная ошибка

приближения, равная 0,05, получается при o=0 в модели:

Эта зависимость выполнена и для старославянских текстов (n=43), и для русской литературы XIX века (n=37). Для русских текстов в транслите (n=23 символа) o=+9.

Слайд 48

Избыточность и недостаточность алфавитов европейских языков
Параметр o трактуем как оценку избыточности (o<0)

или недостаточности (o>0) алфавита по отношению к звуковому ряду. В текстах на всех языках без огласовки n = 20, o = 0.

Слайд 49

Основные результаты
3-ПФР представляет ту текстовую структуру, расстояние в которой позволяет с высокой

точностью опознавать автора
Построен индикатор однородности текста (горизонтный ряд), позволяющий анализировать небольшие фрагменты на предмет количества возможных соавторов
Изучен спектр оператора эволюции 1-ПФР и показана авторская устойчивость спектральных портретов. Пара главных направлений позволяет определить, собственный ли это текст автора, или изложение чужих мыслей
Найдено универсальное полуэмпирическое распределение букв по частоте встречаемости в европейских языках, позволяющее оценить фонетическую адекватность алфавита

Методы статистического анализа литературных текстов

Содержание

Обсуждаемые вопросыТочность статистического анализа в зависимости от объема текста.Идентификация автора неизвестного текста

Обсуждаемые вопросыАнализ авторских тандемов и проверка текста на однородность. Динамические системы, генерирующие

Цель и программа работыСопоставление тексту структуры в фазовом пространстве (букв, слов и

Текстовый инвариант? – Нет!Текстовый инвариант – это функционал F(T) от текстовой структуры.

1. Статистическая достоверность определения частот употребления букв в литературных произведениях

Выборочное распределение текста по буквам Пусть ξ – случайная величина (буква или

Минимально достаточная длина текстаТексты должны быть таких длин, чтобы статистическая неопределенность в

Оценка достаточной длины текстаДля стационарного процесса оценка среднего при неизвестной дисперсии дается

Достаточная длина текстаПри ε=0,05: для 1-ПФР N=40 тыс. знаков, для

Распределение расстояний между 2-ПФР в норме L1

Минимальная длина текста

Уровень нестационарности текстовРасстояние между ПФР текстов:Чтобы сравнивать распределения текстов разных объемов, следует

Длина квазистационарности L(ε) для 1-ПФРДля практических целей, где допустимы небольшие отклонения 1-ПФР

2. Кластеризация текстов, создание эталонных распределений и метод идентификации автора

Идентификация автора текста Пусть имеется библиотека из A авторов, у a-го автора текстов,

Авторские 1-ПФРВывод: авторские 1-ПФР очень близки, поэтому различие между ними должно выявляться

Ошибки 1-го и 2-го родов функция распределения расстояний текстов автора от его

Мощность статистических методов идентификации автора

Шолохов – автор «Тихого Дона» по расстояниям между 2-ПФР текстов с вероятностью

Распределение расстояний между произведениями Шекспира

Шекспир – автор всех своих пьес по расстояниям между 2-ПФР текстов с

3. Спектральные портреты авторов и эффект переводчика

Оператор трансляцийПусть есть условная вероятность того, что буква следует за буквой .

Оператор трансляций на 1 шаг выражается через 1-ПФР и 2-ПФР:По формуле полной

ε-спектр оператора соседних трансляцийЧисло λ называется принадлежащим ε-спектру матрицы P, если существует

Вычисление ε-спектраПараметром дихотомии спектра относительно кривой называется норма квадрата резольвенты на данной

Примеры спектральных портретов писателей

Примеры спектральных портретов писателей

Примеры спектральных портретов писателей

Примеры спектральных портретов писателей

Примеры спектральных портретов писателей

Эффект переводчика и вектор «подсознания»Кроме с.з. , которому отвечает с.в. 1-ПФР f

Шекспир – оригинальный текст«Гамлет»«Много шума из ничего»

Шекспир – перевод«Гамлет»(Лозинский) «Много шума из ничего»(Щепкина-Куперник)

4. Анализ авторских тандемов и проверка текста на однородность

Горизонтный рядПусть x(t) – эквидистантный временной ряд, f(N,t) – его ВПФР, построенная

Примеры горизонтных рядов Сдвиг ВПФР на τ = 10 при уровне

Горизонтный ряд как индикатор разладки (τ = 10, ε = 0,05)

Распределения горизонтных рядов для τ = 10, ε = 0,05

Распределение расстояний между одинаковыми буквами

Распределение горизонтного ряда для расстояний «b-b» (τ = 10, ε = 0,05)Для

Горизонтные ряды расстояний между гласными для моно и тандемаУ моно-писателей горизонтный ряд

5. Упорядоченность букв по частоте встречаемости в европейских языках

Расстояния между текстами при различном упорядочении

Распределение букв по частоте в алфавите из n=32 знаковС детерминацией 0,97

Распределение букв по частоте в текстах на русском языке Минимальная интегральная ошибка

Избыточность и недостаточность алфавитов европейских языковПараметр o трактуем как оценку избыточности (o<0)

Основные результаты3-ПФР представляет ту текстовую структуру, расстояние в которой позволяет с высокой

Похожие презентации

Обсуждаемые вопросы
Точность статистического анализа в зависимости от объема текста.
Идентификация автора неизвестного текста

Обсуждаемые вопросы
Анализ авторских тандемов и проверка текста на однородность. Динамические системы, генерирующие

Цель и программа работы
Сопоставление тексту структуры в фазовом пространстве (букв, слов и

Текстовый инвариант? – Нет!
Текстовый инвариант – это функционал F(T) от текстовой структуры.

1. Статистическая достоверность определения частот употребления букв
в литературных произведениях

Выборочное распределение текста по буквам
Пусть ξ – случайная величина (буква или

Минимально достаточная длина текста
Тексты должны быть таких длин, чтобы статистическая неопределенность в

Оценка достаточной длины текста
Для стационарного процесса оценка среднего при неизвестной дисперсии дается

Достаточная длина текста
При ε=0,05:
для 1-ПФР N=40 тыс. знаков,
для

Уровень нестационарности текстов
Расстояние между ПФР текстов:
Чтобы сравнивать распределения текстов разных объемов, следует

Длина квазистационарности L(ε) для 1-ПФР
Для практических целей, где допустимы небольшие отклонения 1-ПФР

2. Кластеризация текстов, создание эталонных распределений
и метод идентификации автора

Идентификация автора текста
Пусть имеется библиотека из A авторов, у a-го автора текстов,

Авторские 1-ПФР
Вывод: авторские 1-ПФР очень близки, поэтому различие между ними должно выявляться

Ошибки 1-го и 2-го родов
функция распределения расстояний текстов автора от его

3. Спектральные портреты авторов
и эффект переводчика

Оператор трансляций
Пусть есть условная вероятность того, что буква следует за буквой .

Оператор трансляций на 1 шаг
выражается через 1-ПФР и 2-ПФР:
По формуле полной

ε-спектр оператора соседних трансляций
Число λ называется принадлежащим ε-спектру матрицы P, если существует

Вычисление ε-спектра
Параметром дихотомии спектра относительно кривой называется норма квадрата резольвенты на данной

Эффект переводчика и вектор «подсознания»
Кроме с.з. , которому отвечает с.в. 1-ПФР f

Шекспир – оригинальный текст
«Гамлет»
«Много шума из ничего»

Шекспир – перевод
«Гамлет»
(Лозинский)
«Много шума из ничего»
(Щепкина-Куперник)

4. Анализ авторских тандемов
и проверка текста на однородность

Горизонтный ряд
Пусть x(t) – эквидистантный временной ряд, f(N,t) – его ВПФР, построенная

Примеры горизонтных рядов
Сдвиг ВПФР на τ = 10
при уровне

Распределение горизонтного ряда для расстояний «b-b» (τ = 10, ε = 0,05)
Для

Горизонтные ряды расстояний между гласными для моно и тандема
У моно-писателей горизонтный ряд

Распределение букв по частоте в алфавите из n=32 знаков
С детерминацией 0,97

Распределение букв по частоте в текстах на русском языке
Минимальная интегральная ошибка

Избыточность и недостаточность алфавитов европейских языков
Параметр o трактуем как оценку избыточности (o<0)

Основные результаты
3-ПФР представляет ту текстовую структуру, расстояние в которой позволяет с высокой