Методы статистического анализа литературных текстов

Содержание

Слайд 2

Обсуждаемые вопросы

Точность статистического анализа в зависимости от объема текста.
Идентификация автора неизвестного текста

Обсуждаемые вопросы Точность статистического анализа в зависимости от объема текста. Идентификация автора
в библиотеке эталонов, создание эталонов и кластеризация текстов.
Оператор трансляций распределения текста по буквам и спектральные портреты. Эффект переводчика.

Слайд 3

Обсуждаемые вопросы

Анализ авторских тандемов и проверка текста на однородность. Динамические системы, генерирующие

Обсуждаемые вопросы Анализ авторских тандемов и проверка текста на однородность. Динамические системы,
ряд расстояний между одинаковыми буквами в тексте.
Анализ европейских языков. Функция распределения букв по частоте встречаемости. Фонетический анализ алфавитов по избыточности или недостаточности символов.

Слайд 4

Цель и программа работы

Сопоставление тексту структуры в фазовом пространстве (букв, слов и

Цель и программа работы Сопоставление тексту структуры в фазовом пространстве (букв, слов
т.п.)
Введение нормы как расстояния между структурами в фазовом пространстве
Определение проекторов на подпространства с целью классификации: языка текста, эпохи написания, типа (проза или поэзия), формата (роман, очерк, эссе), жанра (детектив, триллер), автора

Слайд 5

Текстовый инвариант? – Нет!

Текстовый инвариант – это функционал F(T) от текстовой структуры.

Текстовый инвариант? – Нет! Текстовый инвариант – это функционал F(T) от текстовой
Два текста близки в фазовом пространстве, если близки функционалы: .
Цель работы – ввести наилучшим образом расстояние в пространстве структур
,
т.е. рассматривать не разность функционалов, а функционал разности.

Слайд 6

1. Статистическая достоверность определения частот употребления букв
в литературных произведениях

1. Статистическая достоверность определения частот употребления букв в литературных произведениях

Слайд 7

Выборочное распределение текста по буквам

Пусть ξ – случайная величина (буква или

Выборочное распределение текста по буквам Пусть ξ – случайная величина (буква или
буквосочетание), принимающая значения из конечного упорядоченного множества букв (пар букв, и т.д.) в алфавите.
1-ВПФР f1N(i) есть эмпирическая вероятность обнаружения данной (i-ой) буквы в тексте из N символов, 2-ВПФР f2N(i,j) – пары букв, и т.д.
«Время» – это порядковый номер буквы в тексте. Пробелы и знаки игнорируются.

Слайд 8

Минимально достаточная длина текста

Тексты должны быть таких длин, чтобы статистическая неопределенность в

Минимально достаточная длина текста Тексты должны быть таких длин, чтобы статистическая неопределенность
оценке вероятностей буквосочетаний была «много меньше» наблюденного расстояния между распределениями
Основная гипотеза: распределения буквосочетаний для каждого автора квазистационарны

Слайд 9

Оценка достаточной длины текста

Для стационарного процесса оценка среднего при неизвестной дисперсии дается

Оценка достаточной длины текста Для стационарного процесса оценка среднего при неизвестной дисперсии
статистикой Стьюдента
Оценка длины текста для построения распределения с точностью ε:

Слайд 10

Достаточная длина текста

При ε=0,05:
для 1-ПФР N=40 тыс. знаков,
для

Достаточная длина текста При ε=0,05: для 1-ПФР N=40 тыс. знаков, для 2-ПФР
2-ПФР N=400 тыс. знаков,
для 3-ПФР N=4 млн знаков.

Слайд 11

Распределение расстояний между 2-ПФР в норме L1

Распределение расстояний между 2-ПФР в норме L1

Слайд 12

Минимальная длина текста

Минимальная длина текста

Слайд 13

Уровень нестационарности текстов

Расстояние между ПФР текстов:
Чтобы сравнивать распределения текстов разных объемов, следует

Уровень нестационарности текстов Расстояние между ПФР текстов: Чтобы сравнивать распределения текстов разных
убедиться в том, что каждый из них стабилизируется:

Слайд 14

Длина квазистационарности L(ε) для 1-ПФР

Для практических целей, где допустимы небольшие отклонения 1-ПФР

Длина квазистационарности L(ε) для 1-ПФР Для практических целей, где допустимы небольшие отклонения
отрывка от 1-ПФР всего текста, достаточно сравнительно небольших объемов текстов.

Слайд 15

2. Кластеризация текстов, создание эталонных распределений
и метод идентификации автора

2. Кластеризация текстов, создание эталонных распределений и метод идентификации автора

Слайд 16

Идентификация автора текста

Пусть имеется библиотека из A авторов, у a-го автора текстов,

Идентификация автора текста Пусть имеется библиотека из A авторов, у a-го автора
в i-ом тексте знаков, и есть ПФР отдельного текста. Вводится эталонная ПФР автора:
Пусть - ПФР текста неизвестного автора. Автор определяется по правилу

Слайд 17

Авторские 1-ПФР

Вывод: авторские 1-ПФР очень близки, поэтому различие между ними должно выявляться

Авторские 1-ПФР Вывод: авторские 1-ПФР очень близки, поэтому различие между ними должно
на «тонкой структуре» их взаимных различий, а не функционала от них как таковых

Слайд 18

Ошибки 1-го и 2-го родов

функция распределения расстояний текстов автора от его

Ошибки 1-го и 2-го родов функция распределения расстояний текстов автора от его
эталона;
чужих текстов от него же;
есть вероятность ошибочно отклонить текст автора, посчитав его чужим (ошибка 1-го рода);
есть вероятность ошибочно признать чужой текст авторским (ошибка 2-го рода)

Слайд 19

Мощность статистических методов идентификации автора

Мощность статистических методов идентификации автора

Слайд 20

Шолохов – автор «Тихого Дона» по расстояниям между 2-ПФР текстов с вероятностью

Шолохов – автор «Тихого Дона» по расстояниям между 2-ПФР текстов с вероятностью 96%
96%

Слайд 21

Распределение расстояний между произведениями Шекспира

Распределение расстояний между произведениями Шекспира

Слайд 22

Шекспир – автор всех своих пьес по расстояниям между 2-ПФР текстов с

Шекспир – автор всех своих пьес по расстояниям между 2-ПФР текстов с вероятностью 94%
вероятностью 94%

Слайд 23

3. Спектральные портреты авторов
и эффект переводчика

3. Спектральные портреты авторов и эффект переводчика

Слайд 24

Оператор трансляций

Пусть есть условная вероятность того, что буква следует за буквой .

Оператор трансляций Пусть есть условная вероятность того, что буква следует за буквой

Пусть также есть -ая компонента вектора вероятностей того, что буква реализуется в тексте в момент .
Тогда

Слайд 25

Оператор трансляций на 1 шаг

выражается через 1-ПФР и 2-ПФР:
По формуле полной

Оператор трансляций на 1 шаг выражается через 1-ПФР и 2-ПФР: По формуле
вероятности
Следовательно, 1-ПФР
является с.в. оператора , отвечающим с.з. 1.

Слайд 26

ε-спектр оператора соседних трансляций

Число λ называется принадлежащим ε-спектру матрицы P, если существует

ε-спектр оператора соседних трансляций Число λ называется принадлежащим ε-спектру матрицы P, если
матрица Δ такая, что
Резольвентой матрицы P называется
матрица
Тогда если

Слайд 27

Вычисление ε-спектра

Параметром дихотомии спектра относительно кривой называется норма квадрата резольвенты на данной

Вычисление ε-спектра Параметром дихотомии спектра относительно кривой называется норма квадрата резольвенты на
кривой:
Если на кривой нет точек спектра, то норма резольвенты на этой кривой конечна.
Спектральные портреты операторов P для разных авторов показывают устойчивость этой структуры для текстов одного автора и различающиеся картины для разных авторов.

Слайд 28

Примеры спектральных портретов писателей

Примеры спектральных портретов писателей

Слайд 29

Примеры спектральных портретов писателей

Примеры спектральных портретов писателей

Слайд 30

Примеры спектральных портретов писателей

Примеры спектральных портретов писателей

Слайд 31

Примеры спектральных портретов писателей

Примеры спектральных портретов писателей

Слайд 32

Примеры спектральных портретов писателей

Примеры спектральных портретов писателей

Слайд 33

Эффект переводчика и вектор «подсознания»

Кроме с.з. , которому отвечает с.в. 1-ПФР f

Эффект переводчика и вектор «подсознания» Кроме с.з. , которому отвечает с.в. 1-ПФР
, у оператора P(1) еще одно устойчивое с.з. .
Ему отвечает правый с.в. S и левый S*.
Оказалось, что , т.е. векторы S* и f приближенно образуют главные направления оператора трансляций.
Вектор S, как и вектор 1-ПФР f , весьма точно идентифицирует автора. Однако в переводах это идентификационное свойство теряется.
Вывод: изложение можно отличить от сочинения, а переводчик не является соавтором.

Слайд 34

Шекспир – оригинальный текст

«Гамлет»
«Много шума из ничего»

Шекспир – оригинальный текст «Гамлет» «Много шума из ничего»

Слайд 35

Шекспир – перевод

«Гамлет»
(Лозинский)
«Много шума из ничего»
(Щепкина-Куперник)

Шекспир – перевод «Гамлет» (Лозинский) «Много шума из ничего» (Щепкина-Куперник)

Слайд 36

4. Анализ авторских тандемов
и проверка текста на однородность

4. Анализ авторских тандемов и проверка текста на однородность

Слайд 37

Горизонтный ряд

Пусть x(t) – эквидистантный временной ряд, f(N,t) – его ВПФР, построенная

Горизонтный ряд Пусть x(t) – эквидистантный временной ряд, f(N,t) – его ВПФР,
к моменту t по выборке объема N.
Горизонтным рядом для ряда x(t) называется минимальный объем выборки такой, что

Слайд 38

Примеры горизонтных рядов

Сдвиг ВПФР на τ = 10
при уровне

Примеры горизонтных рядов Сдвиг ВПФР на τ = 10 при уровне ε

ε = 0,05
Значения h, близкие к предельным, означают хаос, а уменьшение означает взаимосвязь элементов

Слайд 39

Горизонтный ряд как индикатор разладки (τ = 10, ε = 0,05)

Горизонтный ряд как индикатор разладки (τ = 10, ε = 0,05)

Слайд 40

Распределения горизонтных рядов для τ = 10, ε = 0,05

Распределения горизонтных рядов для τ = 10, ε = 0,05

Слайд 41

Распределение расстояний между одинаковыми буквами

Распределение расстояний между одинаковыми буквами

Слайд 42

Распределение горизонтного ряда для расстояний «b-b» (τ = 10, ε = 0,05)

Для

Распределение горизонтного ряда для расстояний «b-b» (τ = 10, ε = 0,05)
всех букв распределение горизонтного ряда одинаково. Оно похоже на распределение для нелинейно коррелированных многомерных ХДС.

Слайд 43

Горизонтные ряды расстояний между гласными для моно и тандема

У моно-писателей горизонтный ряд

Горизонтные ряды расстояний между гласными для моно и тандема У моно-писателей горизонтный
не достигает последней полосы шириной в горизонт, а у тандемов есть места максимальных рассогласований

Слайд 44

5. Упорядоченность букв по частоте встречаемости в европейских языках

5. Упорядоченность букв по частоте встречаемости в европейских языках

Слайд 45

Расстояния между текстами при различном упорядочении

Расстояния между текстами при различном упорядочении

Слайд 46

Распределение букв по частоте в алфавите из n=32 знаков

С детерминацией 0,97

Распределение букв по частоте в алфавите из n=32 знаков С детерминацией 0,97

Слайд 47

Распределение букв по частоте в текстах на русском языке

Минимальная интегральная ошибка

Распределение букв по частоте в текстах на русском языке Минимальная интегральная ошибка
приближения, равная 0,05, получается при o=0 в модели:

Эта зависимость выполнена и для старославянских текстов (n=43), и для русской литературы XIX века (n=37). Для русских текстов в транслите (n=23 символа) o=+9.

Слайд 48

Избыточность и недостаточность алфавитов европейских языков

Параметр o трактуем как оценку избыточности (o<0)

Избыточность и недостаточность алфавитов европейских языков Параметр o трактуем как оценку избыточности
или недостаточности (o>0) алфавита по отношению к звуковому ряду. В текстах на всех языках без огласовки n = 20, o = 0.

Слайд 49

Основные результаты

3-ПФР представляет ту текстовую структуру, расстояние в которой позволяет с высокой

Основные результаты 3-ПФР представляет ту текстовую структуру, расстояние в которой позволяет с
точностью опознавать автора
Построен индикатор однородности текста (горизонтный ряд), позволяющий анализировать небольшие фрагменты на предмет количества возможных соавторов
Изучен спектр оператора эволюции 1-ПФР и показана авторская устойчивость спектральных портретов. Пара главных направлений позволяет определить, собственный ли это текст автора, или изложение чужих мыслей
Найдено универсальное полуэмпирическое распределение букв по частоте встречаемости в европейских языках, позволяющее оценить фонетическую адекватность алфавита