Слайд 2
Два определения для метода, базирующегося на сопоставлении частотных характеристик:
Глобальная частота встречаемости –
![Два определения для метода, базирующегося на сопоставлении частотных характеристик: Глобальная частота встречаемости](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/465878/slide-1.jpg)
абсолютная частота встречаемости слова в анализируемом объекте (от коллекции до текста).
2. Локальная частота встречаемости – абсолютная частота встречаемости слова в окне наблюдения из K слов.
Слайд 3
В теории информационного поиска признано ранжирование весов слов по классическому критерию Солтона
![В теории информационного поиска признано ранжирование весов слов по классическому критерию Солтона](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/465878/slide-2.jpg)
TF IDF [1], где TF (Term Frequency) – это частота встречаемости слова в пределах выбранного документа, а IDF (Inverse Document Frequency) –величина, обратная количеству документов, в которых встретилось данное слово.
Наш подход идеологически близок к TF, можно считать, что локальная частота – это аналог TF (в этом случае окно наблюдения – аналог документа), а глобальная частота встречаемости соответствует IDF. При этом появляется возможность анализировать не только массивы документов, как это реализовано с помощью TF IDF, но и анализировать цельные тексты больших объемов (ср. [2]).
1. Salton G., Buckley C. Term-weighting approaches in automatic text retrieval. Information Processing and Management, 1988. – № 24(5). – P. 513-523.
2. Ягунова Е.В. Ключевые слова в исследовании текстов Н.В. Гоголя // Проблемы социо- и психолингвистики. Вып. 15. Пермь, 2011
Слайд 4 В [3] исследовалась зависимость особенности соотношения локальной и глобальной популярности сообщений
![В [3] исследовалась зависимость особенности соотношения локальной и глобальной популярности сообщений электронных](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/465878/slide-3.jpg)
электронных СМИ. При этом было выявлено некоторое количество сообщений, характеризующихся большим соотношением локальной популярности к глобальной. Этот факт позволяет судить о событиях, описываемых в данных сообщениях, как о новых. Таким образом был обоснован алгоритм выявления документов, получивших большую популярность только в последнее время (New Event Detection) [4].
3. Ландэ Д.В., Григорьев А.Н., Брайчевский С.М., Дармохвал А.Т., Снарский А.А. Особенности соотношения локальной и глобальной популярности сообщений электронных СМИ // MegaLing'2007. – Симферополь, Изд-во: "ДиАйПи", 2007. - С. 223-224.
4. Ландэ Д.В., Фурашев В.Н. Выявление новых событий в рамках системы контент-мониторинга // Научно-техническая информация. – Сер. 2. Информационные процессы и системы. №12 – 2006. – С. 17-20.
Слайд 5 Предлагаемый подход позволяет анализировать структуры самых разных текстовых объектов: от единичного
![Предлагаемый подход позволяет анализировать структуры самых разных текстовых объектов: от единичного текста](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/465878/slide-4.jpg)
текста до политематической коллекции текстов.
В рамках проводимого исследования рассматривались:
максимально неоднородная – и по тематическим, и по стилевым характеристикам – коллекция новостей из русскоязычного сегмента веб-пространства;
поэма Н.В.Гоголя «Мертвые души» (первый том).
На уровне выбора материала авторы пытались максимизировать количество противопоставлений: новостной vs художественный функциональный стиль, 2) коллекция vs одно произведение, 3) тематическая и стилевая неоднородность (новостей) vs однородность (поэмы Н.В. Гоголя).
Слайд 6Исследовалась зависимость локальной частоты встречаемости слов от глобальной с тремя значениями окна
![Исследовалась зависимость локальной частоты встречаемости слов от глобальной с тремя значениями окна](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/465878/slide-5.jpg)
анализа (K=100, K=500 и K=5000).
Окна анализа подбирались эмпирически, их выбор был обусловлен желанием в качестве минимального окна выбрать тот диапазон, в который помещается средний абзац для поэмы или средний текст новостей (K=100), в качестве максимального окна – средняя глава поэмы или сегмент, в котором реализуется большинство новостных текстов, реализующих наиболее распространенную и актуальную новость (K=5000).
Слайд 7Цель исследовала состояла в том, чтобы на основании сопоставления частот встречаемости слов
![Цель исследовала состояла в том, чтобы на основании сопоставления частот встречаемости слов](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/465878/slide-6.jpg)
выделить основные единицы анализа для структур, описывающих коллекцию и/или текст. Для художественного произведения, скорее всего этой единицей будет сверхфразовое единство (СФЕ). Формализовать критерии определения/выделения СФЕ в лингвистике текста, как правило, не удается.
«Чистые СФЕ» встречаются крайне редко даже для текстов с максимальной однородностью тематики и стилевых характеристик. Почему? Потому что даже для самых однородных текстов наблюдается иерархия тем (тем и подтем) и отсутствие полной однородности стиля. В этом смысле противопоставление текст vs цикл vs коллекция-поток оказывается динамическим, лишенным четких границ.
Слайд 8Семантической структурой называем структуру, характеризующую прежде всего стилевые характеристики.
Информационной структурой –
![Семантической структурой называем структуру, характеризующую прежде всего стилевые характеристики. Информационной структурой –](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/465878/slide-7.jpg)
структуру, характеризующую тематику, предметную область анализируемых текстов или коллекций. Для новостных (или научных) текстов эти структуры противопоставлены существенно выше, чем для художественных текстов [5].
5. Ягунова Е.В., Пивоварова Л.М. Экспериментально-вычислительные исследования художественной прозы Н.В. Гоголя. М., 2011
Слайд 9На рис. 1 представлены графики зависимости локальной частоты от глобальной для различных
![На рис. 1 представлены графики зависимости локальной частоты от глобальной для различных](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/465878/slide-8.jpg)
K. Очевидно, при K?N, где N – общее число слов в анализируемом объекте, верхняя кромка графика будет стремиться к прямой (локальная частота станет совпадать с глобальной).
Слайд 10На каждом графике выделяется 4 области в соответствии со следующими параметрами:
1. Глобальная
![На каждом графике выделяется 4 области в соответствии со следующими параметрами: 1.](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/465878/slide-9.jpg)
и локальная частот малые. Таких слов очень много, их значение в тексте соответствует «хвосту» распределения Ципфа – это, прежде всего, редко используемые специфические слова, т.е. слова, характеризующие данный документ (сегмент потока) и встречающиеся более одного раза как глобально, так и локально. Кроме таких специфических слов в «область 1» попадают ошибки, которые достаточно легко отфильтровать.
Слайд 112. Глобальная частота относительно небольшая, а локальная – высокая. Этой области соответствуют
![2. Глобальная частота относительно небольшая, а локальная – высокая. Этой области соответствуют](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/465878/slide-10.jpg)
слова, присущие новой теме, «всплеску» интереса к определенному факту в потоке новостей на сравнительно небольшом временном сегменте веб-пространства. Этой области соответствуют слова единичного текста, маркирующие СФЕ с наиболее четкими границами, например, появление действующего лица, локализованного в данном СФЕ (сегменте текста) и сопровождаемого «всплеском» внимания.
Слайд 123. Глобальная частота высокая, а локальная – низкая. Этой области соответствуют слова
![3. Глобальная частота высокая, а локальная – низкая. Этой области соответствуют слова](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/465878/slide-11.jpg)
относительно равномерно входящие в текст, по-видимому, определяющие его общую структуру: прежде всего, семантическую структуру, в которой задаются общие стилевые характеристики анализируемого объекта (текста и/или коллекции) и способ «упаковки» информации. Вероятно, это те слова, которые соответствуют скорее «семантической структуре» текста, в отличие от «информационной структуры», к которой по преимуществу относятся слова из п.2 (см. подробнее [5]).
Слайд 134. Глобальная и локальная частоты высокие. Чаще всего служебные слова, имеющие низкую
![4. Глобальная и локальная частоты высокие. Чаще всего служебные слова, имеющие низкую](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/465878/slide-12.jpg)
«различительную силу» при поиске, такие слова обычно помещаются в список «стоп-слов».
Слайд 14Сосредоточимся на словах, у которых глобальная частота уже большая, а локальная скачет
![Сосредоточимся на словах, у которых глобальная частота уже большая, а локальная скачет](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/465878/slide-13.jpg)
(«гребешок»). Это наиболее информативный для нас фрагмент (взаимодействие между областями и структурами).
Для поэмы «Мертвые души» практически все знаменательные слова являются теми ключевыми словами, которые явно маркируют СФЕ, сопровождаемые всплеском внимания на соответствующие реалии: человек, Ноздрев, Собакевич, Манилов, души, Чичикова, Селифан, мертвые, председатель, капитан, Копейкин. Мы называем эти слова ключевыми, т.к. эти слова совпадают с теми списками, что выделяли информанты и/или с теми, которым соответствовали наибольшие веса TF IDF.
Слайд 15На материале новостной коллекции слова – ключевые – ведут себя еще более
![На материале новостной коллекции слова – ключевые – ведут себя еще более](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/465878/slide-14.jpg)
явным образом, их доля по сравнению с незнаменательной лексикой гораздо выше, чем для однородного единичного текста художественной литературы.
Проиллюстрируем это положение на примере локальных информационных всплесков начала декабря 2008 года: ОПЕК («Президент ОПЕК пригласил Россию вступить в картель»), РЖД («Из-за кризиса РЖД в ноябре сократила грузоперевозки на 20 процентов»), нефти («Распоряжение о строительстве нефтепровода в обход Белоруссии»); примеры государственный и университет иллюстрируют соединение двух словоформ в сложный термин (биграмму) («Не принимать абитуриентов по ЕГЭ разрешили 24 вузам»).
Слайд 16Можно ли назвать сегменты новостного потока, выделенные благодаря локальным всплескам, аналогами СФЕ?
![Можно ли назвать сегменты новостного потока, выделенные благодаря локальным всплескам, аналогами СФЕ?](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/465878/slide-15.jpg)
Да, безусловно. Каждый из них описывает одну ситуацию, характеризуется максимальной тематической и стилевой однородностью. Более того, то, что выделяется по предлагаемой методике, как правило, хорошо локализовано, имеет явно выраженные временные и тематические границы.
Слайд 17В заключение подчеркнем, что современная лингвистика ориентирована на разнообразие лингвистических объектов: от
![В заключение подчеркнем, что современная лингвистика ориентирована на разнообразие лингвистических объектов: от](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/465878/slide-16.jpg)
традиционного объекта, эквивалентного единичному тексту, до коллекций и потоков новостей. И предлагаемый метод, ориентирован на исследование разных лингвистических объектов, когда единичный текст перетекает в поток текстов, а лингвистика текста смыкается с лингвистикой Интернета.