Визуализация статистики вхождения слов

Содержание

Слайд 2

При подборе ключевых слов для поиска важно учитывать такое их свойство,
как

При подборе ключевых слов для поиска важно учитывать такое их свойство, как
«различительная» или дискриминантная сила.
Ведь если слово равномерно распределено по тексту
(очень часто или даже редко) , то вряд ли оно может использоваться
для эффективного содержательного поиска.
Данная мысль была «материализована» Солтоном в его знаменитой
векторно-пространственной модели поиска, где именно для учета
дискриминантной силы слов он ввел понятие инверсной частоты
появления слова в отдельных документах массива (IDF).
В работе испанских исследователей [*] для этой же цели была
предложена технология спектограмм слов, которые внешне напоминали
штрих-коды товаров.
Вместе с тем не позволяли рассматривать вхождения слов в разных
масштабах измерений, как это делается например в средствах
вейвлет-анализа .

[*] P. Carpena, P. Bernaola-Galván, M. Hackenberg, A. V. Coronado, J. L. Oliver.
Level statistics of words: Finding keywords in literary texts and symbolic sequences //
PHYSICAL REVIEW E 79, 035102, 2009. –P. 035102-1-035102-4

Слайд 3

Нами реализованы инструментальные средства позволяющие
визуализировать плотность встречаемости слова в тексте в

Нами реализованы инструментальные средства позволяющие визуализировать плотность встречаемости слова в тексте в

зависимости от ширины окна наблюдения. Через веб-интерфейс
вводится текст и слово для анализа (http://edu.infostream.ua/down/jag1.html).

Слайд 4

В результирующей спектограмме по горизонтали откладываются номера
вхождения слова в тексте, а

В результирующей спектограмме по горизонтали откладываются номера вхождения слова в тексте, а
по вертикали - ширина окон наблюдения
(начиная со значения 1 в самом низу, вхождения слова в данном случае
выделяется светло-серым цветом). Если в соответствующее окно наблюдения
попадает несколько целевых слов, то оно закрашивается более интенсивным
оттенком темного. Всего предусмотрено 16 оттенков.

Спектограмма вхождения слова «и» в рассказе Стругацких
«Ночь на Марсе»

Спектограмма вхождения слова «сказал» в рассказе Стругацких
«Ночь на Марсе»

Слайд 8

Для исследований распределения слов представляет интерес числовая
последовательность, составленная из расстояний между появлениями

Для исследований распределения слов представляет интерес числовая последовательность, составленная из расстояний между

слов в тексте. Пример: Гоголь, Мертвые души, том первый.
Слово: Собакевич

Слайд 9

Такие последовательности позволяют ответить на вопросы, актуальные при
автоматическом поиске и реферировании

Такие последовательности позволяют ответить на вопросы, актуальные при автоматическом поиске и реферировании
текстовых массивов/документов.
Например, представляется, что автоматический реферат текста по аспекту,
выраженному словом будет тем лучше, чем:
более явно выражено скопление этих слов в текстах;
таких «явно выраженных»скоплений больше.

Слайд 10

В естественных науках как величина меры «изрезанности» числовых
последовательностей используется показатель Херста, который

В естественных науках как величина меры «изрезанности» числовых последовательностей используется показатель Херста,

вычисляется на основании R/S-анализа.
Нам показалась естественной аналогия с приведенными выше свойствами.
Параметр Херста был рассчитан для рассмотренных выше
персонажей «Мертвых душ».

Собакевич – 0.71

Ноздрев – 0.57

Плюшкин – 0.44

Имя файла: Визуализация-статистики-вхождения-слов.pptx
Количество просмотров: 167
Количество скачиваний: 0