Визуализация статистики вхождения слов

Февраль 15, 2021

Главная
Разное
Визуализация статистики вхождения слов

Содержание

2. При подборе ключевых слов для поиска важно учитывать такое их свойство, как «различительная» или дискриминантная сила.
3. Нами реализованы инструментальные средства позволяющие визуализировать плотность встречаемости слова в тексте в зависимости от ширины окна
4. В результирующей спектограмме по горизонтали откладываются номера вхождения слова в тексте, а по вертикали - ширина
8. Для исследований распределения слов представляет интерес числовая последовательность, составленная из расстояний между появлениями слов в тексте.
9. Такие последовательности позволяют ответить на вопросы, актуальные при автоматическом поиске и реферировании текстовых массивов/документов. Например, представляется,
10. В естественных науках как величина меры «изрезанности» числовых последовательностей используется показатель Херста, который вычисляется на основании
12. Скачать презентацию

Слайд 2

При подборе ключевых слов для поиска важно учитывать такое их свойство,
как

«различительная» или дискриминантная сила.
Ведь если слово равномерно распределено по тексту
(очень часто или даже редко) , то вряд ли оно может использоваться
для эффективного содержательного поиска.
Данная мысль была «материализована» Солтоном в его знаменитой
векторно-пространственной модели поиска, где именно для учета
дискриминантной силы слов он ввел понятие инверсной частоты
появления слова в отдельных документах массива (IDF).
В работе испанских исследователей [*] для этой же цели была
предложена технология спектограмм слов, которые внешне напоминали
штрих-коды товаров.
Вместе с тем не позволяли рассматривать вхождения слов в разных
масштабах измерений, как это делается например в средствах
вейвлет-анализа .

[*] P. Carpena, P. Bernaola-Galván, M. Hackenberg, A. V. Coronado, J. L. Oliver.
Level statistics of words: Finding keywords in literary texts and symbolic sequences //
PHYSICAL REVIEW E 79, 035102, 2009. –P. 035102-1-035102-4

Слайд 3

Нами реализованы инструментальные средства позволяющие
визуализировать плотность встречаемости слова в тексте в

зависимости от ширины окна наблюдения. Через веб-интерфейс
вводится текст и слово для анализа (http://edu.infostream.ua/down/jag1.html).

Слайд 4

В результирующей спектограмме по горизонтали откладываются номера
вхождения слова в тексте, а

по вертикали - ширина окон наблюдения
(начиная со значения 1 в самом низу, вхождения слова в данном случае
выделяется светло-серым цветом). Если в соответствующее окно наблюдения
попадает несколько целевых слов, то оно закрашивается более интенсивным
оттенком темного. Всего предусмотрено 16 оттенков.

Спектограмма вхождения слова «и» в рассказе Стругацких
«Ночь на Марсе»

Спектограмма вхождения слова «сказал» в рассказе Стругацких
«Ночь на Марсе»

Слайд 5

Слайд 6

Слайд 7

Слайд 8

Для исследований распределения слов представляет интерес числовая
последовательность, составленная из расстояний между появлениями

слов в тексте. Пример: Гоголь, Мертвые души, том первый.
Слово: Собакевич

Слайд 9

Такие последовательности позволяют ответить на вопросы, актуальные при
автоматическом поиске и реферировании

текстовых массивов/документов.
Например, представляется, что автоматический реферат текста по аспекту,
выраженному словом будет тем лучше, чем:
более явно выражено скопление этих слов в текстах;
таких «явно выраженных»скоплений больше.

Слайд 10

В естественных науках как величина меры «изрезанности» числовых
последовательностей используется показатель Херста, который

вычисляется на основании R/S-анализа.
Нам показалась естественной аналогия с приведенными выше свойствами.
Параметр Херста был рассчитан для рассмотренных выше
персонажей «Мертвых душ».

Собакевич – 0.71

Ноздрев – 0.57

Плюшкин – 0.44

Визуализация статистики вхождения слов

Содержание

При подборе ключевых слов для поиска важно учитывать такое их свойство, как

Нами реализованы инструментальные средства позволяющие визуализировать плотность встречаемости слова в тексте в

В результирующей спектограмме по горизонтали откладываются номера вхождения слова в тексте, а

Для исследований распределения слов представляет интерес числоваяпоследовательность, составленная из расстояний между появлениями

Такие последовательности позволяют ответить на вопросы, актуальные при автоматическом поиске и реферировании

В естественных науках как величина меры «изрезанности» числовыхпоследовательностей используется показатель Херста, который

Похожие презентации