Содержание
- 2. Содержание Векторная модель TF-IDF Косинусная мера Структурированный файл на примере XML Лексические поддеревья Структурные термы Расширение
- 3. Векторная модель Векторная модель (англ. vector space model) — представление коллекции документов векторами из одного общего
- 4. Векторная модель Более формально dj = (w1j, w2j, …, wnj), где dj — векторное представление j-го
- 5. TF-IDF TF-IDF (от англ. TF — term frequency, IDF — inverse document frequency) — статистическая мера,
- 6. Косинусная мера
- 7. Косинусная мера ρ(Q,D) – соответствие запроса Q документу D ti – терм (измерение) wQ(ti) – вес
- 8. Структурированный файл на примере XML* Shakespeare Macbeth Macbeth’s castle Will I with wine and wassail ...
- 9. Лексические поддеревья Деревья, содержащие хотя бы один словарный терм
- 10. Лексические поддеревья С увеличением количества узлов в дереве растет число лексических поддеревьев.
- 11. Структурные термы Будем рассматривать только такие лексические поддеревья, которые оканчиваются единственным словарным термом Такие поддеревья называются
- 12. Расширение векторной модели на случай структурированных файлов ρ(Q,D) – соответствие запроса Q документу D (ti,c i)
- 13. Схожесть контекстов 1 способ |cq| - число узлов в контексте, соответствующем терму из запроса |cd| -
- 14. Схожесть контекстов 2 способ Рассмотрим запрос в форме T Q = q1q2q3 – контекст появления Т
- 15. Схожесть контекстов LCS(Q,A) Longest Common Subsequence LCS(Q,A) = lcs(Q,A)/|Q|, где lcs(Q,A) – длина наибольшей общей подпоследовательности
- 16. Критерии оценки Контекст А включает больше элементов qi в правильном порядке. (В примере - 3) Элементы
- 17. Схожесть контекстов POS(Q,A) POS(Q,A) = 1-((AP-AverOptimalPosition)/(|A|-2*AverOptimalPosition+1)) AverOptimalPosition - среднее положение оптимального совпадения Q и А (если
- 18. Схожесть контекстов GAPS(Q,A) GAPS(Q,A) = gaps/(gaps + lcs(Q,A)) gaps - число «пробелов» (в примере gaps =
- 19. Схожесть контекстов LD(Q,A) LD(Q,A)= (|A|- lcs(Q,A))/|A| 0 ≤ LD ≤ 1 ( 0 – полное совпадение)
- 20. Схожесть контекстов cr(Q,A) = αLCS(Q,A) + βPOS(Q,A) – γGAPS(Q,A) – δLD(Q,A) 0 ≤ α ≤ 1,
- 21. Примеры Показывают, как влияют оценки LCS(Q,A) , POS(Q,A), GAPS(Q,A), LD(Q,A) на cr(Q,A) Q = q1q2q3 =
- 22. Пример A1. Влияние lcs(Q,A) на cr(Q,A) Пример A2. Влияние AP(Q,A) на cr(Q,A)
- 23. Пример A3. Влияние gaps(Q,A) на cr(Q,A) Пример A4. Влияние ld(Q,A) на cr(Q,A)
- 24. Пример B1. Влияние AP(Q,A) на cr(Q,A) при меньшем lcs (Q,A)
- 25. Okapi BM25 d - документ C – коллекция документов W(d,q,C) – релевантность документа d из коллекции
- 26. Okapi BM25 d - документ C – коллекция документов wj(d,C) – вес j-го терма в документе
- 27. BM25F модификация BM25, в которой документ рассматривается как совокупность нескольких полей (таких как, например, заголовки, основной
- 28. BM25F Пусть имеется nF полей f = 1, …, nF В данном поле f документа d
- 29. BM25F Пусть имеется nF полей f = 1, …, nF В данном поле f документа d
- 30. BM25F Если считать, что полю f присвоен вес wf , получим: N – мощность коллекции atf
- 31. BM25E В BM25F вместо частоты терма в документе используется линейная комбинация взвешенных частот терма в полях
- 32. BM25E Пусть имеется nЕ элементов е = 1, …, nЕ в коллекции С В элементе е
- 33. ВМ25Е Соответственно, функция ВМ25Е: tf’e,j – взвешенная частота j-го терма в элементе е еl’ – взвешенная
- 34. BM25E Соответственно, M – мощность коллекции atf – средняя частота терма
- 35. Литература Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press.
- 37. Скачать презентацию
 Slaidy.com
 Slaidy.com


































 Профессия моих родителей: моя мама -врач
 Профессия моих родителей: моя мама -врач Шаблон занятия по технологии
 Шаблон занятия по технологии Логопункт МДОУ д/с "Солнышко" п.Ханымей
 Логопункт МДОУ д/с "Солнышко" п.Ханымей История дизайна - часть проектно-художественной деятельности
 История дизайна - часть проектно-художественной деятельности Портрет школьного стрелка
 Портрет школьного стрелка Вклад Федерального казначейства в создание и развитие Информационного Общества
 Вклад Федерального казначейства в создание и развитие Информационного Общества Древние археологические памятники Урала (ДАПУ)
 Древние археологические памятники Урала (ДАПУ) Antonio Banderas
 Antonio Banderas О проекте концепции обновления Стратегического плана устойчивого развития Волгограда до 2025 года Доклад руководителя департаме
 О проекте концепции обновления Стратегического плана устойчивого развития Волгограда до 2025 года Доклад руководителя департаме Не сдавайтесь стройтесь!
 Не сдавайтесь стройтесь! Эпиген Интим, для интимной защиты женщины в разных ситуациях. Россия
 Эпиген Интим, для интимной защиты женщины в разных ситуациях. Россия Информатика 1 курс 1 семестр лекция № 2без звука
 Информатика 1 курс 1 семестр лекция № 2без звука Отгадай ребус
 Отгадай ребус Методы проведения дискуссии
 Методы проведения дискуссии  Stakeholder management
 Stakeholder management  Транспорт. Обработка документов от транспортных компаний
 Транспорт. Обработка документов от транспортных компаний Интернет семинар«Подготовка детей к школе в современных условиях»
 Интернет семинар«Подготовка детей к школе в современных условиях» Современный урок русского языка
 Современный урок русского языка Межшкольный учебный комбинатСоветского района г.Казани
 Межшкольный учебный комбинатСоветского района г.Казани Презентация на тему Прямоугольный параллелепипед Куб
 Презентация на тему Прямоугольный параллелепипед Куб Презентация на тему Сезонные изменения в лесу
 Презентация на тему Сезонные изменения в лесу  Уровни коммуникации на наглядных примерах рекламы
 Уровни коммуникации на наглядных примерах рекламы Школа РосатомаРеализация национальной образовательной инициативы «Наша новая школа» в городах расположения предприятий атомно
 Школа РосатомаРеализация национальной образовательной инициативы «Наша новая школа» в городах расположения предприятий атомно Технико-коммерческое предложение
 Технико-коммерческое предложение Веб-аналитика Как повысить эффективность сайта и рекламной кампании? Андрей Юнисов Управляющий партнер
 Веб-аналитика Как повысить эффективность сайта и рекламной кампании? Андрей Юнисов Управляющий партнер Синонимия словосочетаний
 Синонимия словосочетаний Взбодрись
 Взбодрись Применение специальных средств сотрудниками правоохранительных органов
 Применение специальных средств сотрудниками правоохранительных органов