Содержание
- 2. Содержание Векторная модель TF-IDF Косинусная мера Структурированный файл на примере XML Лексические поддеревья Структурные термы Расширение
- 3. Векторная модель Векторная модель (англ. vector space model) — представление коллекции документов векторами из одного общего
- 4. Векторная модель Более формально dj = (w1j, w2j, …, wnj), где dj — векторное представление j-го
- 5. TF-IDF TF-IDF (от англ. TF — term frequency, IDF — inverse document frequency) — статистическая мера,
- 6. Косинусная мера
- 7. Косинусная мера ρ(Q,D) – соответствие запроса Q документу D ti – терм (измерение) wQ(ti) – вес
- 8. Структурированный файл на примере XML* Shakespeare Macbeth Macbeth’s castle Will I with wine and wassail ...
- 9. Лексические поддеревья Деревья, содержащие хотя бы один словарный терм
- 10. Лексические поддеревья С увеличением количества узлов в дереве растет число лексических поддеревьев.
- 11. Структурные термы Будем рассматривать только такие лексические поддеревья, которые оканчиваются единственным словарным термом Такие поддеревья называются
- 12. Расширение векторной модели на случай структурированных файлов ρ(Q,D) – соответствие запроса Q документу D (ti,c i)
- 13. Схожесть контекстов 1 способ |cq| - число узлов в контексте, соответствующем терму из запроса |cd| -
- 14. Схожесть контекстов 2 способ Рассмотрим запрос в форме T Q = q1q2q3 – контекст появления Т
- 15. Схожесть контекстов LCS(Q,A) Longest Common Subsequence LCS(Q,A) = lcs(Q,A)/|Q|, где lcs(Q,A) – длина наибольшей общей подпоследовательности
- 16. Критерии оценки Контекст А включает больше элементов qi в правильном порядке. (В примере - 3) Элементы
- 17. Схожесть контекстов POS(Q,A) POS(Q,A) = 1-((AP-AverOptimalPosition)/(|A|-2*AverOptimalPosition+1)) AverOptimalPosition - среднее положение оптимального совпадения Q и А (если
- 18. Схожесть контекстов GAPS(Q,A) GAPS(Q,A) = gaps/(gaps + lcs(Q,A)) gaps - число «пробелов» (в примере gaps =
- 19. Схожесть контекстов LD(Q,A) LD(Q,A)= (|A|- lcs(Q,A))/|A| 0 ≤ LD ≤ 1 ( 0 – полное совпадение)
- 20. Схожесть контекстов cr(Q,A) = αLCS(Q,A) + βPOS(Q,A) – γGAPS(Q,A) – δLD(Q,A) 0 ≤ α ≤ 1,
- 21. Примеры Показывают, как влияют оценки LCS(Q,A) , POS(Q,A), GAPS(Q,A), LD(Q,A) на cr(Q,A) Q = q1q2q3 =
- 22. Пример A1. Влияние lcs(Q,A) на cr(Q,A) Пример A2. Влияние AP(Q,A) на cr(Q,A)
- 23. Пример A3. Влияние gaps(Q,A) на cr(Q,A) Пример A4. Влияние ld(Q,A) на cr(Q,A)
- 24. Пример B1. Влияние AP(Q,A) на cr(Q,A) при меньшем lcs (Q,A)
- 25. Okapi BM25 d - документ C – коллекция документов W(d,q,C) – релевантность документа d из коллекции
- 26. Okapi BM25 d - документ C – коллекция документов wj(d,C) – вес j-го терма в документе
- 27. BM25F модификация BM25, в которой документ рассматривается как совокупность нескольких полей (таких как, например, заголовки, основной
- 28. BM25F Пусть имеется nF полей f = 1, …, nF В данном поле f документа d
- 29. BM25F Пусть имеется nF полей f = 1, …, nF В данном поле f документа d
- 30. BM25F Если считать, что полю f присвоен вес wf , получим: N – мощность коллекции atf
- 31. BM25E В BM25F вместо частоты терма в документе используется линейная комбинация взвешенных частот терма в полях
- 32. BM25E Пусть имеется nЕ элементов е = 1, …, nЕ в коллекции С В элементе е
- 33. ВМ25Е Соответственно, функция ВМ25Е: tf’e,j – взвешенная частота j-го терма в элементе е еl’ – взвешенная
- 34. BM25E Соответственно, M – мощность коллекции atf – средняя частота терма
- 35. Литература Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press.
- 37. Скачать презентацию


































Площадь Труда
ВОДА
ГЛОБАЛЬНЫЕ ПРОБЛЕМЫ ЧЕЛОВЕЧЕСТВА
Оценка недвижимого имущества
25.10 1b pre-interm
Презентация на тему Мыльные фантазии
КРЫМСКО-КОНГОЛЕЗСКАЯ ГЕМОРРАГИЧЕСКАЯ ЛИХОРАДКА (ККГЛ)КЛИНИЧЕСКИЕ АСПЕКТЫ
Игра для тренировки внимания
Возрастные кризисы развития
Презентация на тему Теорема косинусов
Грузовая транспортная логистика
Правовые формы выхода на рынок
Устройство компьютера
Дидактические основы межпредметных связей в предметном обучении
Изготовление сумки, декора для зеркала, носовых платочков и колье из бисера
крассная книга
Our Environment
Прощай, начальная школа
Волонтеры Ярославии
Ethics and Politics
История телефонов
ПРОЦЕСС РЕГЕНЕРАЦИИ САЖЕВОГО ФИЛЬТРА И ЕГО ВЛИЯНИЕ НА СВОЙСТВА МОТОРНОГО МАСЛА
Музей «Военный мундир России» ГБОУ СОШ № 1987
Косинусные меандровые шумоподобные сигналы (CosBOC-сигналы) в спутниковых радионавигационных системах нового поколения
MINI-PEKARNYa_SMAK
MOTOR COMPANY Генри Форд
История развития ЭВМ
Урбоэкология. Направление Природообустройство и водопользование