Содержание
- 2. Содержание Векторная модель TF-IDF Косинусная мера Структурированный файл на примере XML Лексические поддеревья Структурные термы Расширение
- 3. Векторная модель Векторная модель (англ. vector space model) — представление коллекции документов векторами из одного общего
- 4. Векторная модель Более формально dj = (w1j, w2j, …, wnj), где dj — векторное представление j-го
- 5. TF-IDF TF-IDF (от англ. TF — term frequency, IDF — inverse document frequency) — статистическая мера,
- 6. Косинусная мера
- 7. Косинусная мера ρ(Q,D) – соответствие запроса Q документу D ti – терм (измерение) wQ(ti) – вес
- 8. Структурированный файл на примере XML* Shakespeare Macbeth Macbeth’s castle Will I with wine and wassail ...
- 9. Лексические поддеревья Деревья, содержащие хотя бы один словарный терм
- 10. Лексические поддеревья С увеличением количества узлов в дереве растет число лексических поддеревьев.
- 11. Структурные термы Будем рассматривать только такие лексические поддеревья, которые оканчиваются единственным словарным термом Такие поддеревья называются
- 12. Расширение векторной модели на случай структурированных файлов ρ(Q,D) – соответствие запроса Q документу D (ti,c i)
- 13. Схожесть контекстов 1 способ |cq| - число узлов в контексте, соответствующем терму из запроса |cd| -
- 14. Схожесть контекстов 2 способ Рассмотрим запрос в форме T Q = q1q2q3 – контекст появления Т
- 15. Схожесть контекстов LCS(Q,A) Longest Common Subsequence LCS(Q,A) = lcs(Q,A)/|Q|, где lcs(Q,A) – длина наибольшей общей подпоследовательности
- 16. Критерии оценки Контекст А включает больше элементов qi в правильном порядке. (В примере - 3) Элементы
- 17. Схожесть контекстов POS(Q,A) POS(Q,A) = 1-((AP-AverOptimalPosition)/(|A|-2*AverOptimalPosition+1)) AverOptimalPosition - среднее положение оптимального совпадения Q и А (если
- 18. Схожесть контекстов GAPS(Q,A) GAPS(Q,A) = gaps/(gaps + lcs(Q,A)) gaps - число «пробелов» (в примере gaps =
- 19. Схожесть контекстов LD(Q,A) LD(Q,A)= (|A|- lcs(Q,A))/|A| 0 ≤ LD ≤ 1 ( 0 – полное совпадение)
- 20. Схожесть контекстов cr(Q,A) = αLCS(Q,A) + βPOS(Q,A) – γGAPS(Q,A) – δLD(Q,A) 0 ≤ α ≤ 1,
- 21. Примеры Показывают, как влияют оценки LCS(Q,A) , POS(Q,A), GAPS(Q,A), LD(Q,A) на cr(Q,A) Q = q1q2q3 =
- 22. Пример A1. Влияние lcs(Q,A) на cr(Q,A) Пример A2. Влияние AP(Q,A) на cr(Q,A)
- 23. Пример A3. Влияние gaps(Q,A) на cr(Q,A) Пример A4. Влияние ld(Q,A) на cr(Q,A)
- 24. Пример B1. Влияние AP(Q,A) на cr(Q,A) при меньшем lcs (Q,A)
- 25. Okapi BM25 d - документ C – коллекция документов W(d,q,C) – релевантность документа d из коллекции
- 26. Okapi BM25 d - документ C – коллекция документов wj(d,C) – вес j-го терма в документе
- 27. BM25F модификация BM25, в которой документ рассматривается как совокупность нескольких полей (таких как, например, заголовки, основной
- 28. BM25F Пусть имеется nF полей f = 1, …, nF В данном поле f документа d
- 29. BM25F Пусть имеется nF полей f = 1, …, nF В данном поле f документа d
- 30. BM25F Если считать, что полю f присвоен вес wf , получим: N – мощность коллекции atf
- 31. BM25E В BM25F вместо частоты терма в документе используется линейная комбинация взвешенных частот терма в полях
- 32. BM25E Пусть имеется nЕ элементов е = 1, …, nЕ в коллекции С В элементе е
- 33. ВМ25Е Соответственно, функция ВМ25Е: tf’e,j – взвешенная частота j-го терма в элементе е еl’ – взвешенная
- 34. BM25E Соответственно, M – мощность коллекции atf – средняя частота терма
- 35. Литература Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press.
- 37. Скачать презентацию


































Федеральные налоги и сборы: понятие, виды, порядок начисления и сроки уплаты
по теме 6 новая през
Что угрожает человечеству? "Пора осознать , что человечество идет к своему концу. У нас нет сил и возможностей спасти самих себя. М
ENGLISH LEXICOLOGY
Человек и природа в творчестве художников Зауралья
Дорога Жизни
What do we do at school?
Минимизация бумажного документооборота на территории
ТЗ по отделке дома (правая сторона)
Розничая торговля лекарственными средствами
Художественная культура Древнего Египта
american vs british words
Новый год в разных странах
математика
Китайскя живопись
Линзы
Красная книга Ставропольского края
Дом с колокольчиком
Цели, методы и средства в политике
Мотивация барменов
Кафе Аркадия
Технология приготовления и оформления супов, способы сервировки и варианты оформления и подачи
Задание к семинарскому занятию №1
Resume Workshop
Традиции моей семьи. 5 класс
Вредоносные и антивирусные программы. Компьютерные черви и защита от них
Макаровские шанежки
Уголовно-процессуальное право