Содержание
- 2. 1.Разработать новые методы, алгоритмы и технологии решения задачи создания декларативных средств для автоматической кластеризации текстовых документов
- 3. Основной идеей этой концепции является обоснование использования в качестве основных единиц смысла устойчивых фразеологических и терминологических
- 4. Основные технологии автоматической обработки неструктурированной текстовой информации 1.Технологии создание декларативных средств по тематическому корпусу текстов. 3.Технологии
- 5. Формально-логический контроль текста Морфологический анализ Семантико-синтаксический анализ Концептуальный анализ Дистрибутивно-статистический анализ Автоматическое смысловое структурирование документов на
- 6. Концепция установления смысловой близости фрагментов документов В качестве базовой теоретической концепции использовалась концепция фразеологического концептуального анализа
- 7. В связном тексте предложения выступают в тесной смысловой связи. В основе этой связи лежат мыслительные образы
- 8. Преобразование текстового представления в его формализованное смысловое представление дает возможность сопоставления текстов по их смысловому содержанию.
- 9. Выделение наименований понятий выполняется на этапе концептуального анализа текстов Концептуальный анализ текстов - это лингвистическая процедура,
- 10. Фрагмент частотного словаря синтаксических структур словосочетаний в словаре ЭКС
- 11. 1.Идея алгоритма: если некоторому отрезку текста соответствует в эталонном словаре хотя бы одно наименование понятия, имеющее
- 12. Шаг 1. Членение входного текста на предложения; Шаг 2. Морфологический анализ текста; Шаг 3. Пословная нормализация
- 13. 1.Идея алгоритма: если известна информация о длине словосочетания и о всех словах, входящих в состав этих
- 14. Шаг 1. Членение входного текста на предложения; Шаг 2. Морфологический анализ текста; Шаг 3. Пословная нормализация
- 15. 1.Идея алгоритма: если некоторому отрезку текста соответствует в эталонном словаре хотя бы одно наименование понятия, имеющее
- 16. Шаг 1. Членение входного текста на предложения; Шаг 2. Морфологический анализ текста; Шаг 3. Пословная нормализация
- 17. 1.Идея алгоритма: если сформированной последовательности обобщенных символов грамматических классов слов некоторого отрезка текста соответствует какой-либо элемент
- 18. Шаг 7. Поиск синтаксических структур, построенных по фрагментам текста, в эталонном словаре обобщенных синтагм; Шаг 8.
- 19. 1.Идея алгоритма: если фрагменту сформированной последовательности обобщенных синтагм предложения соответствует какой-либо элемент словаря обобщенных синтагм, представляющий
- 20. Шаг 1. Членение входного текста на предложения; Шаг 2. Морфологический анализ текста; Шаг 3. Построение синтаксического
- 21. Результаты работы алгоритм №4 (выделения словосочетаний основе обобщенных синтагм)
- 22. Гибридный алгоритм №5 выявления наименований понятий в текстах документов
- 23. Кол. Документов в массиве = 3 004 документов Всего слов в массиве документов= 523 810 слов
- 24. Сравнительные характеристики объемов частотных словарей, полученных по корпусу текстов сообщений СМИ различными методами концептуального анализа (КА)
- 25. Для реализации статистической меры TF-IDF ( TF — term frequency, IDF — inverse document frequency) и
- 26. 00000084 глава государство * Глава государства 00000084 чемпионат мир * Чемпионат Мира 00000065 русский язык *
- 27. Doc-934.t = 0003 Олимпийские игры в Лондоне / 0002 двукратный олимпийский чемпион / 0003 Ильин /
- 28. Кол.док.=00036 Понятие - «неправительственная организация» *1342.t*1347.t*1353.t*1358.t *1367.t *1369.t *1374.t *1398.t *1442.t *1456.t *1499.t *1543.t *1547.t *1554.t
- 29. Объем сокращенного частотного словаря (полученного по словарю ЭКС)=23 205 Объем частного словаря разных главных слов словосочетаний
- 30. Родовое понятие =«спорт*4208.00» Видовые понятия = спорт велосипедный - велосипедный спорт *4208.01 спорт высших достижений -
- 31. 00002 спортивная машина *1994.00 *1994.09 00002 спортивная команда *1624.00 *1624.07 00002 спортивная карьера *1519.00 *1519.08 00002
- 32. 00001 являлся *9878.00 00001 являлся аграрным донором *9878.00 *9878.01 00001 являлся акционером этой компании *9878.00 *9878.02
- 33. 1.Разработаны новые методы, алгоритмы и технологии решения задачи создания декларативных средств для автоматической кластеризации текстовых документов
- 35. Скачать презентацию