Программный комплекс «СМАЛТ». Морфологически размеченный корпус по русской публицистикевторой половины XIX века
Содержание
- 2. Программный комплекс «СМАЛТ»
- 3. Система подготовки данных для БД
- 4. Особенности морфологического разбора текстов XIX века (орфографическая вариативность) Примеры: очень-многiе, само-по-себе, до-сихъ-поръ, на-дняхъ, какъ-будто, ничемъ другъ-къ-другу
- 5. Виды морфологической разметки Разметка 1 Опирается на следующий инвентарь частей речи: существительное, прилагательное, числительное, местоимение, глагол,
- 6. Фрагмент структуры морфологической разметки Часть речи Глагол Существительное Время ……… ……….. Прошедшее Род Мужской ……….. Падеж
- 7. Статистика словаря Корпус текстов состоит из публицистических статей разной тематической направленности из петербургских журналов «Время», «Эпоха»,
- 8. Преформатирование и грамматический разбор
- 9. Схема доступа к БД Алфавитный словарь Частотный словарь Поиск слов по грамматическим признакам Функция показа выбранного
- 10. Схема доступа к БД Интернет-доступ http://smalt.karelia.ru/projects.html Локальный доступ Быстрая скорость Возможность самостоятельно формировать БД
- 11. Поиск
- 12. Вывод результата
- 13. Вывод контекстов
- 14. Вывод оригинального текста
- 15. Поиск по грамматическим параметрам
- 16. Словарь
- 17. Модуль статистического анализа программного комплекса «СМАЛТ»
- 18. Достоевский редактировал и возглавлял три журнала Время (1861-1863) Эпоха (1864-1865) Гражданин (1873-1874) Издавал свой личный журнал
- 19. Методы анализа текстов Статистические методы Проверка статистических гипотез Разбиение текстов на группы с использованием кластерного анализа
- 20. Авторский инвариант Под авторским инвариантом понимают такую характеристику литературных текстов (некий параметр), которая 1. однозначно характеризует
- 21. Свойства авторского инварианта 1. Она должна быть достаточно «массовой», интегральной, чтобы слабо контролироваться автором на сознательном
- 22. «Некролог. Иван Иванович Панаев», Dubia, «Время», 1862, №2, 16 предложений «Несколько слов о Ристори», А. А.
- 23. «Сильный граф» для произведения «Подписка на 1863 год», Ф. М. Достоевский, «Время», 1862, №9, 161 предложение
- 24. Часть таблицы коэффициентов близости текстов Узловые значение графа устанавливались экспериментально и варьировались от 3 до 6.
- 25. Развитие исследования Гейра Хетсо Отличия: Использование текстов в авторской орфографии и пунктуации; Проверка устойчивости методик на
- 26. Используемые лингвостатистические параметры 1. Средняя длина слова в буквах, вычисляемая на основании выборок размером в 200,
- 27. Средняя длина слова в буквах H0 = {гипотеза о равенстве средних для двух выборок, одна из
- 28. использовалась следующая формула критерия Стьюдента: В этой формуле m1 и m2 - сравниваемые средние частоты, n1
- 29. Средняя длина слова в буквах. Критерий Стьюдента для разных объемов выборки.
- 30. Общее распределение длины слова. Получены данные о том, сколько в каждом тексте слов, имеющих по 1,
- 31. Средняя длина предложения в словах Проводится тест исключительности на основании выборок в 30 предложений. Проверка на
- 32. Общее распределение длины предложения Информация об общем распределении длины предложения была получена по интервалам в 1-5,
- 33. Лексический спектр текста на уровне словаря и Лексический спектр текста на уровне текста Лексический спектр текст
- 34. Индекс разнообразия лексики Индекса разнообразия лексики - отношения числа разных слов к числу словоупотреблений. Исследуется степень
- 35. Результаты исследования Несмотря на использование разных источников и соответственно на наличие некоторых различий, результаты с исследованием
- 36. Основной результат В исследовании Хетсо был использован общий принцип применимости статистических методов. То есть для каждого
- 37. Предположение о том, что распределение частей речи на первых трех и последних трех позициях предложения может
- 38. 1) с номера 1 по 7. Имя существительное (падеж) 2) с номера 8 по 13. Имя
- 39. Иерархическая кластеризация Алгоритмы кластеризации: метод ближайшего соседа метод дальнего соседа Меры близости между объектами: 1. Евклидова
- 40. В результате применения метода иерархической кластеризации оказалось, что невозможно четко выделить две группы объектов, ядро первой
- 41. Оценка близости иерархических деревьев где n-1 показывает число уровней объединения или сечения, а Пусть n –
- 42. Оценка близости иерархических деревьев при соответствующих уровнях надежности и для разного числа объектов
- 43. Результаты
- 45. Скачать презентацию
 Slaidy.com
 Slaidy.com










































 Презентация на тему Адаптация
 Презентация на тему Адаптация Оптические иллюзии
 Оптические иллюзии Предложение для заказчиков сегмента малого бизнеса:Microsoft Office + комплексное решение для управления электронной почтой на базе Microsof
 Предложение для заказчиков сегмента малого бизнеса:Microsoft Office + комплексное решение для управления электронной почтой на базе Microsof Презентация на тему Языки программирования
 Презентация на тему Языки программирования  Презентация на тему Невидимые нити в весеннем лесу (2 класс)
 Презентация на тему Невидимые нити в весеннем лесу (2 класс) Зарубежная Европа. Микрогосударства
 Зарубежная Европа. Микрогосударства Физические и механические свойства древесины
 Физические и механические свойства древесины Тренажер по правоведению для подготовки к ЕГЭ или олимпиаде
 Тренажер по правоведению для подготовки к ЕГЭ или олимпиаде Рациональные числа
 Рациональные числа Воспитываю свой характер и силу воли
 Воспитываю свой характер и силу воли Абстрактное искусство и его разновидности. Здание Баухауза
 Абстрактное искусство и его разновидности. Здание Баухауза Основы вибродиагностики
 Основы вибродиагностики Директор Московского техникума космического машиностроения, кандидат технических наук ВЫЧКИН ВЛАДИМИР ВЛАДИМИРОВИЧ.
 Директор Московского техникума космического машиностроения, кандидат технических наук ВЫЧКИН ВЛАДИМИР ВЛАДИМИРОВИЧ. Структура Гексаграммы. 1 и 2 День Дайвинга
 Структура Гексаграммы. 1 и 2 День Дайвинга Презентация на тему Что такое информация 3 класс
 Презентация на тему Что такое информация 3 класс  Электровозы. Первый электровоз
 Электровозы. Первый электровоз Шагаа сүзүктери
 Шагаа сүзүктери Пожарные автомобили
 Пожарные автомобили Гарантийные письма – ГП
 Гарантийные письма – ГП Масленица. Встреча
 Масленица. Встреча АвтоВАЗ
 АвтоВАЗ Пьём не яблочный сок, а свежевыжатое яблоко
 Пьём не яблочный сок, а свежевыжатое яблоко ЗАБОЛЕВАЕМОСТЬ
 ЗАБОЛЕВАЕМОСТЬ Осваиваем новые технологии
 Осваиваем новые технологии ЛЮТНЯ ГИТАРА КЛАВЕСИН РОЯЛЬ Звуки инструментов.
 ЛЮТНЯ ГИТАРА КЛАВЕСИН РОЯЛЬ Звуки инструментов. Одежда из трикотажа
 Одежда из трикотажа Узор на крыльях бабочки
 Узор на крыльях бабочки Свадебное оформление от Академии праздника
 Свадебное оформление от Академии праздника