Программный комплекс «СМАЛТ». Морфологически размеченный корпус по русской публицистикевторой половины XIX века
Содержание
- 2. Программный комплекс «СМАЛТ»
- 3. Система подготовки данных для БД
- 4. Особенности морфологического разбора текстов XIX века (орфографическая вариативность) Примеры: очень-многiе, само-по-себе, до-сихъ-поръ, на-дняхъ, какъ-будто, ничемъ другъ-къ-другу
- 5. Виды морфологической разметки Разметка 1 Опирается на следующий инвентарь частей речи: существительное, прилагательное, числительное, местоимение, глагол,
- 6. Фрагмент структуры морфологической разметки Часть речи Глагол Существительное Время ……… ……….. Прошедшее Род Мужской ……….. Падеж
- 7. Статистика словаря Корпус текстов состоит из публицистических статей разной тематической направленности из петербургских журналов «Время», «Эпоха»,
- 8. Преформатирование и грамматический разбор
- 9. Схема доступа к БД Алфавитный словарь Частотный словарь Поиск слов по грамматическим признакам Функция показа выбранного
- 10. Схема доступа к БД Интернет-доступ http://smalt.karelia.ru/projects.html Локальный доступ Быстрая скорость Возможность самостоятельно формировать БД
- 11. Поиск
- 12. Вывод результата
- 13. Вывод контекстов
- 14. Вывод оригинального текста
- 15. Поиск по грамматическим параметрам
- 16. Словарь
- 17. Модуль статистического анализа программного комплекса «СМАЛТ»
- 18. Достоевский редактировал и возглавлял три журнала Время (1861-1863) Эпоха (1864-1865) Гражданин (1873-1874) Издавал свой личный журнал
- 19. Методы анализа текстов Статистические методы Проверка статистических гипотез Разбиение текстов на группы с использованием кластерного анализа
- 20. Авторский инвариант Под авторским инвариантом понимают такую характеристику литературных текстов (некий параметр), которая 1. однозначно характеризует
- 21. Свойства авторского инварианта 1. Она должна быть достаточно «массовой», интегральной, чтобы слабо контролироваться автором на сознательном
- 22. «Некролог. Иван Иванович Панаев», Dubia, «Время», 1862, №2, 16 предложений «Несколько слов о Ристори», А. А.
- 23. «Сильный граф» для произведения «Подписка на 1863 год», Ф. М. Достоевский, «Время», 1862, №9, 161 предложение
- 24. Часть таблицы коэффициентов близости текстов Узловые значение графа устанавливались экспериментально и варьировались от 3 до 6.
- 25. Развитие исследования Гейра Хетсо Отличия: Использование текстов в авторской орфографии и пунктуации; Проверка устойчивости методик на
- 26. Используемые лингвостатистические параметры 1. Средняя длина слова в буквах, вычисляемая на основании выборок размером в 200,
- 27. Средняя длина слова в буквах H0 = {гипотеза о равенстве средних для двух выборок, одна из
- 28. использовалась следующая формула критерия Стьюдента: В этой формуле m1 и m2 - сравниваемые средние частоты, n1
- 29. Средняя длина слова в буквах. Критерий Стьюдента для разных объемов выборки.
- 30. Общее распределение длины слова. Получены данные о том, сколько в каждом тексте слов, имеющих по 1,
- 31. Средняя длина предложения в словах Проводится тест исключительности на основании выборок в 30 предложений. Проверка на
- 32. Общее распределение длины предложения Информация об общем распределении длины предложения была получена по интервалам в 1-5,
- 33. Лексический спектр текста на уровне словаря и Лексический спектр текста на уровне текста Лексический спектр текст
- 34. Индекс разнообразия лексики Индекса разнообразия лексики - отношения числа разных слов к числу словоупотреблений. Исследуется степень
- 35. Результаты исследования Несмотря на использование разных источников и соответственно на наличие некоторых различий, результаты с исследованием
- 36. Основной результат В исследовании Хетсо был использован общий принцип применимости статистических методов. То есть для каждого
- 37. Предположение о том, что распределение частей речи на первых трех и последних трех позициях предложения может
- 38. 1) с номера 1 по 7. Имя существительное (падеж) 2) с номера 8 по 13. Имя
- 39. Иерархическая кластеризация Алгоритмы кластеризации: метод ближайшего соседа метод дальнего соседа Меры близости между объектами: 1. Евклидова
- 40. В результате применения метода иерархической кластеризации оказалось, что невозможно четко выделить две группы объектов, ядро первой
- 41. Оценка близости иерархических деревьев где n-1 показывает число уровней объединения или сечения, а Пусть n –
- 42. Оценка близости иерархических деревьев при соответствующих уровнях надежности и для разного числа объектов
- 43. Результаты
- 45. Скачать презентацию










































Проект Моё лицо
Презентация на тему Компетенция должностных лиц по выявлению АП
Повестка родительского собрания от 26.01.2012года 1. Итоги 2 четверти 2. Задачи на 3 четверть 3. Знание и учёт возрастных особеннос
Презентация на тему Национальные костюмы народов России
Единицы площади. Обобщение
Программа добровольного медицинского страхования Доктор РЕСО. Екатеринбург
Исследование бетонных конструкций методом ультразвукового зондирования поверхностного слоя
Великий русский писатель К.Д.Ушинский.
ИНДИВИДУАЛЬНЫЕ СРЕДСТВА ЗАЩИТЫ (СИЗ)
Микробиология на службе человека
Этюды овощей и фруктов. Живопись
Применение солнечной энергетики в городском хозяйстве Москвы
Памятка для приезжающих в Ростовскую область из других регионов России
Текстология. Атрибуция текста, работа с рукописями
461 Спаситель мой живёт!
Общая управленческая практика
Вент& Винт. Вентиляционное оборудование
Презентація_1662705410
1c7a5f862b5d4d6fb943f08d0af3ce8e
Направление Москва Юг. Дирекция Москва
Тематический семинар
Бумажные картины Карлоса Мейра
Типы химических реакций
Презентация на тему Породы кроликов (4 класс)
Научно-практическая конференция 18 мая 2005г. Я – исследователь! Я открываю мир! МОУ Гимназия 30 им.Музалева Д.Н.
Такие разные мосты
Презентация на тему Русский язык
Концепция IOI