Программный комплекс «СМАЛТ». Морфологически размеченный корпус по русской публицистикевторой половины XIX века
Содержание
- 2. Программный комплекс «СМАЛТ»
- 3. Система подготовки данных для БД
- 4. Особенности морфологического разбора текстов XIX века (орфографическая вариативность) Примеры: очень-многiе, само-по-себе, до-сихъ-поръ, на-дняхъ, какъ-будто, ничемъ другъ-къ-другу
- 5. Виды морфологической разметки Разметка 1 Опирается на следующий инвентарь частей речи: существительное, прилагательное, числительное, местоимение, глагол,
- 6. Фрагмент структуры морфологической разметки Часть речи Глагол Существительное Время ……… ……….. Прошедшее Род Мужской ……….. Падеж
- 7. Статистика словаря Корпус текстов состоит из публицистических статей разной тематической направленности из петербургских журналов «Время», «Эпоха»,
- 8. Преформатирование и грамматический разбор
- 9. Схема доступа к БД Алфавитный словарь Частотный словарь Поиск слов по грамматическим признакам Функция показа выбранного
- 10. Схема доступа к БД Интернет-доступ http://smalt.karelia.ru/projects.html Локальный доступ Быстрая скорость Возможность самостоятельно формировать БД
- 11. Поиск
- 12. Вывод результата
- 13. Вывод контекстов
- 14. Вывод оригинального текста
- 15. Поиск по грамматическим параметрам
- 16. Словарь
- 17. Модуль статистического анализа программного комплекса «СМАЛТ»
- 18. Достоевский редактировал и возглавлял три журнала Время (1861-1863) Эпоха (1864-1865) Гражданин (1873-1874) Издавал свой личный журнал
- 19. Методы анализа текстов Статистические методы Проверка статистических гипотез Разбиение текстов на группы с использованием кластерного анализа
- 20. Авторский инвариант Под авторским инвариантом понимают такую характеристику литературных текстов (некий параметр), которая 1. однозначно характеризует
- 21. Свойства авторского инварианта 1. Она должна быть достаточно «массовой», интегральной, чтобы слабо контролироваться автором на сознательном
- 22. «Некролог. Иван Иванович Панаев», Dubia, «Время», 1862, №2, 16 предложений «Несколько слов о Ристори», А. А.
- 23. «Сильный граф» для произведения «Подписка на 1863 год», Ф. М. Достоевский, «Время», 1862, №9, 161 предложение
- 24. Часть таблицы коэффициентов близости текстов Узловые значение графа устанавливались экспериментально и варьировались от 3 до 6.
- 25. Развитие исследования Гейра Хетсо Отличия: Использование текстов в авторской орфографии и пунктуации; Проверка устойчивости методик на
- 26. Используемые лингвостатистические параметры 1. Средняя длина слова в буквах, вычисляемая на основании выборок размером в 200,
- 27. Средняя длина слова в буквах H0 = {гипотеза о равенстве средних для двух выборок, одна из
- 28. использовалась следующая формула критерия Стьюдента: В этой формуле m1 и m2 - сравниваемые средние частоты, n1
- 29. Средняя длина слова в буквах. Критерий Стьюдента для разных объемов выборки.
- 30. Общее распределение длины слова. Получены данные о том, сколько в каждом тексте слов, имеющих по 1,
- 31. Средняя длина предложения в словах Проводится тест исключительности на основании выборок в 30 предложений. Проверка на
- 32. Общее распределение длины предложения Информация об общем распределении длины предложения была получена по интервалам в 1-5,
- 33. Лексический спектр текста на уровне словаря и Лексический спектр текста на уровне текста Лексический спектр текст
- 34. Индекс разнообразия лексики Индекса разнообразия лексики - отношения числа разных слов к числу словоупотреблений. Исследуется степень
- 35. Результаты исследования Несмотря на использование разных источников и соответственно на наличие некоторых различий, результаты с исследованием
- 36. Основной результат В исследовании Хетсо был использован общий принцип применимости статистических методов. То есть для каждого
- 37. Предположение о том, что распределение частей речи на первых трех и последних трех позициях предложения может
- 38. 1) с номера 1 по 7. Имя существительное (падеж) 2) с номера 8 по 13. Имя
- 39. Иерархическая кластеризация Алгоритмы кластеризации: метод ближайшего соседа метод дальнего соседа Меры близости между объектами: 1. Евклидова
- 40. В результате применения метода иерархической кластеризации оказалось, что невозможно четко выделить две группы объектов, ядро первой
- 41. Оценка близости иерархических деревьев где n-1 показывает число уровней объединения или сечения, а Пусть n –
- 42. Оценка близости иерархических деревьев при соответствующих уровнях надежности и для разного числа объектов
- 43. Результаты
- 45. Скачать презентацию










































В природе, технике и экономике встречаются многочисленные процессы, в ходе которых значение величины меняется в одно и то же число
ВСТРЕЧИ С ВЕТЕРАНАМИ ВЗАИМОДЕЙСТВИЕ С МУЗЕЕМ ШКОЛЫ И БИБЛИОТЕКОЙ ИМ. ШОЛОХОВА.
Геометрия для самых маленьких. Геометрические фигуры
Декоративный натюрморт в графике
Lektsia_3_Natsionalnaya_bezopasnost_bezopasnost_lichnochti_i_obschestva
Цветок
Земля Earth
Философская лирика А.С.Пушкина
Основы государства и права
Презентация на тему Решение иррациональных неравенств (11 класс)
Путешествие в волшебную страну
Проект "Кто, если не мы!!!"
Система администрирования и поддержки инвесторов в ОЭЗ
Kitchen Verbs
Конденсаторы и их применение
ПЕРИТОНИТ КЕЗІНДЕ ГБО ПАЙДАЛАНУМ
Культура России 19 века
Международный коммерческий арбитраж Подготовила Гусева А.ю. МЭ081
Доходы бюджета Чугунаевского сельского поселения
«Формирование коммуникативной компетенции на уроках русского языка»
Игрушки
Какие изменения в законодательстве о закупках вступили в силу в 2022 году?
Адреса событий жизни Ф. М. Достоевского
CABERO GE gesamt
презентация Шамнэ
Образ “Я” и самооценка
Определение каналов сбыта