Слайд 2Проблема определения авторства текста
Невыясненное авторство исторических документов
Категоризация коллекций документов
Извлечение информации
Вопросно-ответные системы
![Проблема определения авторства текста Невыясненное авторство исторических документов Категоризация коллекций документов Извлечение информации Вопросно-ответные системы](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/387923/slide-1.jpg)
Слайд 3Принцип определения авторства
Автор при составлении текста использует языковые средства различных уровней:
Семантические
Синтаксические
Лексикографические
Орфографические
Морфологические
Особенности использованных
![Принцип определения авторства Автор при составлении текста использует языковые средства различных уровней:](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/387923/slide-2.jpg)
в тексте языковых средств позволяют судить об авторстве текста.
Слайд 4Возможные подходы к решению проблемы определения авторства
Стилистический анализ
Статистическое языковое моделирование
![Возможные подходы к решению проблемы определения авторства Стилистический анализ Статистическое языковое моделирование](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/387923/slide-3.jpg)
Слайд 5Стилистический анализ
Проводится в два этапа:
Извлечение стилевых маркеров
Построение классификатора
![Стилистический анализ Проводится в два этапа: Извлечение стилевых маркеров Построение классификатора](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/387923/slide-4.jpg)
Слайд 6Недостатки метода
Процедуры извлечения стилевых маркеров почти всегда зависят от языка текста
Выбор исследуемых
![Недостатки метода Процедуры извлечения стилевых маркеров почти всегда зависят от языка текста](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/387923/slide-5.jpg)
свойств является нетривиальной задачей
Анализ проводится только на уровне слов
Неприменимость к восточноазиатским языкам, в которых отсутствует явное разделение слов
Слайд 7Статистическое языковое моделирование
Заключается в выявлении закономерностей в естественном языке (семантических, лексикографических и
![Статистическое языковое моделирование Заключается в выявлении закономерностей в естественном языке (семантических, лексикографических](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/387923/slide-6.jpg)
морфологических шаблонов), на основе которых можно делать прогнозы
Задача - предсказание вероятности появления в тексте последовательностей слов, которые действительно имеют место в тексте
Слайд 8Оценка качества модели
Perplexity =
Entropy =
![Оценка качества модели Perplexity = Entropy =](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/387923/slide-7.jpg)
Слайд 9N-граммная модель
Вероятность появления цепочки слов:
N-граммная модель аппроксимирует эту вероятность в предположении, что
![N-граммная модель Вероятность появления цепочки слов: N-граммная модель аппроксимирует эту вероятность в](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/387923/slide-8.jpg)
на вероятность появления слова влияют только последние n-1 слов:
Слайд 10N-граммная модель
В самом простом случае
Использование грамм длины n означает вычисление вероятностей событий
Вероятность
![N-граммная модель В самом простом случае Использование грамм длины n означает вычисление](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/387923/slide-9.jpg)
появления новых n-грамм всегда ненулевая.
Слайд 11Сглаживание вероятностных оценок
![Сглаживание вероятностных оценок](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/387923/slide-10.jpg)
Слайд 12Принципы классификации
Используется Баесова теория принятия
решения: текст D относится к авторской
категории если
В соответствии
![Принципы классификации Используется Баесова теория принятия решения: текст D относится к авторской](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/387923/slide-11.jpg)
с правилом Байеса: