Слайд 2Проблема определения авторства текста
Невыясненное авторство исторических документов
Категоризация коллекций документов
Извлечение информации
Вопросно-ответные системы
Слайд 3Принцип определения авторства
Автор при составлении текста использует языковые средства различных уровней:
Семантические
Синтаксические
Лексикографические
Орфографические
Морфологические
Особенности использованных
в тексте языковых средств позволяют судить об авторстве текста.
Слайд 4Возможные подходы к решению проблемы определения авторства
Стилистический анализ
Статистическое языковое моделирование
Слайд 5Стилистический анализ
Проводится в два этапа:
Извлечение стилевых маркеров
Построение классификатора
Слайд 6Недостатки метода
Процедуры извлечения стилевых маркеров почти всегда зависят от языка текста
Выбор исследуемых
свойств является нетривиальной задачей
Анализ проводится только на уровне слов
Неприменимость к восточноазиатским языкам, в которых отсутствует явное разделение слов
Слайд 7Статистическое языковое моделирование
Заключается в выявлении закономерностей в естественном языке (семантических, лексикографических и
морфологических шаблонов), на основе которых можно делать прогнозы
Задача - предсказание вероятности появления в тексте последовательностей слов, которые действительно имеют место в тексте
Слайд 8Оценка качества модели
Perplexity =
Entropy =
Слайд 9N-граммная модель
Вероятность появления цепочки слов:
N-граммная модель аппроксимирует эту вероятность в предположении, что
на вероятность появления слова влияют только последние n-1 слов:
Слайд 10N-граммная модель
В самом простом случае
Использование грамм длины n означает вычисление вероятностей событий
Вероятность
появления новых n-грамм всегда ненулевая.
Слайд 11Сглаживание вероятностных оценок
Слайд 12Принципы классификации
Используется Баесова теория принятия
решения: текст D относится к авторской
категории если
В соответствии
с правилом Байеса: