Языконезависимое определение авторства текста на базе языковых моделей символьного уровня

Содержание

Слайд 2

Проблема определения авторства текста

Невыясненное авторство исторических документов
Категоризация коллекций документов
Извлечение информации
Вопросно-ответные системы

Проблема определения авторства текста Невыясненное авторство исторических документов Категоризация коллекций документов Извлечение информации Вопросно-ответные системы

Слайд 3

Принцип определения авторства

Автор при составлении текста использует языковые средства различных уровней:
Семантические
Синтаксические
Лексикографические
Орфографические
Морфологические
Особенности использованных

Принцип определения авторства Автор при составлении текста использует языковые средства различных уровней:
в тексте языковых средств позволяют судить об авторстве текста.

Слайд 4

Возможные подходы к решению проблемы определения авторства

Стилистический анализ
Статистическое языковое моделирование

Возможные подходы к решению проблемы определения авторства Стилистический анализ Статистическое языковое моделирование

Слайд 5

Стилистический анализ

Проводится в два этапа:
Извлечение стилевых маркеров
Построение классификатора

Стилистический анализ Проводится в два этапа: Извлечение стилевых маркеров Построение классификатора

Слайд 6

Недостатки метода

Процедуры извлечения стилевых маркеров почти всегда зависят от языка текста
Выбор исследуемых

Недостатки метода Процедуры извлечения стилевых маркеров почти всегда зависят от языка текста
свойств является нетривиальной задачей
Анализ проводится только на уровне слов
Неприменимость к восточноазиатским языкам, в которых отсутствует явное разделение слов

Слайд 7

Статистическое языковое моделирование

Заключается в выявлении закономерностей в естественном языке (семантических, лексикографических и

Статистическое языковое моделирование Заключается в выявлении закономерностей в естественном языке (семантических, лексикографических
морфологических шаблонов), на основе которых можно делать прогнозы
Задача - предсказание вероятности появления в тексте последовательностей слов, которые действительно имеют место в тексте

Слайд 8

Оценка качества модели
Perplexity =
Entropy =

Оценка качества модели Perplexity = Entropy =

Слайд 9

N-граммная модель

Вероятность появления цепочки слов:
N-граммная модель аппроксимирует эту вероятность в предположении, что

N-граммная модель Вероятность появления цепочки слов: N-граммная модель аппроксимирует эту вероятность в
на вероятность появления слова влияют только последние n-1 слов:

Слайд 10

N-граммная модель

В самом простом случае
Использование грамм длины n означает вычисление вероятностей событий
Вероятность

N-граммная модель В самом простом случае Использование грамм длины n означает вычисление
появления новых n-грамм всегда ненулевая.

Слайд 11

Сглаживание вероятностных оценок

Сглаживание вероятностных оценок

Слайд 12

Принципы классификации

Используется Баесова теория принятия
решения: текст D относится к авторской
категории если
В соответствии

Принципы классификации Используется Баесова теория принятия решения: текст D относится к авторской
с правилом Байеса:
Имя файла: Языконезависимое-определение-авторства-текста-на-базе-языковых-моделей-символьного-уровня.pptx
Количество просмотров: 125
Количество скачиваний: 0