Языконезависимое определение авторства текста на базе языковых моделей символьного уровня

Февраль 12, 2021

Главная
Разное
Языконезависимое определение авторства текста на базе языковых моделей символьного уровня

Содержание

2. Проблема определения авторства текста Невыясненное авторство исторических документов Категоризация коллекций документов Извлечение информации Вопросно-ответные системы
3. Принцип определения авторства Автор при составлении текста использует языковые средства различных уровней: Семантические Синтаксические Лексикографические Орфографические
4. Возможные подходы к решению проблемы определения авторства Стилистический анализ Статистическое языковое моделирование
5. Стилистический анализ Проводится в два этапа: Извлечение стилевых маркеров Построение классификатора
6. Недостатки метода Процедуры извлечения стилевых маркеров почти всегда зависят от языка текста Выбор исследуемых свойств является
7. Статистическое языковое моделирование Заключается в выявлении закономерностей в естественном языке (семантических, лексикографических и морфологических шаблонов), на
8. Оценка качества модели Perplexity = Entropy =
9. N-граммная модель Вероятность появления цепочки слов: N-граммная модель аппроксимирует эту вероятность в предположении, что на вероятность
10. N-граммная модель В самом простом случае Использование грамм длины n означает вычисление вероятностей событий Вероятность появления
11. Сглаживание вероятностных оценок
12. Принципы классификации Используется Баесова теория принятия решения: текст D относится к авторской категории если В соответствии
14. Скачать презентацию

Слайд 2

Проблема определения авторства текста
Невыясненное авторство исторических документов
Категоризация коллекций документов
Извлечение информации
Вопросно-ответные системы

Проблема определения авторства текста Невыясненное авторство исторических документов Категоризация коллекций документов Извлечение информации Вопросно-ответные системы

Слайд 3

Принцип определения авторства
Автор при составлении текста использует языковые средства различных уровней:
Семантические
Синтаксические
Лексикографические
Орфографические
Морфологические
Особенности использованных

Принцип определения авторства Автор при составлении текста использует языковые средства различных уровней:

в тексте языковых средств позволяют судить об авторстве текста.

Слайд 4

Возможные подходы к решению проблемы определения авторства
Стилистический анализ
Статистическое языковое моделирование

Возможные подходы к решению проблемы определения авторства Стилистический анализ Статистическое языковое моделирование

Слайд 5

Стилистический анализ
Проводится в два этапа:
Извлечение стилевых маркеров
Построение классификатора

Стилистический анализ Проводится в два этапа: Извлечение стилевых маркеров Построение классификатора

Слайд 6

Недостатки метода
Процедуры извлечения стилевых маркеров почти всегда зависят от языка текста
Выбор исследуемых

Недостатки метода Процедуры извлечения стилевых маркеров почти всегда зависят от языка текста

свойств является нетривиальной задачей
Анализ проводится только на уровне слов
Неприменимость к восточноазиатским языкам, в которых отсутствует явное разделение слов

Слайд 7

Статистическое языковое моделирование
Заключается в выявлении закономерностей в естественном языке (семантических, лексикографических и

Статистическое языковое моделирование Заключается в выявлении закономерностей в естественном языке (семантических, лексикографических

морфологических шаблонов), на основе которых можно делать прогнозы
Задача - предсказание вероятности появления в тексте последовательностей слов, которые действительно имеют место в тексте

Слайд 8

Оценка качества модели
Perplexity =
Entropy =

Оценка качества модели Perplexity = Entropy =

Слайд 9

N-граммная модель
Вероятность появления цепочки слов:
N-граммная модель аппроксимирует эту вероятность в предположении, что

N-граммная модель Вероятность появления цепочки слов: N-граммная модель аппроксимирует эту вероятность в

на вероятность появления слова влияют только последние n-1 слов:

Слайд 10

N-граммная модель
В самом простом случае
Использование грамм длины n означает вычисление вероятностей событий
Вероятность

N-граммная модель В самом простом случае Использование грамм длины n означает вычисление

появления новых n-грамм всегда ненулевая.

Слайд 11

Сглаживание вероятностных оценок

Сглаживание вероятностных оценок

Слайд 12

Принципы классификации
Используется Баесова теория принятия
решения: текст D относится к авторской
категории если
В соответствии

Принципы классификации Используется Баесова теория принятия решения: текст D относится к авторской

с правилом Байеса: