Автоматическое определение авторства

Содержание

Слайд 2

Введение

Определение авторства – определение одного автора из нескольких возможных
Верификация автора – установление,

Введение Определение авторства – определение одного автора из нескольких возможных Верификация автора
принадлежит ли данный текст данному автору
Определение плагиата – поиск сходства между двумя текстами
Построение авторского профиля – т.е. установление пола, возраста, образования и т.п. автора конкретного текста
Установления стилистической непоследовательности текста (что может означать, что работало несколько авторов)

Слайд 3

Содержание

Определение автора как задача классификации
Методы атрибуции

Содержание Определение автора как задача классификации Методы атрибуции

Слайд 4

Определение авторства как задача классификации

Дано:
текст неизвестного автора
набор возможных авторов
примеры текстов для

Определение авторства как задача классификации Дано: текст неизвестного автора набор возможных авторов
каждого из возможных авторов
Задача:
отнести изучаемый текст к одной из представленных групп
Вопрос в том, какие свойства использовать для классификации

Слайд 5

Стилистические свойства

Символьные
Лексические
Синтаксические
Семантические
Тематические

Стилистические свойства Символьные Лексические Синтаксические Семантические Тематические

Слайд 6

Лексические свойства текстов

Словарный запас
– зависит от объема текста, не может использоваться

Лексические свойства текстов Словарный запас – зависит от объема текста, не может
в одиночку
Частотные распределения слов
– текст как вектор (bag of words)
– служебные слова (предлоги, союзы, артикли) более важны, чем значимая лексика: они используются бессознательно, их распределения сохраняются для разных тем и жанров
– размерность пространства классификации сильно ниже, чем в тематической классификации
N-граммы (сочетания слов)
– не всегда улучшают качество
– для их использования нужны большие объемы корпусов

Слайд 7

Символьные свойства текста

Частотные распределения букв, цифр, верхнего и нижнего регистра, знаков препинания
N-граммы

Символьные свойства текста Частотные распределения букв, цифр, верхнего и нижнего регистра, знаков
– сочетания букв
– более устойчивы к шумам (например, опечаткам), чем лексические свойства
– выбор N зависит от языка; чем больше N, тем больше размерность пространства классификации, тем большие нужен корпус; маленькие N (2-4) – свойства типа слогов
Модели сжатия
– чувствительны к тематике текстов

Слайд 8

Синтаксические свойства

Автор использует набор синтаксических паттернов, которые хуже осознаются, чем лексика
Требуется синтаксический

Синтаксические свойства Автор использует набор синтаксических паттернов, которые хуже осознаются, чем лексика
разбор текста – такой метод уже не может быть языково-независимым
Данные всегда зашумлены (из-за несовершенства синтаксического анализа)
Уровень анализа может быть разным:
Частотные распределения частей речи
Локальный синтаксис
Глобальная структура предложения
Словосочетания определенного типа

Слайд 9

Семантические свойства

Семантический анализ сам по себе менее развит, семантическая разметка дает большее

Семантические свойства Семантический анализ сам по себе менее развит, семантическая разметка дает
число ошибок – как следствие, точность анализа снижается
Было несколько попыток использовать семантические классы слов (WordNet) для определения авторства, однако неочевидно, что это дает преимущество по сравнению с другими методами

Слайд 10

Тематические свойства

Если тематика сообщений заранее известна (например, речь идет об анонимном сообщении

Тематические свойства Если тематика сообщений заранее известна (например, речь идет об анонимном
на тематическом интернет-форуме), то можно использовать авторские предпочтения в выборе тех или иных слов, характерных для этой предметной области (доменных синонимов)
Однако этот метод очень трудно автоматизировать – и, как следствие, переносить с одной задачи на другую

Слайд 11

Выбор свойств

В определении авторства лучше всего работает не одно какое-то свойство, а

Выбор свойств В определении авторства лучше всего работает не одно какое-то свойство,
их сочетание
Обычно набор свойств сначала проверяют на обучающей выборке и выбирают наиболее дискриминирующие
Дискриминирующие свойства
наиболее частотны
наименее стабильны (т.е. имеют большое число синонимов)
Можно использовать методы снижения размерности в пространстве слов

Слайд 12

Содержание

Определение автора как задача классификации
Методы атрибуции

Содержание Определение автора как задача классификации Методы атрибуции

Слайд 13

Ориентированные на автора

Ориентированные на автора

Слайд 14

Ориентированные на текст

Ориентированные на текст
Имя файла: Автоматическое-определение-авторства.pptx
Количество просмотров: 134
Количество скачиваний: 0