Автоматическое определение авторства

Февраль 12, 2021

Главная
Разное
Автоматическое определение авторства

Содержание

2. Введение Определение авторства – определение одного автора из нескольких возможных Верификация автора – установление, принадлежит ли
3. Содержание Определение автора как задача классификации Методы атрибуции
4. Определение авторства как задача классификации Дано: текст неизвестного автора набор возможных авторов примеры текстов для каждого
5. Стилистические свойства Символьные Лексические Синтаксические Семантические Тематические
6. Лексические свойства текстов Словарный запас – зависит от объема текста, не может использоваться в одиночку Частотные
7. Символьные свойства текста Частотные распределения букв, цифр, верхнего и нижнего регистра, знаков препинания N-граммы – сочетания
8. Синтаксические свойства Автор использует набор синтаксических паттернов, которые хуже осознаются, чем лексика Требуется синтаксический разбор текста
9. Семантические свойства Семантический анализ сам по себе менее развит, семантическая разметка дает большее число ошибок –
10. Тематические свойства Если тематика сообщений заранее известна (например, речь идет об анонимном сообщении на тематическом интернет-форуме),
11. Выбор свойств В определении авторства лучше всего работает не одно какое-то свойство, а их сочетание Обычно
12. Содержание Определение автора как задача классификации Методы атрибуции
13. Ориентированные на автора
14. Ориентированные на текст
16. Скачать презентацию

Слайд 2

Введение
Определение авторства – определение одного автора из нескольких возможных
Верификация автора – установление,

принадлежит ли данный текст данному автору
Определение плагиата – поиск сходства между двумя текстами
Построение авторского профиля – т.е. установление пола, возраста, образования и т.п. автора конкретного текста
Установления стилистической непоследовательности текста (что может означать, что работало несколько авторов)

Слайд 3

Содержание
Определение автора как задача классификации
Методы атрибуции

Слайд 4

Определение авторства как задача классификации
Дано:
текст неизвестного автора
набор возможных авторов
примеры текстов для

каждого из возможных авторов
Задача:
отнести изучаемый текст к одной из представленных групп
Вопрос в том, какие свойства использовать для классификации

Слайд 5

Стилистические свойства
Символьные
Лексические
Синтаксические
Семантические
Тематические

Слайд 6

Лексические свойства текстов
Словарный запас
– зависит от объема текста, не может использоваться

в одиночку
Частотные распределения слов
– текст как вектор (bag of words)
– служебные слова (предлоги, союзы, артикли) более важны, чем значимая лексика: они используются бессознательно, их распределения сохраняются для разных тем и жанров
– размерность пространства классификации сильно ниже, чем в тематической классификации
N-граммы (сочетания слов)
– не всегда улучшают качество
– для их использования нужны большие объемы корпусов

Слайд 7

Символьные свойства текста
Частотные распределения букв, цифр, верхнего и нижнего регистра, знаков препинания
N-граммы

– сочетания букв
– более устойчивы к шумам (например, опечаткам), чем лексические свойства
– выбор N зависит от языка; чем больше N, тем больше размерность пространства классификации, тем большие нужен корпус; маленькие N (2-4) – свойства типа слогов
Модели сжатия
– чувствительны к тематике текстов

Слайд 8

Синтаксические свойства
Автор использует набор синтаксических паттернов, которые хуже осознаются, чем лексика
Требуется синтаксический

разбор текста – такой метод уже не может быть языково-независимым
Данные всегда зашумлены (из-за несовершенства синтаксического анализа)
Уровень анализа может быть разным:
Частотные распределения частей речи
Локальный синтаксис
Глобальная структура предложения
Словосочетания определенного типа

Слайд 9

Семантические свойства
Семантический анализ сам по себе менее развит, семантическая разметка дает большее

число ошибок – как следствие, точность анализа снижается
Было несколько попыток использовать семантические классы слов (WordNet) для определения авторства, однако неочевидно, что это дает преимущество по сравнению с другими методами

Слайд 10

Тематические свойства
Если тематика сообщений заранее известна (например, речь идет об анонимном сообщении

на тематическом интернет-форуме), то можно использовать авторские предпочтения в выборе тех или иных слов, характерных для этой предметной области (доменных синонимов)
Однако этот метод очень трудно автоматизировать – и, как следствие, переносить с одной задачи на другую

Слайд 11

Выбор свойств
В определении авторства лучше всего работает не одно какое-то свойство, а

их сочетание
Обычно набор свойств сначала проверяют на обучающей выборке и выбирают наиболее дискриминирующие
Дискриминирующие свойства
наиболее частотны
наименее стабильны (т.е. имеют большое число синонимов)
Можно использовать методы снижения размерности в пространстве слов

Автоматическое определение авторства

Содержание

Слайд 2

Введение
Определение авторства – определение одного автора из нескольких возможных
Верификация автора – установление,

Слайд 3

Содержание
Определение автора как задача классификации
Методы атрибуции

Слайд 4

Определение авторства как задача классификации
Дано:
текст неизвестного автора
набор возможных авторов
примеры текстов для

Слайд 5

Стилистические свойства
Символьные
Лексические
Синтаксические
Семантические
Тематические

Слайд 6

Лексические свойства текстов
Словарный запас
– зависит от объема текста, не может использоваться

Слайд 7

Символьные свойства текста
Частотные распределения букв, цифр, верхнего и нижнего регистра, знаков препинания
N-граммы

Слайд 8

Синтаксические свойства
Автор использует набор синтаксических паттернов, которые хуже осознаются, чем лексика
Требуется синтаксический

Слайд 9

Семантические свойства
Семантический анализ сам по себе менее развит, семантическая разметка дает большее

Слайд 10

Тематические свойства
Если тематика сообщений заранее известна (например, речь идет об анонимном сообщении

Слайд 11

Выбор свойств
В определении авторства лучше всего работает не одно какое-то свойство, а

Слайд 12

Содержание
Определение автора как задача классификации
Методы атрибуции

Слайд 13

Ориентированные на автора

Слайд 14

Ориентированные на текст

Автоматическое определение авторства

Содержание

ВведениеОпределение авторства – определение одного автора из нескольких возможныхВерификация автора – установление,

СодержаниеОпределение автора как задача классификацииМетоды атрибуции

Определение авторства как задача классификацииДано: текст неизвестного авторанабор возможных авторовпримеры текстов для

Стилистические свойстваСимвольныеЛексическиеСинтаксическиеСемантическиеТематические

Лексические свойства текстовСловарный запас – зависит от объема текста, не может использоваться

Символьные свойства текстаЧастотные распределения букв, цифр, верхнего и нижнего регистра, знаков препинанияN-граммы

Синтаксические свойстваАвтор использует набор синтаксических паттернов, которые хуже осознаются, чем лексикаТребуется синтаксический

Семантические свойстваСемантический анализ сам по себе менее развит, семантическая разметка дает большее

Тематические свойстваЕсли тематика сообщений заранее известна (например, речь идет об анонимном сообщении

Выбор свойствВ определении авторства лучше всего работает не одно какое-то свойство, а

СодержаниеОпределение автора как задача классификацииМетоды атрибуции

Ориентированные на автора

Ориентированные на текст

Похожие презентации

Введение
Определение авторства – определение одного автора из нескольких возможных
Верификация автора – установление,

Содержание
Определение автора как задача классификации
Методы атрибуции

Определение авторства как задача классификации
Дано:
текст неизвестного автора
набор возможных авторов
примеры текстов для

Стилистические свойства
Символьные
Лексические
Синтаксические
Семантические
Тематические

Лексические свойства текстов
Словарный запас
– зависит от объема текста, не может использоваться

Символьные свойства текста
Частотные распределения букв, цифр, верхнего и нижнего регистра, знаков препинания
N-граммы

Синтаксические свойства
Автор использует набор синтаксических паттернов, которые хуже осознаются, чем лексика
Требуется синтаксический

Семантические свойства
Семантический анализ сам по себе менее развит, семантическая разметка дает большее

Тематические свойства
Если тематика сообщений заранее известна (например, речь идет об анонимном сообщении

Выбор свойств
В определении авторства лучше всего работает не одно какое-то свойство, а

Содержание
Определение автора как задача классификации
Методы атрибуции