Содержание

Слайд 2

Задача.
Основа работы системы это категоризация текстов на базе различных критериев.
Базовый алгоритм предполагает

Задача. Основа работы системы это категоризация текстов на базе различных критериев. Базовый
произвольное количество категорий.
Критерии и их веса определяются как нечеткие логические конструкции и выводы.
При анализе текстов использовать не только «лингвистические» критерии, но и сопутствующую информацию
Алгоритм предполагает обучение с минимальным участием человека

Слайд 3

Категории и начальные требования

Адаптация алгоритма категоризации
Алгоритм обучаемый с учителем
2 Категории:
Positive
Negative
Тренировочный корпус

Категории и начальные требования Адаптация алгоритма категоризации Алгоритм обучаемый с учителем 2
текстов ~ 50% заведомо позитивных сообщений и 50% отрицательных:
100 сообщений с сайта Buy.com форум телефонов
100 сообщений с сайта Amazon форум бытовой техники
Словарь термов должен выделяться автоматически

Слайд 4

Шаги обучения системы 1

Генерация словаря термов
Генерация словаря на базе стандартных словарей английского

Шаги обучения системы 1 Генерация словаря термов Генерация словаря на базе стандартных
языка
Генерация словаря на базе Wiki
Генерация словаря на основе базы сообщений из корпуса
Генерация правил разбора сообщения
Определение важнейших параметров сообщения для каждого форума:
Частотные
Текстовые
Мета информационные

Слайд 5

Шаги обучения системы 2

Шаги обучения системы 2

Слайд 6

Шаги обучения системы 3

Составление функционала принадлежности к категории
Нечеткие логические конструкции
Весовые коэффициенты
Подстановка корпуса

Шаги обучения системы 3 Составление функционала принадлежности к категории Нечеткие логические конструкции
положительных и отрицательных сообщений для определения весовых коэффициентов
100 сообщений с сайта Buy.com форум телефонов
100 сообщений с сайта Amazon форум бытовой техники и электроники

Слайд 7

BlackBerry Storm

BlackBerry Storm

Слайд 8

Android G1

Android G1

Слайд 9

iPhone3G

iPhone3G

Слайд 10

Результаты исследования 1

Словарь термов
Сгенерированный словарь практически не повлиял на точность отнесения того

Результаты исследования 1 Словарь термов Сгенерированный словарь практически не повлиял на точность
или иного сообщения к категории, но повлиял на уверенность отнесения отдельного сообщения к категории (чем обширней словарь, тем хуже результат)
Худший результат у формального словаря английского языка (результаты не валидны)
Вывод: метод определения термов, использованный в нашей компании в целом оказался эффективен для английского языка

Слайд 11

Результаты исследования 2

Словарь Stopword отклонение составило не более 5-10%
Google stopwords средний результат

Результаты исследования 2 Словарь Stopword отклонение составило не более 5-10% Google stopwords

Wordnet stopwords худший результат
Созданный нами лучший результат
Вывод: вероятно сказалась привязка фильтра к «форумному сленгу». У Google средний результат говорит, что они вынуждено идут на компромиссы, т.к. имеют дело с текстами всех тематик одновременно. У Wordnet худший результат, т.к. они имеют дело с текстами больших объемов и достаточно чистыми.

Слайд 12

Результаты исследования 3

Тематика обучающего корпуса текстов практически не имеет значения. Ее можно

Результаты исследования 3 Тематика обучающего корпуса текстов практически не имеет значения. Ее
определить как техническая.
Машины,
Телефоны
Бытовая техника
Электроника
Необходимо соблюдать баланс между положительными и отрицательными сообщениями (не более 20%)
Вывод: Точность определения составила 75%±10% вне зависимости от обучающей выборки.

Слайд 13

Результаты исследования 4

Наибольшую сложность представляла величина уверенности отнесения сообщения негативным или позитивным

Результаты исследования 4 Наибольшую сложность представляла величина уверенности отнесения сообщения негативным или
текстам. Увеличение Длины сообщения только ухудшало ситуацию.
Есть некоторые темы, для которых не существует позитивных сообщений. К ним относятся:
Политика
Бюрократические процедуры
Алгоритм оказался достаточно устойчив к сообщениям с условиями (например: «вроде бы не плох»)
В целом использование методов категоризации текстов применительно к эмоциональным категориям применимо, но осложняется, требованием единственности эмоции на текст.

Слайд 14

Вывод

Использование методов категоризации текстов, применительно к эмоциональным категориям работает, но осложняется, требованием

Вывод Использование методов категоризации текстов, применительно к эмоциональным категориям работает, но осложняется,
единственности эмоции на текст.

Слайд 15

Текущее состояние

В настоящее время исследования приостановлены и разработка продукта заморожена, в связи

Текущее состояние В настоящее время исследования приостановлены и разработка продукта заморожена, в
с отсутствием коммерческого спроса

Вопросы

Имя файла: AlephOne.pptx
Количество просмотров: 83
Количество скачиваний: 0