Слайд 2Содержание
Цель работы
Задача индексации
Вектора признаков
Кепстр
Формирования вектора признаков на основе вейвлет-преобразования
Скрытые Марковские модели
Метод опорных
векторов
Структура ядра системы индексации
Структура ядра системы индексации
Процессоры
Компоненты чтения
Пользовательский интерфейс
Эксперимент
Результаты эксперимента
Заключение
Слайд 3Цель работы
Целью данной работы является разработка системы индексации аудиопоследовательностей на основе СММ
и МОВ. Для достижения поставленной цели необходимо решить следующие задачи:
Изучить общую проблему индексации аудиодокументов и существующие подходы.
Разработать структуру системы Разработать структуру системы индексации аудиопоследовательностей на основе Скрытой Марковской Модели Разработать структуру системы индексации аудиопоследовательностей на основе Скрытой Марковской Модели и Метода Опорных Векторов.
Разработать алгоритм извлечения вектора признаков из аудиосигналов на основе вейвлет преобразования.
Разработать структуру и реализовать систему индексации аудиопоследовательностей на языке С++.
Разработать структуру компонентов системы Разработать структуру компонентов системы и реализовать графический интерфейс системы.
Реализовать базовые компоненты обработки аудиосигналов.
Слайд 5Вектора признаков
В данной работе использовалось 2 вида векторов признаков:
Вектор признаков кепстральных коэффициентов
Вектор
признаков на основе вейвлет преобразования
Слайд 6Кепстр
Frame
Window
DFT
Mel
filter bank
Log
DCT
MFCC
Signal
Delta
Coefficients
Delta-Delta
Coefficients
Energy
Слайд 7Формирование вектора признаков на основе вейвлет-преобразования
Слайд 8Скрытые марковские модели
Скрытая марковская модель – это дважды стохастический случайный процесс в
котором наблюдения являются вероятностной функцией состояния.
СММ характеризуются следующими параметрами:
набор состояний
вариационная матрица переходов
набор событий
матрица вероятностей наблюдения
начальное и конечное состояния
матрица начальных вероятностей
Приближения СММ
1)
2)
Слайд 9Три фундаментальных проблеммы СММ
Проблема Оценки – при данных модели Ф и последовательности
наблюдений , какой будет вероятность появления модели, сгенерировавшей наблюдение?
Прямой алгоритм:
Проблема Декодирования - при данных модели Ф и последовательности наблюдений , какой будет наиболее вероятная последовательность состояний S в модели, сгенерировавшей наблюдения?
Алгоритм Витерби:
Проблема Обучения - при данных модели Ф и последовательности наблюдений, как можно настоит параметры модели так, чтобы максимизировать совместную вероятность ?
Прямой-обратный алгоритм
Слайд 12Структура системы индексации аудио
Слайд 13Структура ядра системы индексации
Слайд 14Процессоры
сlass Processor : public Idispatch
{
public:
virtual HRESULT STDMETHODCALLTYPE loadSettings(const char*settings) = 0;
virtual HRESULT STDMETHODCALLTYPE work(DataStruct** data) = 0;
virtual HRESULT STDMETHODCALLTYPE getProcessorId(char** id) = 0;
virtual HRESULT STDMETHODCALLTYPE getSize(int* val) = 0;
virtual HRESULT STDMETHODCALLTYPE getStep(int* val) = 0;
virtual HRESULT STDMETHODCALLTYPE getSettings(char**) = 0;
};
Слайд 15Компоненты чтения
class ReaderInterface : public IDispatch
{
public:
virtual HRESULT STDMETHODCALLTYPE open(const char*, ResultStruct*)
= 0;
virtual HRESULT STDMETHODCALLTYPE read(DataStruct**, ResultStruct*) = 0;
};
Слайд 18Базовые процессоры
Окна
Бартлетта
Блекмана
Блекмана-Хариса
Хемминга
Хаара
Кайзера
Преобразования
БПФ
Вейвлет
ДКП
МОВ
СММ
Признаки
Кепстр
На вейвлете
Классификаторы
Слайд 19Эксперимент
В рамках данного проекта, на основе созданной системы были проведены 3 эксперимента
по индексации аудиопоследовательностей:
сегментация речь/музыка/тишина
распознавание эмоций на основе МОВ
определение жанров музыки на основе СММ
Слайд 21Сегментация речь/музыка/тишина
речь
тишина
тишина
музыка
Слайд 23Распознавание эмоций на основе МОВ
Слайд 24Результаты распознавания эмоций на основе МОВ
Слайд 25Результаты определения жанров музыки на основе СММ
Слайд 26Заключение
В рамках данного проекта была выполнена следующая работа:
разработаны структуры системы индексации
аудиопоследовательностей и ее компонент, позволяющие легко модифицировать параметры системы для конкретной задачи индексации.
разработан интерфейс компонент системы, позволяющий легко подключать к системе компоненты сторонних разработчиков с целью расширения возможностей системы.
реализована система индексации аудиопоследовательностей на языке С++, графический пользовательский интерфейс системы и базовые компоненты индексации аудиопоследовательностей.
На основе разработанной системы проведены эксперименты по разделению аудиопоследовательности на речь/музыку/тишину, распознаванию эмоций в речи, определению жанров музыки.