Системы распознавания речи: базовые принципы и алгоритмы

Содержание

Слайд 2

Задача распознавания речи

Система распознавания речи — устройство, которое осуществляет автоматическую трансляцию речи

Задача распознавания речи Система распознавания речи — устройство, которое осуществляет автоматическую трансляцию
в текст.
Оно может мыслиться как «печатная машинка», которая осуществляет трансляцию, после чего транслированный текст отображается на экране рабочей станции [1]
Системы различаются по возможности распознавания слитной речи — слитная речь vs. изолированные слова
По объему доступного словаря — большой vs. ограниченный
Способности к распознаванию разговорной речи — разговорная vs. дикторская
Устойчивости к шуму
Количеству и качеству дикторов — зависимые от диктора vs. независимые от диктора [2]
Large-vocabulary continuous speech recognition

Слайд 3

Зашумленный канал

Зашумленный канал

Слайд 4

Sequence-labeling и обработка естественного языка

Secretariat/NNP is/BEZ expected/VBN to/TO race/?? tomorrow/

Рассмотрим предложение:

Определим часть

Sequence-labeling и обработка естественного языка Secretariat/NNP is/BEZ expected/VBN to/TO race/?? tomorrow/ Рассмотрим
речи слова race: NN vs. VB

Лексема race

Какие признаки позволяют нам сделать вывод о части речи слова race?

Часть речи предыдущего слова — TO

В написании слова отсутствует -ING

В написании слова отсутствует большая буква

Наличие/отсутствие каждого признака положительно либо отрицательно сказывается на каждом из решений.
Кроме того, признаки не одинаково информативны

Слайд 5

Простейшая модель вывода

Выберем набор релевантных признаков
Припишем им числовые значения — «веса».

Простейшая модель вывода Выберем набор релевантных признаков Припишем им числовые значения —
Веса могут быть отрицательными, если соответствующие признаки снижают шансы кандидата на победу
Для каждого из кандидатов найдем суммарный вес признаков. Побеждает кандидат, набравший больший вес

w1 = 8
w2 = 8
w3 = 7
w4 = 0.1
w5 = 1
w6 = -13

P(NN) = 8 - 13 = -5

P(VB) = 8 + 0.1 + 1 = 9.1

f1 = 1 iff word = 'race' & NN
f2 = 1 iff ti-1 = TO & VB
f3 = 1 iff suffix=-ING & VB
f4 = 1 iff lower_case(word) = 'race' & VB
f5 = 1 1 iff word = 'race' & VB
f6 = 1 iff ti-1 = TO & NN

Но откуда брать значения весов?!

Слайд 6

Обработка естественного языка и декодирование

Большое количество задач NLP может быть так или

Обработка естественного языка и декодирование Большое количество задач NLP может быть так
иначе сведено к проставлению меток
Морфологический анализ
Выделение именованных сущностей
Разрешение анафоры
Поверхностный синтаксический разбор
И даже...

???
Распознавание речи
Ключевой момент - выбор релевантных признаков и инвентаря скрытых и наблюдаемых состояний

Слайд 7

Модель зашумленного канала в распознавании речи

Модель зашумленного канала в распознавании речи

Слайд 8

Sequence-labelling и распознавание речи

Скрытые состояния — фонемы/аллофоны
Наблюдаемые состояния — векторы акустических признаков
В

Sequence-labelling и распознавание речи Скрытые состояния — фонемы/аллофоны Наблюдаемые состояния — векторы
основе алгоритмов декодирования лежит аппарат скрытых марковских моделей
Выделение акустических признаков базируется на дискретном преобразовании Фурье
Непрерывный речевой сигнал представляется в виде дискретной последовательности векторов акустических признаков
Для анализа слитной речи необходима также модель языка — вероятность появления данной цепочки слов в анализируемом языке

Слайд 9

Представление речевого сигнала в виде дискретной последовательности

Представление речевого сигнала в виде дискретной последовательности

Слайд 10

Общая схема системы распознавания речи

Общая схема системы распознавания речи

Слайд 11

Основные разделы курса

Выделение акустических признаков
Дискретное преобразование Фурье и его разновидности
MFCC (mel-frequency cepstral

Основные разделы курса Выделение акустических признаков Дискретное преобразование Фурье и его разновидности
coefficients)
Алгоритмы распознавания
Скрытая марковская модель
Алгоритм Витерби декодирования в СММ
Алгоритм Баума-Велша обучения СММ
Языковая модель
Контекстная вариативность звуков и аллофоны
Распознавание речи за пределами СММ

Слайд 12

Коротко о MATLAB

MATLAB — популярный программный пакет для инженерных вычислений и моделирования
Поддерживает

Коротко о MATLAB MATLAB — популярный программный пакет для инженерных вычислений и
встроенный язык программирования
Операции с векторами и матрицами поддерживаются на уровне синтаксиса
Имеется множество готовых функций и алгоритмов для работы с изображениями и цифровыми сигналами
Имеет свободный аналог — GNU Octave
https://class.coursera.org/pgm-003/lecture/index ML-class Ocatve Tutorial
Имя файла: Системы-распознавания-речи:-базовые-принципы-и-алгоритмы.pptx
Количество просмотров: 41
Количество скачиваний: 0