Системы распознавания речи: базовые принципы и алгоритмы

Март 11, 2021

Главная
Информатика
Системы распознавания речи: базовые принципы и алгоритмы

Содержание

2. Задача распознавания речи Система распознавания речи — устройство, которое осуществляет автоматическую трансляцию речи в текст. Оно
3. Зашумленный канал
4. Sequence-labeling и обработка естественного языка Secretariat/NNP is/BEZ expected/VBN to/TO race/?? tomorrow/ Рассмотрим предложение: Определим часть речи
5. Простейшая модель вывода Выберем набор релевантных признаков Припишем им числовые значения — «веса». Веса могут быть
6. Обработка естественного языка и декодирование Большое количество задач NLP может быть так или иначе сведено к
7. Модель зашумленного канала в распознавании речи
8. Sequence-labelling и распознавание речи Скрытые состояния — фонемы/аллофоны Наблюдаемые состояния — векторы акустических признаков В основе
9. Представление речевого сигнала в виде дискретной последовательности
10. Общая схема системы распознавания речи
11. Основные разделы курса Выделение акустических признаков Дискретное преобразование Фурье и его разновидности MFCC (mel-frequency cepstral coefficients)
12. Коротко о MATLAB MATLAB — популярный программный пакет для инженерных вычислений и моделирования Поддерживает встроенный язык
14. Скачать презентацию

Слайд 2

Задача распознавания речи
Система распознавания речи — устройство, которое осуществляет автоматическую трансляцию речи

в текст.
Оно может мыслиться как «печатная машинка», которая осуществляет трансляцию, после чего транслированный текст отображается на экране рабочей станции [1]
Системы различаются по возможности распознавания слитной речи — слитная речь vs. изолированные слова
По объему доступного словаря — большой vs. ограниченный
Способности к распознаванию разговорной речи — разговорная vs. дикторская
Устойчивости к шуму
Количеству и качеству дикторов — зависимые от диктора vs. независимые от диктора [2]
Large-vocabulary continuous speech recognition

Слайд 3

Зашумленный канал

Слайд 4

Sequence-labeling и обработка естественного языка
Secretariat/NNP is/BEZ expected/VBN to/TO race/?? tomorrow/
Рассмотрим предложение:
Определим часть

речи слова race: NN vs. VB

Лексема race

Какие признаки позволяют нам сделать вывод о части речи слова race?

Часть речи предыдущего слова — TO

В написании слова отсутствует -ING

В написании слова отсутствует большая буква

Наличие/отсутствие каждого признака положительно либо отрицательно сказывается на каждом из решений.
Кроме того, признаки не одинаково информативны

Слайд 5

Простейшая модель вывода
Выберем набор релевантных признаков
Припишем им числовые значения — «веса».

Веса могут быть отрицательными, если соответствующие признаки снижают шансы кандидата на победу
Для каждого из кандидатов найдем суммарный вес признаков. Побеждает кандидат, набравший больший вес

w1 = 8
w2 = 8
w3 = 7
w4 = 0.1
w5 = 1
w6 = -13

P(NN) = 8 - 13 = -5

P(VB) = 8 + 0.1 + 1 = 9.1

f1 = 1 iff word = 'race' & NN
f2 = 1 iff ti-1 = TO & VB
f3 = 1 iff suffix=-ING & VB
f4 = 1 iff lower_case(word) = 'race' & VB
f5 = 1 1 iff word = 'race' & VB
f6 = 1 iff ti-1 = TO & NN

Но откуда брать значения весов?!

Слайд 6

Обработка естественного языка и декодирование
Большое количество задач NLP может быть так или

иначе сведено к проставлению меток
Морфологический анализ
Выделение именованных сущностей
Разрешение анафоры
Поверхностный синтаксический разбор
И даже...
…
???
Распознавание речи
Ключевой момент - выбор релевантных признаков и инвентаря скрытых и наблюдаемых состояний

Слайд 7

Модель зашумленного канала в распознавании речи

Слайд 8

Sequence-labelling и распознавание речи
Скрытые состояния — фонемы/аллофоны
Наблюдаемые состояния — векторы акустических признаков
В

основе алгоритмов декодирования лежит аппарат скрытых марковских моделей
Выделение акустических признаков базируется на дискретном преобразовании Фурье
Непрерывный речевой сигнал представляется в виде дискретной последовательности векторов акустических признаков
Для анализа слитной речи необходима также модель языка — вероятность появления данной цепочки слов в анализируемом языке

Слайд 9

Представление речевого сигнала в виде дискретной последовательности

Слайд 10

Общая схема системы распознавания речи

Слайд 11

Основные разделы курса
Выделение акустических признаков
Дискретное преобразование Фурье и его разновидности
MFCC (mel-frequency cepstral

coefficients)
Алгоритмы распознавания
Скрытая марковская модель
Алгоритм Витерби декодирования в СММ
Алгоритм Баума-Велша обучения СММ
Языковая модель
Контекстная вариативность звуков и аллофоны
Распознавание речи за пределами СММ

Слайд 12

Коротко о MATLAB
MATLAB — популярный программный пакет для инженерных вычислений и моделирования
Поддерживает

встроенный язык программирования
Операции с векторами и матрицами поддерживаются на уровне синтаксиса
Имеется множество готовых функций и алгоритмов для работы с изображениями и цифровыми сигналами
Имеет свободный аналог — GNU Octave
https://class.coursera.org/pgm-003/lecture/index ML-class Ocatve Tutorial

Системы распознавания речи: базовые принципы и алгоритмы

Содержание

Задача распознавания речиСистема распознавания речи — устройство, которое осуществляет автоматическую трансляцию речи

Зашумленный канал

Sequence-labeling и обработка естественного языкаSecretariat/NNP is/BEZ expected/VBN to/TO race/?? tomorrow/Рассмотрим предложение:Определим часть

Простейшая модель вывода Выберем набор релевантных признаковПрипишем им числовые значения — «веса».

Обработка естественного языка и декодированиеБольшое количество задач NLP может быть так или