Системы распознавания речи

Март 3, 2021

Главная
Информатика
Системы распознавания речи

Содержание

2. Что такое распознавание речи? Распознавание речи – это многоуровневая задача распознавания образов, в которой акустические сигналы
3. Структура стандартной системы распознавания речи
4. Необработанная речь Обычно, поток звуковых данных, записанный с высокой дискретизацией (20 КГц при записи с микрофона
5. Анализ сигнала Поступающий сигнал должен быть изначально трансформирован и сжат, для облегчения последующей обработки. Есть различные
6. Речевые кадры Результатом анализа сигнала является последовательность речевых кадров. Обычно, каждый речевой кадр – это результат
7. Речевые кадры
8. Акустические модели Для анализа состава речевых кадров требуется набор акустических моделей. Рассмотрим две наиболее распространенные из
9. Шаблонная модель В качестве акустической модели выступает каким-либо образом сохраненный пример распознаваемой структурной единицы (слова, команды).
10. Модель состояний Каждое слово моделируется как последовательность состояний указывающих набор звуков, которые возможно услышать в данном
11. Акустический анализ Состоит в сопоставлении различных акустических моделей к каждому кадру речи и выдает матрицу сопоставления
12. Корректировка времени Используется для обработки временной вариативности, возникающей при произношении слов (например, “растягивание” или “съедание” звуков).
13. Последовательность слов В результате работы, система распознавания речи выдает последовательность (или несколько возможных последовательностей) слов, которая,
15. Скачать презентацию

Что такое распознавание речи?
Распознавание речи – это многоуровневая задача распознавания образов, в

которой акустические сигналы анализируются и структурируются в иерархию структурных элементов (например, фонем), слов, фраз и предложений

Структура стандартной системы распознавания речи

Необработанная речь
Обычно, поток звуковых данных, записанный с высокой дискретизацией (20 КГц при

записи с микрофона либо 8 КГц при записи с телефонной линии)

Анализ сигнала
Поступающий сигнал должен быть изначально трансформирован и сжат, для облегчения последующей

обработки. Есть различные методы для извлечения полезных параметров и сжатия исходных данных в десятки раз без потери полезной информации. Наиболее используемые методы:
анализ Фурье;
линейное предсказание речи;
кепстральный анализ.

Слайд 6

Речевые кадры
Результатом анализа сигнала является последовательность речевых кадров. Обычно, каждый речевой кадр

– это результат анализа сигнала на небольшом отрезке времени (порядка 10 мс.), содержащий информацию об этом участке (порядка 20 коэффициентов). Для улучшения качества распознавания, в кадры может быть добавлена информация о первой или второй производной значений их коэффициентов для описания динамики изменения речи.

Слайд 7

Речевые кадры

Слайд 8

Акустические модели
Для анализа состава речевых кадров требуется набор акустических моделей. Рассмотрим две

наиболее распространенные из них.
Шаблонная модель.
Модель состояний.

Слайд 9

Шаблонная модель
В качестве акустической модели выступает каким-либо образом сохраненный пример распознаваемой структурной

единицы (слова, команды). Вариативность распознавания такой моделью достигается путем сохранения различных вариантов произношения одного и того же элемента (множество дикторов много раз повторяют одну и ту же команду). Используется, в основном, для распознавания слов как единого целого (командные системы).

Слайд 10

Модель состояний
Каждое слово моделируется как последовательность состояний указывающих набор звуков, которые возможно

услышать в данном участке слова, основываясь на вероятностных правилах. Этот подход используется в более масштабных системах.

Слайд 11

Акустический анализ
Состоит в сопоставлении различных акустических моделей к каждому кадру речи и

выдает матрицу сопоставления последовательности кадров и множества акустических моделей. Для шаблонной модели, эта матрица представляет собой Евклидово расстояние между шаблонным и распознаваемым кадром. Для моделей, основанных на состоянии, матрица состоит из вероятностей того, что данное состояние может сгенерировать данный кадр.

Слайд 12

Корректировка времени
Используется для обработки временной вариативности, возникающей при произношении слов (например, “растягивание”

или “съедание” звуков).

Слайд 13

Последовательность слов
В результате работы, система распознавания речи выдает последовательность (или несколько возможных

последовательностей) слов, которая, наиболее вероятно, соответствует входному потоку речи.

Системы распознавания речи

Содержание

Слайд 2

Что такое распознавание речи?
Распознавание речи – это многоуровневая задача распознавания образов, в

Слайд 3

Структура стандартной системы распознавания речи

Слайд 4

Необработанная речь
Обычно, поток звуковых данных, записанный с высокой дискретизацией (20 КГц при

Слайд 5

Анализ сигнала
Поступающий сигнал должен быть изначально трансформирован и сжат, для облегчения последующей

Слайд 6

Речевые кадры
Результатом анализа сигнала является последовательность речевых кадров. Обычно, каждый речевой кадр

Слайд 7

Речевые кадры

Слайд 8

Акустические модели
Для анализа состава речевых кадров требуется набор акустических моделей. Рассмотрим две

Слайд 9

Шаблонная модель
В качестве акустической модели выступает каким-либо образом сохраненный пример распознаваемой структурной

Слайд 10

Модель состояний
Каждое слово моделируется как последовательность состояний указывающих набор звуков, которые возможно

Слайд 11

Акустический анализ
Состоит в сопоставлении различных акустических моделей к каждому кадру речи и

Слайд 12

Корректировка времени
Используется для обработки временной вариативности, возникающей при произношении слов (например, “растягивание”

Слайд 13

Последовательность слов
В результате работы, система распознавания речи выдает последовательность (или несколько возможных

Системы распознавания речи

Содержание

Что такое распознавание речи?Распознавание речи – это многоуровневая задача распознавания образов, в

Структура стандартной системы распознавания речи

Необработанная речьОбычно, поток звуковых данных, записанный с высокой дискретизацией (20 КГц при

Анализ сигналаПоступающий сигнал должен быть изначально трансформирован и сжат, для облегчения последующей

Речевые кадрыРезультатом анализа сигнала является последовательность речевых кадров. Обычно, каждый речевой кадр

Речевые кадры

Акустические моделиДля анализа состава речевых кадров требуется набор акустических моделей. Рассмотрим две

Шаблонная модельВ качестве акустической модели выступает каким-либо образом сохраненный пример распознаваемой структурной

Модель состоянийКаждое слово моделируется как последовательность состояний указывающих набор звуков, которые возможно

Акустический анализСостоит в сопоставлении различных акустических моделей к каждому кадру речи и

Корректировка времениИспользуется для обработки временной вариативности, возникающей при произношении слов (например, “растягивание”

Последовательность словВ результате работы, система распознавания речи выдает последовательность (или несколько возможных

Похожие презентации

Что такое распознавание речи?
Распознавание речи – это многоуровневая задача распознавания образов, в

Необработанная речь
Обычно, поток звуковых данных, записанный с высокой дискретизацией (20 КГц при

Анализ сигнала
Поступающий сигнал должен быть изначально трансформирован и сжат, для облегчения последующей

Речевые кадры
Результатом анализа сигнала является последовательность речевых кадров. Обычно, каждый речевой кадр

Акустические модели
Для анализа состава речевых кадров требуется набор акустических моделей. Рассмотрим две

Шаблонная модель
В качестве акустической модели выступает каким-либо образом сохраненный пример распознаваемой структурной

Модель состояний
Каждое слово моделируется как последовательность состояний указывающих набор звуков, которые возможно

Акустический анализ
Состоит в сопоставлении различных акустических моделей к каждому кадру речи и

Корректировка времени
Используется для обработки временной вариативности, возникающей при произношении слов (например, “растягивание”

Последовательность слов
В результате работы, система распознавания речи выдает последовательность (или несколько возможных