Сегментация на основе кластеризации 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Сегментация на основе кластеризации

Поиск

Рассмотрим простейший случай сегментации. Пусть известно, что отрезок речи содержит две фонемы, начало речевого отрезка соответствует началу первой фонемы, окончание – концу второй фонемы. Т.е. задача сводится к определению момента времени, в который происходит смена фонем. В этом случае можно применить технику кластерного анализа, используемую для построения пофонемной кодовой книги. В ее основе лежит процедура усреднения. Поскольку заранее известно, что перед нами два участка, соответствующие двум различным классам, то критерием разделения двух звуков может быть изменение центроида, к которому тяготеют вектора признаков.

Приведем пример получения сегментации слога. Наговариваем слог, состоящий из двух фонем, например, слог “си” и строим кодовую книгу из двух кодовых векторов.

С микрофона вводится речевой сигнал. Машина разбивает сигнал на отрезки по 368 отсчетов и для каждого из них строит вектор признаков. При сигнале в 10 тысяч отсчетов таких векторов получается 27. Далее происходит разбиение векторов на классы и построение соответствующих кодовых векторов.

Пусть речевой сигнал задается множеством векторов

.  

Выберем число  и построим вектора

 ,           .  

Определим теперь функцию

.  

Если наименьшее значение этой функции достигается при  то правый конец отрезка с номером  принимается за границу аллофона. Далее отрезки по одну сторону найденной границы отбрасываются, к оставшейся части сигнала применяется вышеописанная процедура и т.д. Этот метод позволяет весьма надежно разделять две соседние гласные фонемы или гласную и соседствующую с ней сонорную согласную.

Амплитудная сегментация

Следующий метод сегментации является по сути своей амплитудным. Сигнал в 10 тысяч отсчетов разбивается на отрезки по 300 отсчетов в каждом. Для каждого из них вычисляется величина

 

.  

Здесь  - номер отрезка ,  - значение сигнала на -ом отсчете -го отрезка. Величины , как известно, принимают целочисленные значения от 1 до 256, так что под знаком суммы стоят отклонения от средней линии. Затем вычисляется среднее величин :

.  

Наконец, весь сигнал разбивается на участки, состоящие из отрезков, для которых pi < p и участки, состоящие из отрезков, для которых pip.

Границы между этими участками принимаются за искомые границы сегментации.

Этот метод с высокой надежностью позволяет выделить участки отвечающие звукам “с”, “ш”, “щ”, “ц”, “ч”, “ф”, “х”, “б”, “г”, “д”, “п”, “к”, “т”. Он может выделять также другие согласные, особенно при отсутствии в слове вышеперечисленных звуков. В целом этот простой, надежный и чрезвычайно быстро работающий метод может, как показывает опыт, с успехом служить для целей предварительной сегментации речевого сигнала.



Поделиться:


Последнее изменение этой страницы: 2022-09-03; просмотров: 129; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 216.73.217.128 (0.007 с.)