语音技术概览
语音技术,一般指语音合成技术和语音识别技术。分为:
- 语音合成即Text to Speech(TTS),就是让设备将文本信息转换成语音的形式朗读出来,就像给设备安装上了嘴巴。微软在此领域处于领先地位并有释出产品Microsoft Reader,一个优秀且免费的标准美音TTS。而中文TTS领域则有安徽科大讯飞,其产品讯飞语音电子书,收费软件价格 49元。
- 语音识别即Automatic Speech Recognition(ASR),就是让设备听懂人的语言。就像给设备安装了耳朵。
总之,语音技术就是让设备“能听会说”,使其更加智能化、人性化。
语音合成技术介绍
语音合成,又称文语转换(Text to Speech)技术,它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是中文信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。语音合成与传统的声音回放设备(系统)有着本质的区别。传统的声音回放设备(系统),如磁带录音机,是通过预先录制声音然后回放来实现“让机器说话”的。这种方式无论是在内容、存储、传输或者方便性、及时性等方面都存在很大的限制。而通过语音合成则可以在任何时候将任意文本转换成具有高自然度的语音,从而真正实现让机器“像人一样开口说话”。
文语转换系统实际上可以看作是一个 人工智能系统。为了合成出高质量的语言,除了依赖于各种规则,包括语义学规则、词汇规则、语音学规则外,还必须对文字的内容有很好的理解,这也涉及到自然语言理解的问题。下图显示了一个完整的文语转换系统示意图。文语转换过程是先将文字序列转换成音韵序列,再由系统根据音韵序列生成语音波形。其中第一步涉及语言学处理,例如分词、多音字处理、字音转换等,以及一整套有效的韵律控制规则;第二步需要先进的语音合成技术,能将第一步得到的音韵序列实时合成出高质量的语音流。因此一般说来,文语转换系统都需要一套复杂的文字序列到音素序列的转换程序,也就是说,文语转换系统不仅要应用语音数字信号处理技术,而且必须有大量的语言学知识的支持。
语音合成技术发展历程
第一代嵌入式语音合成引擎(2000年):单音节波形拼接技术
单音节波形拼接技术是第一代语音合成技术。简单地说,单音节波形拼接技术就是预先将汉语发音中需要用到的1400多个音节全部录制下来,制作成一个音库。当合成文本时,根据每一个汉字的拼音从从音库中找到合适音节,然后拼接起来,这样就可以实现最简单的语音合成系统。 但是采取这种技术合成出来的效果很难令人满意,是一字一顿的机械效果,语句连贯性很差,无法进行大规模应用。
第二代嵌入式语音合成引擎(2004年):大语料库裁减技术
为了改进第一代语音合成技术,人们想到了大语料库的合成方法。在第一代合成技术中,人们没有考虑到每一个音节在不同语句环境下其实发音表现是有区别的,每个音节只有一个候选单元,拼接起来很生硬,因此造成了语句的不连贯性。
而在大语料库的合成方法中,为了解决不同情况下汉字的发音不同的问题,人们就将语料库进一步完善,将汉语音节在不同情况下的发音候选单元尽量多地保存在音库中,在合成时先进行韵律环境分析,然后从音库中挑选出最合适当前语境的音节候选单元进行拼接。因此音库尺寸越大,其包含的不同情况下的不同发音就越多,也就越贴近自然人的发音。目前,专业级的语音合成系统,如讯飞的电信级、服务级语音合成系统,均采用了大语料库甚至超大语料库的算法,每个音库的尺寸可以达到几个G的规模,理论上可以逼近原发音人的效果。
但在嵌入式环境,显然不可能容纳这么大的音库,必须进行裁减。这一代的嵌入式语音技术就是基于各种统计决策算法,从大语料库系统中挑选出最有代表性的若干音节并保存,裁减掉其他候选音节。从而一方面降低了系统尺寸,另一方面在一定程度上保证了较好的合成效果。
大语料库技术的缺陷在于,如果要不断提升合成效果,就只有不断增加语料库中音节候选单元的个数,相应地系统尺寸就不断增大。
第三代嵌入式语音合成引擎(2005年):尺寸缩减,效果提升
为了进一步改善合成效果,并且不受系统尺寸的限制,科大讯飞不断投入研发,进而发展到第三代语音合成技术。
这一代技术相比第二代又有了很大改进。主要体现如下:
- 首先,自然度得到提升,合成效果更好,更加具有实用性;
- 其次,合成时可调节范围更广,例如语速调节和语调调节等等;
- 第三,系统尺寸更小,处理器资源占用更少,更加适应嵌入式环境的应用。
第三代技术的发展,使得嵌入式语音合成效果得到大幅度提升,给嵌入式语音技术的大规模商业应用带来了契机,并且向人们昭示出了语音合成技术发展更加光明的前景。大家可以在讯飞语音电子书产品中,感受到第三代语音合成技术的效果,它也代表着目前世界最高水平的嵌入式中文语音合成技术的效果。
|