隐马尔可夫模型HMM与语音识别ASR

隐马尔可夫模型HMM与语音识别ASR

自动语音识别(automatic speech recognition,ASR)研究的目标是建立语言识别系统,将声学信号映射成单词串。本文首先回顾语音识别的总体情况,然后介绍HMM,在介绍言语声学和言语特征,以及高斯模型和多层感知机模型(Multi-layer perceptron model, MLP)在声学概率计算中的应用。

1 语音识别的总体结构

语音识别系统把语音的声学输入看成是源句子的一个噪声“版本”。为了对这个噪声句子进行“解码”,要考虑所有可能的句子。对于每个句子,要计算它生成噪声句子的概率,然后选取概率最大的句子。如下图所示,噪声信道模型。


建立噪声信道模型需要解决两个问题。

第一,为了挑选与噪声输入匹配的最佳句子,需要对“最佳匹配”有一个完全的度量。我们将使用概率作为度量,并且说明如何把不同的概率估计结合起来,以便对给定的候选句子的噪声观察序列的概率得到一个完全的估计。

第二个问题时,因为所有句子的集合特别大,我们需要一个有效的算法,使得不必对所有可能的句子都进行搜索,而只搜索那些有机会与输入匹配的句子,这就是解码问题或搜索问题。

语音识别的概率噪声信道总体结构的目标如下:

“对于给定的声学输入O,在语言f的所有句子中,哪个句子是最可能的句子”

我们个可以把声学输入O作为单个的“符号”或“观察”的序列处理: O = o1, o2,..., ot oi表示在时间上的连续的输入音片(大写字母表示符号的序列,小写字母表示单个的符号) 类似的,我们在表示句子时,就可以用单词符号构成单词串: W = w1, w2, w3, ..., wn

因而前面的目标的概率可以表示为:


利用贝叶斯原理可以将上式转换为:

由于P(O)是不变的,因而上式可以进一步转换为:

总的来说,对于给定的某个观察O,具有最大概率的句子W可以用每个句子的两个概率的乘积来计算,并且选择乘积最大的句子为所求的句子。

P(w)是先验概率,称为语言模型(language model);P(O|W)是观察似然度,称为声学模型(acoustic model)。P(w)可以根据N元语法模型进行估计,P(O|W)也很好估计。

首先,我们将简单的介绍声学输入和特征抽出,所谓特征抽出,就是从输入的声波中提取有意义的特征过程。然后利用这些特征计算音子的概率,有两个标准模型高斯模型神经网络模型。 然后,通过将声学观察序列转换为音子观察序列,使之成为一个完整句子的观察序列,利用解码算法,计算音子观察序列的似然度,并且给出最可能的句子。

一个语音识别系统分为三个阶段,分别为信号处理阶段、音子阶段和解码阶段。

  1. 信息处理阶段又称为特征抽取阶段,在这个阶段将声学波形切分为音片框架(通常是10ms,15ms或20ms),将音片框架转换成声谱特征。
  2. 音子阶段有称为亚词阶段,在这个阶段我们利用高斯模型或神经网络这样的统计技术,尝试识别如p和b这样的单个音子。
  3. 解码阶段,我们利用单词发音词典和语言模型,采用Viterbi算法或A解码算法对于给定的声学事件最大概率的单词序列。


2 隐马尔科夫模型概述

我们曾经使用加权有限状态自动机或马尔科夫链来模拟单词的发音。自动机包括一个状态序列q=(q0, q1,..., qn),每个状态对应一个音子,状态之间的转移概率的集合为(a01, a12, a13)。我们用节点来表示状态,用结点与结点之间的边来表示转移概率。观察的音子序列O=(o1, o2,..., ot),可以通过自动机和向前算法计算观察的音子序列O的似然度。


然而,上述马尔可夫链的发音模型主要存在两个问题。首先,这些模型假设输入时有符号序列组成(观察序列)。显而易见,这是不对的,语音识别中,输入是有歧义的,输入的为声谱特征。另一方面,在加权自动机中进行了简化, 这种简化假定输入符号恰好对应自动机的状态。

加权自动机或马尔可夫链可以用状态集合Q,转移概率A,定义好初始状态和总结·终结状态、观察似然度集合B来描述。对于马尔可夫链,状态i与观察值ot相比配,则概率bi(ot)为1,否则为0。 与马尔可夫链不同的是,隐马尔可夫链(HMM)要增加两个要求。一是,HMM有一个观察符号的集合O,这个集合不是从状态集合Q的字符中抽取的。二是,观察似然度集合B的值不只是1或0,在HMM中概率bi(ot)可以取0~1的任何值。 下图为HMM示例图,观察序列为声谱特征,输入概率为B。



3 声学概率计算

语音的声学信号经过一系列的信号处理变换,转换成一系列的特征矢量,每个矢量代表语音输入的一个时间片。怎样把声学的特征矢量转换为音子的概率呢。常用的方法为在连续的空间内计算概率强度函数,主要有两种形式:高斯概率强度函数和神经网络。

在高斯概率强度函数中,我们假定观察特征矢量ot的可能值是按照正态分布的,每个状态有一个单独的高斯函数,把观察矢量ot映射为概率。其概率分布的数学公式为:


神经网络的方法有很多种,简单介绍其中一种,称为“混合隐马尔可夫-多层感知机方法(混合HMM-MLP方法)”。

天下网TXWEB昌都市seo排名推荐成都网站建设公司定西网站优化公司宣城网站开发多少钱巴中网站设计多少钱资阳企业网站建设公司锦州网络推广报价松原市优化公司六安市网站优化公司南阳网站定制哪家好杭州网站开发报价枣庄网站设计推荐莆田模板网站建设推荐青岛市网站设计报价保定市建站推荐沈阳市seo池州市网站开发哪家好南平市优化价格云浮营销网站建设哪家好龙华网站优化多少钱邯郸关键词排名哪家好合肥seo价格毕节seo排名榆林市模板网站建设临沂市网页设计推荐定西网络推广价格株洲市建站哪家专业张掖seo排名哪家专业宜春市营销网站建设报价自贡网站推广报价香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

天下网TXWEB XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化