首发于 自然语言处理从入门到高级
最大熵马尔可夫模型

最大熵马尔可夫模型

虽然HMM可以达到很高的精确度,但是我们发现它需要大量的体系结构创新来处理未知的单词、后退、后缀等等。如果我们能够以一种干净的方式将任意的特性直接添加到模型中,这将会容易得多,但是这对于生成模型(如HMMs)来说很难。幸运的是,我们已经看到了这样做的模型:逻辑回归模型!但logistic回归不是一个序列模型;它为单个观察分配一个类。然而,我们可以将逻辑回归转化为一个判别序列模型,只需对连续的单词运行它,使用分配给前一个单词的类作为下一个单词分类的一个特征。当我们以这种方式应用逻辑回归时,它被称为最大熵马尔可夫模型或MEMM5

设单词序列为 W = w_{1}^n ,标签序列 T = t_{1}^n 。在隐马尔可夫模型中,为了计算使P(T|W)最大化的最佳标记序列,我们依赖于贝叶斯规则和概率P(W|T):

相比之下,在MEMM中,我们直接计算后验 P(T|W) ,训练它区分可能的标签序列:

考虑只标记一个单词。一个多项式逻辑回归分类器可以用与隐马尔可夫模型不同的方法计算单概率 P(t_i | w_{i},t_{i-1}) 。图8.12通过箭头的方向直观地显示了差异;HMMs计算似然(观察词以标记为条件),而MEMMs计算后验(标记以观察词为条件)。

Figure 8.12 一个示意图视图的HMM(顶部)和MEMM(底部)表示的概率计算的正确序列标签为后一句话。隐马尔可夫模型计算给定隐藏状态下观察结果的可能性,而基于先前状态和当前观察结果的隐马尔可夫模型计算每个状态的后验

MEMM中的特征

当然,我们不会只在 w_i t_i 上建立MEMMs。使用判别序列模型的原因是它更容易包含许多特性。图8.13显示了这些附加特性的图形直观。

基本的MEMM词性标记器以观察词本身、相邻词、以前的标记以及各种组合为条件,使用的特征模板如下:

特征模板用于自动填充训练和测试集中每个实例的特征集。因此,我们的示例Janet/NNP will/MD back/VB the/DT bill/NN,当 w_i 为词back时,将生成以下特征:

此外,还需要处理未知单词的特性,表示单词的拼写或形状的属性:

针对 w_i 可有如下情况:

  1. w_i包含特定前缀
  2. w_i包含特定后缀
  3. w_i包含数字
  4. w_i包含一个大写字母
  5. w_i包含一个字符
  6. w_i全是大写字母
  7. w_i 的单词形状
  8. w_i 的短单词形状
  9. w_i 是大写,有数字和破折号
  10. w_i 是大写字母,Co., Inc.等在3个字以内

单词的形状特征用于表示单词的抽象字母图案,方法是将小写字母映射为“x”,将大写字母映射到“X”,将数字映射到“d”,并保留标点符号。 因此,例如I.M.F将映射到X.X.X. 和DC10-30将映射到XXdd-dd。 还使用第二类较短的字形特征。 在这些特征中,连续的字符类型被删除,因此DC10-30将被映射到Xd-d,但是I.M.F仍将映射到X.X.X. 例如,well-dressed将生成以下非零值特征值:

已知单词的特征,如式8.33中的模板,对训练集中出现的每个单词进行计算。未知单词的特征也可以对训练中的所有单词进行计算,或者只对频率低于某个阈值的训练单词进行计算。已知单词模板和单词签名特性的结果是一组非常大的特征。通常使用特征截断,如果训练集中的特征数小于5,则会抛出这些特征。

解码和训练MEMMs

然后,结合输入单词 w_i 的这些特征,计算出最有可能的标签序列, w_i 附近l长度窗口以内的单词 w_{l-l}^{i+l} 系列(左边的l个单词和右边的l个单词),和当前单词 w_i 前k个标签 t_{i-k}^{i-1} 如下(使用θ来代替权重而不是w,以避免和单词w弄混):

我们应该如何解码才能找到这个最优的标签序列T ?将logistic回归转化为序列模型最简单的方法是构建一个局部分类器,从左到右对每个单词进行分类对句子中的第一个单词进行硬分类,然后对第二个单词进行硬决策,以此类推。这被称为贪心解码算法,因为我们贪婪地为每个单词选择最好的标签,如图8.14所示。

在贪心解码中,我们只是在每个令牌上运行分类器,从左到右,每次都要做出一个艰难的决定,哪个是最好的标记。

贪心算法的问题在于,在进入下一个单词之前,对每个单词做出艰难的决定,分类器不能使用来自未来决定的证据。虽然贪心算法非常快,偶尔也有足够的精度来使用,但一般来说,硬决策会导致性能下降太多,我们不使用它。相反,我们使用维特比算法解码MEMM,就像使用HMM一样,找到对整个句子最优的词性标记序列。

例如,假设我们的MEMM只以前面的标记 t_{i-1} 和观察到的单词 w_i 为条件。具体来说,这涉及到用 p(t_i | t_{i-1},w_i) 的适当值填充 N\times T 数组,并在继续执行时维护反向指针,与HMM Viterbi一样,当表被填满时,我们只需按照最后一列中的最大值返回指针来检索所需的标签集。Viterbi的hmm风格应用程序的必要更改只与我们如何填充每个单元格有关。由式8.20可知,维特比方程的递推步骤计算状态j的时间t的维特比值为:

HMM的实现:

MEMM只需要对后一个公式稍加修改,将a和b的先验概率和似然概率替换为直接后验概率:

MEMMs中的学习依赖于我们提出的用于逻辑回归的监督学习算法。在给定一系列观测值、特征函数和相应隐藏状态的情况下,利用梯度下降法训练权值,使训练语料库的对数似然值达到最大。


所介绍的MEMM和HMM模型的一个问题是,它们完全是从左到右运行的。虽然Viterbi算法仍然允许当前的决策受到未来决策的间接影响,但是如果一个关于词wi的决策可以直接使用关于未来标记 t_{i+1}t_{i+2} 的信息,那么它将更有帮助

实现双向性的一种方法是切换到一个更强大的模型,称为条件随机场(CRF)。CRF是一个无向的图形模型,这意味着它不会在每个时间步长计算每个标记的概率。相反,CRF在每个时间步长上计算一个小圈子上的对数线性函数,这是一组相关特性。与MEMM不同的是,这些可能在将来的时间步骤中包含单词的输出特性。最佳序列的概率同样由维特比算法计算。因为CRF对所有标签序列的概率进行标准化,而不是对单个时间t的所有标签进行标准化,所以训练需要计算所有可能标签的和,这使得CRF训练非常慢。

天下网标王来宾企业网站设计报价桐城网站制作设计哪家好三亚网站推广方案哪家好丹竹头seo网站优化西宁优化公司金昌网站设计报价咸阳网站优化报价沈阳百度爱采购价格太原SEO按天计费铜川百度seo推荐哈密至尊标王价格眉山网站制作设计推荐同乐网站优化按天扣费报价深圳网站建设双龙seo网站推广报价太原百搜标王报价海南企业网站建设公司坂田关键词按天计费报价宣城网站推广系统价格沧州外贸网站设计衡阳营销网站哪家好镇江网站关键词优化报价兰州网站优化哪家好滨州SEO按天计费多少钱襄阳建设网站价格湘潭网站设计模板公司大运建设网站公司上海模板推广价格莱芜网站seo优化推荐资阳网站优化按天扣费哪家好香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

天下网标王 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化