陈号天 1301111397
戚向波 1201214748
汤恒河 1201214746
1 研究背景介绍
自然语言处理,有时亦称作计算语言学,是语言学和计算机科学的交叉学科,属于认知科学的范畴。大致地讲,自语语言处理的研究着眼于对人类语言建模的实用效果,以建立具有一定人类语言知识的软件产品。今天的计算机不理解人类的语言,人类也很难掌握计算机的语言,减少人机交互的障碍便是这类产品的目标。通过这类的自然语言处理研究建立的“自然语言人机界面”将使得用户可以直接通过自然语言(英语 汉语 德语 法语)同计算机交互。

图1. 典型机器翻译过程框架
统计数学方法不需任何先验知识,只需收集足够多数量和足够高质量的语料库,然后按照特定模型从中训练,统计所得的所有知识最后都包含语言模型的参数中。一般地,语料库的增长即意味着系统性能的提升。如果系统的应用领域发生改变,那么只需采用新领域的语料库重新训练模型即可,所以这种方法具有很强的适应性。我们以在语音识别系统中广泛应用的隐马尔可夫模型来说明这一特点,如果我们需要的是一个通用的语音识别系统,则从普通语料库中训练模型;如果需要的是一个医疗领域的系统,则专门收集医疗领域的语料供模型学习即可。总的来讲,比之于传统方法统计语言学习具有以下明显的优点:(1).无需先验知识 (2).数据驱动,对训练集的修改或扩充即是对模型的扩充(3).知识获取成本低,使低成本的自然语言处理系统的建立成为可能。
目前,自然语言处理中的语言统计模型已经相当成熟,例如,隐马尔可夫模型(HMM) 、概率上下文无关语法、基于决策树的语言模型、最大熵语言模型等。本文将对隐马尔可夫模型进行详细介绍。
2 马尔可夫及隐式马尔可夫简介
2.1 马尔可夫模型
马尔可夫模型是前苏联数学家Andrei A. Markov在1913年提出的,该模型时间离散的形式表述为马尔可夫链。



2.2 隐马尔可夫模型
表示隐含状态在初始时刻t=1的概率矩阵,如:t=1时,P(S1)=p1、P(S2)=P2、P(S3)=p3,则初始状态概率矩阵 π=[ p1 p2 p3 ]。
其中Aij = P( Sj | Si ),1≤i,,j≤N,表示在 t 时刻、状态为 Si 的条件下,在 t+1 时刻状态是 Sj 的概率。
Bij = P( Oi | Sj ), 1≤i≤M,1≤j≤N,表示在 t 时刻、隐含状态是 Sj 条件下,观察状态为 Oi 的概率。
下面通过一个例子来讲解隐式马尔科夫模型。坛子和小球模型:在一个房间中,假定有N个坛子,每个坛子中都装有不同颜色的小球,并且假定总共有M 种不同颜色的小球。一个精灵在房间中首先随机地选择一个坛子,再从这个坛子中随机选择一个小球,并把小球的颜色报告给房间外面的人员记录下来作为观察值。精灵然后把球放回到坛子中,以当前的坛子为条件再随机选择一个坛子,从中随机选择一个小球,并报告小球的颜色,然后放回小球,如此继续。随着时间的推移,房间外的人会得到由这个过程产生的一个小球颜色序列。
2.3 HMM要解决的三个基本问题
2.3.1 输出概率的计算问题

Step 1 初始化:,;
Step 2 递推计算:,,;
Step 3 终止计算:。
此算法采用了动态规划的思想,有效地将计算输出概率的时间复杂度降为,具体来说,需要N ( N + 1 ) ( T 1) + N次乘法运算,以及N ( N 1 ) ( T 1 ) 次加法运算。

Step 1 初始化:,;
Step 2 递推计算:,,;
Step 3 终止计算:。
类似地,此算法也采用了动态规划的思想,时间复杂度为,具体来说,需要2 N 2 ( T 1 ) 次乘法运算,以及N ( N 1 ) ( T 1 ) 次加法运算。
2.3.2 状态序列的解码问题 给定HMM模型和观察序列,如何确定一个状态序列,使得最有可能产生观察序列? 该问题也称为解码或译码问题,目的就是要尽可能揭露出模型中与已知的观察序列相对应的状态序列,即确定“最优”的状态序列。最优准则一般有两个:单点状态最优准则和路径最优准则,本文采用路径最优准则。此时就是求解使得概率最大时所确定的状态序列,即

给定HMM模型,设观察序列已知,定义Viterbi变量为在t时刻,观察到序列前缀,且的最优状态序列为的概率,即 ,

Step1 初始化: a ,; b ;;
Step 2 递推计算: a ,,; b ,,;
Step 3 终止计算: a ; b ;
Step 4 回溯最优路径:,。
不难看出,除多了一步回溯最优路径外,此算法与前向算法非常类似。此算法的时间复杂度也为,具体来说,需要N ( N + 1 ) ( T 1) + N次乘法运算,N ( N 1 ) ( T 1 )次比较运算。
2.3.3 模型参数的估计问题 给定K条相互独立的观察序列,其中,,表示的长度,模型参数的估计问题是指在模型参数未知或不准确的情况下,如何根据这些观察序列求得或调整模型参数,使得最大?
目前,人们已经提出了一系列的训练准则,包括最大似然准则、最大互信息准则、以及最小判别信息准则等等。从不同的准则出发,将得到不同的训练算法,其中,最为经典的算法是Baum-Welch训练算法,这也是本文采用的训练算法,它是最大似然准则的一个应用,是一种期望最大化算法。 下面我们首先就K = 1,即单观察序列的情形,推导Baum-Welch训练算法中的重估公式,然后将其推广到多观察序列。

定义Baum-Welch变量为在t时刻,位于状态以及在t + 1时刻,位于状态的概率,即:


当训练数据偏少时,最大似然估计容易产生过拟合现象。为避免这种问题的产生,我们为每个参数引入一个预确定的伪记数(pseudo count),记为,也就是假定每个参数至少出现伪记数次,则此时的重估公式为

这些伪记数一般反映了我们对每个参数的先验偏置,实际上,它们有一个自然的概率解释,可以理解为Bayesian Dirichlet先验分布的参数。当然,这些伪记数必须是正数,但不必是整数。


Step 1 初始化: a 随机初始化模型参数; b ;// 迭代次数 c ;
Step 2 REPEAT a ; b ,; c ,; d ,; e ,,; f FOR k = 1 TO K // 计算观察序列对模型参数的贡献:
f.1 利用算法2-1计算前向变量,,;
f.2 利用算法2-2计算后向变量,,;
f.3 按照式(2-32)计算后验状态概率,,;
f.4 按照式(2-33)计算Baum-Welch变量,,;
f.5 ,;
f.6 ,;
f.7 ,;
f.8 ,,;
END FOR g 归一化:
g.1 ,;
g.2 ,;
g.3 ,;
g.4 ,,;
g.5 ;
g.6 ;
UNTIL OR //其中及是预先设定的阈值。
3 隐马尔可夫语言处理模型
3.1 语言统计模型建立
本文将用Peter Brown在1990年构造的经典统计机器翻译模型来说明统计自然语言处理方法。该模型是一个句级的英法翻译系统,假设说话者母语(T)想好了一句话S,但说出的确实句子T。应用信息论中的噪声通道模型,这可以视作一个编码过程。而统计的MT就是要从T推回S,可视作解码过程:

图2 解码过程 思想便是从源语言中找到统计意义上与T最相近的句子S。根据贝叶斯法则: 对于说话者给定的句子T来讲,Pr(T)是一个非随机量,可以忽略不计。那么,翻译的过程转化为求条件概率最大值的问题。

3.2 隐式马尔科夫统计语言模型概述
假设一个句子S是又词序列构成,则句子S的出现概率为: 根据马尔可夫因果假设,假设当前词的出现概率仅与前n-1个词有关,如给定n=2,则有:


此外还有Unigram(n=1)、和Four-gram(n=4)等等。显然n的值越大模型参数越多,模型越准确,但模型参数量(V表示词汇个数) 参数量随n呈指数级递增。所以,受限于当前的计算机容量和计算能力 大多数语言模型都是 Trigram或者Bigram。
3.3 参数估值


, N为磁电容量

3.4 模型困惑度度量

困惑度 特别是词困惑度度量 在隐马尔可夫统计语言模型性能比较中是一种公认的度量方法。
3.5 模型的压缩
首先,在对性能影响不大的前提下压缩词典容量,基于速度及准确度的权衡 一般将非常用词条除去,这在一定程度上减少了模型参数。
目前常见的模型压缩算法包括Count-cutoff[2],Weighted Difference Pruning[3],Stolcke Pruning[4]以及著名的Clustering[5]。
Count-cutoff是最简单也是最常用的方法。Count-cutoff 定义一个截断值cutoff,比如说cutoff=3此时语言模型中仅保留C(xyz…) > 3的词串及其出现次数所有C(xy…z) <= 3的词串及其出现次数从模型中删除 这种方法可以显著地减小模型的尺寸 但对模型性能影响较大。
Weighted Difference Pruning充分考察了trigram与bigram bigram与unigram概率的区别和联系,这种联系对于找出贡献值较小的词串有很大意义。例如,对于trigram,Weighted Difference Pruning采用值 来评估一个三元词串对于模型的重要程度,是指平滑中采用的折扣函数此函数依据方法不同而不同。Weighted Difference Pruning最后根据词串的重要程度由低到高删除词串。可以发现,对于出现次数非常高的词串,即使 的值很低也不会被剪枝。这样,系统就保存了那些确实非常“重要”的词串。
Stolcke Pruning是通过计算一个词串被删除后导致的模型熵的增加来刻度词串对模型的贡献的,词串从模型中删除所导致的熵增加为: 其中,P '表示剪枝后的模型P表示剪枝前的模型。通过这种方式,Stolcke Pruning能够高效地计算每个词串对于模型的贡献。在对模型进行压缩的时候,Stolcke Pruning设置一个阈值,所有对模型贡献(导致的熵增加)小于此阈值的trigram及bigram都从模型中删除。
Clustering 是通过将词分类的方法来压缩语言模型的。假设通过一个函数π将大小为V的词典分成C个部分,即C个类。这里π可以看作是词wi到其所属类Ci的一个映射。这时语言模型便称作基于类的n-gram语言模型,那么此时,以trigram为例,有: 此时,模型的参数个数Q便从Vn减少到Cn+V,除了n =1或者C=V这两种极端情况之外,基于类的n-gram语言模型的参数量都比一般的n-gram语言模型要小得多。
3.6 模型的平滑


Additive Smoothing[6]是最简单的平滑方式,它只在计算n-gram概率值时简单地给词串简单地加上一个一个常数δ,修正后: 分母中的是为了保证一个约束条件,即所有参数的概率之和等于1。

其中nr是指在训练语料集中出现 r次的词串个数。
Katz Smoothing[7]是对Good-Turing 的扩展,在Good-Turing上添加了高序模型和低序模型插值合并的能力,这种模型平滑方法在语音识别中得到了最广泛的应用。
Church & Gale Smoothing[8]将Good-Turing与一种称之为“桶分”(bucketing)的技术结合在一起Bucketing是一种将一个词串集合分组的技术,其分得的组参数独立。同Katz Smoothing一样,模型是在低序模型的基础上递归定义的。每一个词串根据其低序模型预测的频率被分到一个桶。每一个桶被当成一个分离的分布Good-Turing被应用于每一个桶。
Jelinek & Mercer Smoothing[9]是另一种在语音识别中广泛应用的模型平滑方法。采用线性插值的方法, Jelinek & Mercer Smoothing 有: 即最大似然模型PML与已经平滑过的低序模型进行插值平滑,至于参数对每一个都训练一个值并不一定恰当。
此外,还有很多种语言模型平滑方法,但是Katz Smoothing,Church & Gale Smoothing,Jelinek & Mercer Smoothing是应用最广泛、最成熟的方法。
4 学习心得及感悟
