论文范文

论述规则和统计相结合的句法分析一致性检验论文

时间:2021-03-25 09:05:25 论文范文 我要投稿

论述规则和统计相结合的句法分析一致性检验论文

  句法分析就是对词语的语法功能和句子的结构进行分析。句法分析的研究方向通常是依据一个大规模的句法分析树库,通过分析研究,建立统计模型。如果句法树库的准确率不高,将会降低句法树库模型的学习效果,进而影响自动标注句法分析结果的质量。目前出现的汉语句法分析自动标注的模型较多,但是完全句法分析自动标注的准确率不是太理想,为了构建高质量的大规模树库,需要投入大量的人工和时间。通过遍历完全句法分析树库发现,人工标注结果存在的不一致现象非常普遍。为了提高句法树库质量,本文采用的方法是通过分析标注错误的现象,编写规则和建立统计模型,自动查找标注错误的地方,对于单个标注错误的地方自动修正。

论述规则和统计相结合的句法分析一致性检验论文

  国外许多研究者在建立句法分析模型方面做出了很多探索。斯坦福大学的Roger Levy等人提出了分析汉语语料的困难,他们通过分析汉语语料库发现,一些类型的标注错误是由于汉语语法内在的歧义引起的。有些错误是标注经验导致的。通过最大似然估计PCFG特征模型,能够提高句法分析的准确率。针对汉语树库完全句法分析一致性检验的研究,目前国内不是太多,较多的是关于句法分析自动标注的解决方法。詹卫东等人分析句法格式,总结了很多句法结构歧义类型,分析特征,并通过检查树库统计了典型类型的数量。魏莉等人分析完全句法分析语料库,探索分词标注、词性标注和句法结构标注三个方面的错误现象,发现并修正。这些研究方法对于句法分析一致性检验有很好的借鉴作用。

  本文采用的方法是选择完全句法分析树库的部分语料进行研究,分析标注错误的现象,从单个句法分析标记不一致和句法分析层次结构标注不一致的现象中学习,使用基于规则和统计相结合的方法检查发现不一致问题,并通过人工或机器自动修正。

  一、完全句法分析不一致现象

  遍历完全句法树库,通过分析发现,可以总结为两种类型的不一致现象,一种是单个的句法标记,另一种是句法结构标注。完全句法分析树库中的标注一般有两类,功能标记和结构标记。功能标注主要是分析句法成分的组合关系。结构标记主要是体现句子的语义关系。

  引起人工标注的完全句法分析语料库不一致现象的原因有很多,包括标注者对标记的理解程度,标注经验,以及标注的专注程度。由于参与构建大规模句法树库的人员众多,理解方式的不一致很容易引起标注不一致。不同标注者可能发生标注不一致,同一标注者可能标注前后不一致。因此很有必要通过机器进行检查,修正这些现象,提高完全句法树库的准确率。

  (一)单个句法分析标记标注不一致

  对于人工标注的标记符号错误的地方,可以直接设计算法,抽取所有标记一一和标记库进行对比。完全句法分析树库的两种标记功能标记和结构标记都有可能出现标注不一致现象。通过遍历树库发现不一致,并进行分析。

  由于汉语中有很多兼类词,因此会出现同一词汇标注的词性不一样,进而功能标记和结构标记都会发生变化。例如短语“临出发”“陆”是一个兼类词。临这个字在语料中出现了标注不一致现象,一种标注为动词,相应为述宾结构,动词性短语;另一种标注为介词,相应为介宾结构,介词短语。按照汉语语法“陆”放置在动词“出发”前,应该理解为做介词用。因此正确的标注应该是介词,介宾结构,介词短语。可见,兼类词是检查的重点,词性标注错误可能会导致功能标记和结构标记标注错误。

  (二)句法分析结构标注不一致

  完全句法分析与浅层句法分析不同,分析标注的是整个句子的结构关系。各个词语之间的层次关系可能会出现组合顺序的不一致。特别是嵌套的句法结构,很容易有歧义。

  例如短语“喜欢说话的女孩”。可以有两种理解。一种是描述一个女孩她喜欢说话,理解为“喜欢说话”是用来修饰“女孩”的,此短语整体看是定中结构。另一种可能是某人喜欢的是说话的女孩,而不是没说话的女孩,仅“说话”这个词修饰“女孩”,此短语整体看述宾结构。

  可见,不同的理解句法分析标注的结构会出现不一致的现象。这就需要根据上下文语境,判断应该是哪种标注结果。

  二、完全句法分析一致性检验策略

  完全句法分析一致性检验的目的是发现不一致现象,并修正错误的句法分析标注。引起不一致的原因是多元的,但是可以归结为以上两种,通过分析这些错误标注的不一致现象,我们发现需要选用不同的检查方式来处理。

  (一)基于错误驱动的单个标记不一致校验

  针对单个句法分析标注不一致的问题,可以使用基于错误驱动的方法来发现不一致现象并修正。错误驱动的方法是指分析提取错误标注的特征,编写相应的转换规则,使用规则去检查整个语料,自动发现错误标注现象,并进行修正。单个句法分析标注的问题是结构标记和功能标记标注不同引起的。修改单个句法分析标注并不影响句法结构层次的变化,可以使用句法标记规则统一修改。

  具体的操作步骤可以通过一个例子进行观察。例如“陆出发”这个短语,他是介词加动词的结构,检查上述结构类型的句法和功能标记的`标注问题。当遍历句法分析树库时,如果发现有标错的现象,即介词加动词的结构,但没有被标注成介词短语,介宾结构,就可以针对错误的标记,通过错误转化方法,使用规则检查并修改成正确的标记。用这个规则去检查其他的标注错误现象并自动修正。此方法可以归纳为三个步骤:找到错误,编写规则和修正错误。

  (二)句法分析结构标注不一致校验策略

  完全句法分析剖析的是整个句子的结构。仅仅基于规则的句法标注检查是不可靠的,基于大规模语料的统计的方法更为有效。张浩等人也是通过分析语境,选用中心词作为切入点,建立PCFG模型句法分析器,使得句法分析器的效果得到提升。此外,周强等人也提出通过分析句法结构中组合的先后次序,使用概论统计模型来判断句法分析标注结果,使得句法分析的准确率得到提高。针对本文探索的问题,如何判断句法分析标注的层次标注问题也是需要分析语境,根据句子的语义,词语之间的关系,分析词语是如何组成短语,短语是如何组成句子的。针对句子层次结构组合的不一致不可能通过规则的方法修正,但是可以通过建立统计概率模型,发现可能出现句法层次结构标注错误的地方,然后进行人工修正,这样节省了时间和人力。

  句法层次结构和句中词语之间的紧密程度有关。句中的某一个词语是先和左边的词语结合,还是先和右边的词语结合,这是一个二选其一的问题,除了句子的首个词语和末尾词语。我们通常认为,在语境相同的情况下应该有相同的结合顺序。对于大规模完全句法树库,我们可以利用分类的方法,支持向量机(SVM)来解决。核函数可以选择高斯核函数。

  建立概率统计模型,需要选择特征作为判断的依据。完全句法分析树库的基层标注信息是分词和词性。Dan Klein等人提出了非词汇的PCFG模型,取得的句法分析效果也较词汇化模型更简单。可见,词语即词的外部形态千变万化,不容易把握规律。但是词性的标记却能反映词语内在的功能,影响功能标注和语法标注的结果。针对句法分析中左右组合的问题,可以通过核心词语及待判断词语它的词性及其上下文词性环境来做出统计,建立特征模型。

  首先要界定语境的范围,通过实验发现选用前后四个词语进行统计时,计算的空间和时间代价比较合适。然后遍历完全句法分析树库,通过概论统计的方法,计算这些词语的词性和词语转移概率,这样可以看出词语间优先组合的频率。训练数据得到后,将核函数引入,通过参数的调节,寻找一个超平面将高维空间分割成两半。用这个训练得到的结果再去分析测试语料,就可以给出左右结合的判断结果。如果树库语料的组合结果与概率模型的统计结果不一致,就需要人工进行判断,进而修正标注。

  三、结论

  我们对10000句完全句法分析树库进行测试,实验结果显示,单个句法分析标注不一致的现象占到整个检测结果的31%,句法分析结构标注不一致的现象占到69%。句法分析不一致检查的准确率为87.6%,召回率为94.8%。

  关于准确率的问题,通过分析发现主要是有两方面原因。针对单个句法分析标注不一致的问题,使用的修正规则中有些是不适用的,有些问题不能一刀切。针对句法分析结构标注不一致的检查,我建立的统计概率模型考虑的特征还不够多,没能真正反映左右组合的规律。需要进行深入反复的研究实验。

  召回率的结果反映出,单个句法分析标注和句法分析结构标注的问题确实是不一致现象的根源,通过错误驱动的方法和概率统计模型的方法能较好地完成检查不一致的任务,对于单个句法标记的问题可以查找并自动修正,但是对于句法分析结构问题仍需要人工修正。

  为了构建高质量的完全句法分析树库,进行句法分析的一致性检查是一项必要的工作。如果树库存在大量的不一致现象,必然影响完全句法自动分析器的训练效果。针对汉语的语言现象进行句法分析是一项较难的课题,由于汉语的语法形式丰富,语义多样。如何提高句法分析的准确率,还需要进一步研究。

【论述规则和统计相结合的句法分析一致性检验论文】相关文章:

论述工商管理毕业论文的选题和撰写技巧论文08-02

CBL和PBL与Seminar相结合的教学模式在医学检验教学中的应用的论07-20

论述中国电子商务发展的环境和前景论文11-05

血液细胞检验医学检验的论文08-17

医学检验向检验医学的转变论文01-05

检验医学与医学检验论文08-17

医学检验大专班教学和实习的思考论文07-29

医学检验的相关论文12-01

临床检验中影响尿液检验的因素论文01-19