生物医学事件触发词识别研究毕业论文

  引言

  为了提高对海量文本信息管理的自动化程度,许多研究学者在事件抽取领域投入了大量的精力.在生物医学领域内,做好事件触发词的识别是事件抽取中比较关键的一步,有必要对生物医学事件触发词的识别进行深入研究.在进行生物医学事件抽取研究中,针对通用的特征很难找到,且对语料的要求和依赖性对总体识别准确率的影响.本文通过对生物医学的领域知识进行学习,把事件抽取的过程简化为分类问题,经过文本信息的预处理、事件触发词的识别、事件元素识别、后处理,其中在事件触发词识别的过程中,采用支持向量机(SVM)多分类任务来处理.通过实验,该方法有效地实现了触发词的识别与抽取.

  1生物医学事件抽取的相关知识

  1.1信息抽取

  面对海量的信息,能够对信息进行自动分类、提取和重构,使人们快速从中获得有价值的信息,这就称为信息抽取技术,传统的信息抽取系统在实现方法上与其他自然语言处理问题的研究方法类似,并且笼统地划分为基于机器学习的统计方法和基于分析的方法.

  1.2机器学习

  机器学习是人工智能领域的一个重要研究方向,它能够让我们从数据集中受到启发,利用计算机来彰显数据背后的真实含义,是机器学习的目的.分类是机器学习的主要任务.

  1.3生物医学事件抽取

  事件抽取实质上是指基于实体层面的信息抽取,它既抽取指定的一些动作,还抽取动作与实体之间的关系.

  1.4SVM

  SVM是建立在统计学习理论(STL)的VC维理论和结构风险最小原理的基础上的,它是根据有限的样本信息在模型的复杂性之间寻求一个最佳的折中,来获得好的推广能力.SVM的基本思想主要是在向量空间中找到一个决策平面,找到的平面能“最好”地分割两个分类中的数据点.而SVM分类方法就是在训练集中找到具有最大类间界限的决策平面.假设给定ωTnew+b,标准支持向量机使用线性决策边界来给新的对象进行分类.将落在这条线一边的对象分类为tnew=1,另一边对象分为tnew=-1(特别注意类别标记为{1,-1}).由此可知支持向量机对一个新测试点new的判定函数定义为tnew=sign(ωTnew+b).学习的任务包括基于训练数据选择ω和b,这里我们主要是通过寻求最大化间隔的参数来实现的.

  1.5句法分析

  句子是由词通过特定的形式组织起来的,如果能够从句子中发现不同词语间的句法关联,那么我们就能够更好的理解句子的含义.经过句法分析,我们就可以从字符串中去找到语义结构,那么如何找到一个合适的分类决策成为句子分析的主要挑战.Gdep(GENIADependencyparser)是由日本东京大学的KenjiSagae开发的专门针对生物医学文本的依存分析器,它是在GENIA语料库下训练的.

  1.6评测方法

  准确率(P)和召回率(R)是衡量评测效率的两个重要指标.其中准确率衡量的是系统寻找到真正相关事件的可靠程度,而召回率衡量的则是系统寻找到相关事件的能力,二者紧密相关,缺一不可.要寻找的事件的集合用A表示,系统找到的事件的集合用B表示,则准确率P=A∩BA,召回率R=A∩BB,其中:||表示集合的大小;F表示准确率和召回率的调和平均数,用公式表示为:F=2PRP+R.由于调和平均数强调的是较小的那个值,所以F更容易被较小的值影响,偏向较小值的方向,所以F值更适合对准确率P和召回率R来评价.

  1.7语料

  本文采用的是标注的语料集,是BioNLP’13中GE(GeniaEvent)任务的语料集.GE语料中有“全文”和“摘要”两个集合,全文是指新标注的全文论文,通过这种方法来增加语料的多样性,这样可以使训练后的系统具有更强的泛化能力.全文主要由标题、摘要、方法和结果等部分组成,不同的部分所具有的目的也完全不同,从而造成获取到不同的信息类型.摘要中的数据与BioNLP’09中的评测数据相同.

  2基于SVM方法的生物医学事件触发词识别

  事件是指关于某一主题的一组相关描述.事件抽取的任务主要分为元事件抽取和主题事件抽取.本文借鉴了基于HMM的生物医学命名实体的识别与分类、基于多类型特征的生物医学事件触发词识别中介绍的方法来对生物医学事件的触发词进行识别.当前触发词的识别方法主要有三类:基于规则的方法、基于字典的方法和机器学习的方法.本文利用丰富的上下文信息、语义信息,首先通过组织各种不同类型的信息,然后把它们统一表示为SVM下的特征,最后利用多分类方法解决触发词识别的问题.

  2.1语料预处理

  BioNLP’13中的GE语料是以全文的一部分或每个摘要作为一组,每一组中都包含:“.txt”、“.a2”和“.a1”三个文件.例如:在文档号为“PMC-1310901-00-TIAB.txt”、“PMC-1310901-00-TIAB.a1”、“PMC-1310901-00-TIAB.a2”文件中.这三个文件中,txt、a2和a1分别表示摘要原文本的内容、摘要文档中触发词和摘要文档中已标记的蛋白质.

  2.1.1语料格式BioNLP共享任务(ST)数据使用格式类似于2009和2011年的BioNLP共享文件格式.在语料格式表示中,文本文件是分开注释的.所有注释文件格式遵循的相同基本结构,每一行包含一个注释,每个注释ID出现在第一行,其余的注释随类型的不同而变化.

  2.1.2语料预处理流程由于在总体事件中,跨句事件低于1%比例的事实情况,而同时在寻找跨句事件的过程中,通常也会引起过多的噪音.鉴于这些情况,我们在本文中只对一个句子中的事件进行详细研究.所以需要预处理GE语料.

  (1)首先对GE语料中各文档的txt文件进行分句处理.

  (2)由于在GE语料中,a2及a1文件中的触发词、蛋白质都是标明的位置,如T84Binding28452850binds表示触发词“binds”在这个文档中某种事件的标识为T84,类型为“Binding”,所处理的对象是以文档中起始位置开始记录的第2845个字符一直到其后面的5个字符之间的所有字符串.所以通过对文档分句后,就要重新计算这些触发词、蛋白质的位置,并让它们转化为分句处理后在各自句子的位置.

  (3)由于按词语进行分析是Gdep分析器的主要功能,并且部分蛋白质是由两个或更多的词构成,因此在进行句法分析前,我们需要先替换蛋白质,统一以“protein+序号”的形式将语料中给出的蛋白质替换掉,然后再对分句处理后的语料进行分析.

  (4)用Gdep句法分析器进行句子的分析处理后,每个句子中的每个词的依有关系及依有关系子节点,另外还有词干化结果、词性等相关信息就会清晰呈现出来.

  (5)分析Gdep得出的结果,弄懂每行的基本信息,可以看出句子中的每一个词分别占一行.每个词的基本信息都在对应行清晰显现.通过观察分析可知:该词的依存关系中父节点的位置是每行倒数第二个位置上的数字,该词在句子中所处的位置则是该行最前面的数字.

  (6)建立候选词词典.候选词词典在建立的过程中通常会引入大量噪音,进而特征的可用性就会随之降低.鉴于此种情况,候选词词典中只放入训练集中出现的触发词,即将所有a2文件的触发词抽取到一个文件中,这样就建立了候选词的词典.而对于候选词,则必须要先在触发词词典中进行匹配,然后才能进行提取特征.

  2.2提取上下文特征

  提取上下文特征主要是从处理后的语料中得到的.其原理是根据候选词本身以及其所在的位置、词干化和词性等特征进行提取.其具体的特征主要有:

  (1)词特征.它主要包括候选词词干化的结果、候选词本身和候选词词性以及词袋特征.其中N窗口表示与候选词左侧和右侧相距最远为N个词的距离.由经验得知,N=5时效果最佳.所以实验中窗口的大小我们也采用N=5.

  (2)特定位置特征.对触发词的识别有重要影响的还有判断候选词周围特殊位置的词.如果候选词“transcription”左边的第一个为“T-box”,右边的第一个词为“factor”.我们就会把该特征记录为“Candicate_left=T-box”“Candicate_right=factor”.同样也会考虑左右第二个词.由经验可知,如果考虑太多位置,则会引入更多噪音,同时还会出现数据稀疏问题.

  (3)N-gram特征.N-gram特征更多的是考虑周围词与候选词的关系.由于这个特征,从而使得特征的可辨识度得到了进一步提高,同样是由经验可知,2-gram和3-gram时效果最好.如对于“Down-regulationofinterferonregulatorfact4geneexpressioninleukemiccellsduetohypermethylationofCpGnotifsinthepromoterregion.”的候选词expression来表示,它的3-gram特征则表示为“3-gram-left=4geneexpression”,它还可以表示为“3-gram=geneexpressionin”或“3-gram-right=expressioninleukemic”.

  (4)与给定蛋白质的距离特征.已标识的蛋白质对于判断是否为触发词能起很大作用.因此我们可以利用蛋白质及候选词之间的单词个数(距离信息),通过下边的公式将两者间的距离特征变为特征值.在score(d)=iemax(d,β)-β+0.01公式中的d表示的是候选词与蛋白质之间的距离,β作为阀值进行调节,从而确定出β取什么值时F的效果最好.

  2.3提取语义特征

  在语料预处理过程中,我们已经通过Gdep句法分析器进行了分析,分析结果可以用语义上下层关系表示出来,从而得到一个树形结构,即依存分析树,因而可以利用语义信息进行特征的提取。

  2.3.1语义特定位置特征由于父节点只有一个,而子节点可能有多个,考虑到语义特定位置的特殊性,需要提取子节点和父节点两种特征.对子节点只提取子节点特征,而对父节点则需要提取父节点和父节点的父节点特征.

  2.3.2语义N-gram特征为避免出现数据稀疏的现象,只取N=2时的特征,这里不仅需要考虑词,还需要考虑是否有依存关系.比如对于候选词“silencing”的2-gram特征表示为:

  ①不考虑依存关系的子节点方向的特征为:“semantic-2gram=silencingthe”和“semantic-2gram=silencingof”;

  ②不考虑依存关系的父节点方向的特征“semantic-2gram=ofsilencing”,考虑依存关系的父节点方向特征“semantic-2gram-dependency=ofPMODsilencing”;

  ③考虑依存关系的子节点方向的两个特征分别为:“semantic-2gram-dependency=silencingNMODthe”和“semantic-2gram-dependency=silencingNMODof”.

  2.3.3根路径特征由上例的依存分析树图1可以看出,“rootremainedcauseofsilencingoflevelProtein206”是存在于root与指定蛋白质“Protein206”之间的一条路径,基于主要的节点都在这条路径上,我们可以把它看作是句子中的一条关键路径.我们之所以把该词和其父节点是否在根路径上作为一个特征,是因为通过在训练集中的统计发现:触发词本身或其父节点出现在根路径上对于触发词的判别有很大作用.例如“silencing”这一候选词的根路径特征可表示为:“semantic-in-rootpath=1”和“semantic-father-in-rootpath=1”.

  3实验结果与分析

  3.1实验

  在BioNLP’13的GE语料中,我们发现有Geneexpression(基因表达)、Transcription(转录)、Proteincatabolism(蛋白质分解代谢)、Phosphorylation(磷酸化)、Localization(定位)、Binding(绑定事件)、Regulation(调控)、Positiveregulation(正向调控)、Negativeregulation(负向调控)这9种类型.如果我们把在候选词中出现的每个词都看作候选词,然后对它的语义特征和上下文等特征进行提取,将触发词的识别作为一个多分类的过程任务,则需要分成10类,因为这里还要考虑到判断该候选词是否为触发词这一任务,所以多了1类.我们用SVMlight工具进行分类训练。为了便于比较与说明,在这里我们将上文中提到的各种特征进行重新划分和分类:SF类特征、Base类特征和RP特征.其中Base类特征表示上下文特征,SF则表示除根路径外的语义特征,RP表示的是根路径特征.为了对本文方法的有效性进行评估,对目前文献中提出的主题词抽取方法进行了对比分析.不同算法下的性能对比Fig.2Performancecomparisonchartofdifferentalgorithms

  3.2实验分析

  中可以看出,我们的系统在简单事件上取得了很好的效果,在4种系统中F值最高.在所有事件的比较中,我们的准确率很高,F值较最好的FAUST系统有一些差距,但与同样基于分类方法的UTurku系统和MSP-NLP系统相比,本文的SVM-BASED系统的结果要好很多.

  4结束语

  本文在前人关于生物医学文献的事件抽取进行研究的基础上,提出了基于SVM的生物医学事件触发词识别探索.在生物医学信息领域,触发词表示的是实体间的复杂关系,大部分触发词的识别都将转化为触发词分类问题.基于SVM方法的生物医学事件触发词的识别是能够基于训练集自动学习的.它主要是利用特征集训练出触发词识别的分类器,从而进行触发词的识别.本文主要研究了目前生物医学事件抽取的研究背景、主要方法,阐述了生物医学事件抽取的相关理论,并对语料进行处理,利用SVM方法训练出模型进行触发词的识别,这种方法具有较强分类能力.由于本文主要是基于标注数据进行研究的,而在实际的生活中,标注数据的代价很大,所以利用未标注的数据进行触发词的识别是以后工作研究的重点。

相关推荐