摘 要 基于统计的文本过滤方法比较适用于主题过滤,对具有倾向性的文本进行过滤的效果不理想。本文提出了一个倾向性文本过滤的方法,在采用语义模式分析的同时,引入了特征区域权重因子,实验表明其查准率、查全率较高。
关键词 文本过滤;语义分析;语义模式
1 引言
随着信息社会的不断发展,人们面临的信息日益剧增,如何更准确、有效地找到自己感兴趣的信息,过滤掉与需求无关的“垃圾”信息,成为了一个重要的研究问题,内容过滤技术也就应运而生。
目前,网上信息大多是文本形式,所以内容过滤大多是针对文本的。所谓文本过滤指的是从大量文本中找出满足用户需求的文本的过程,它对于文本信息处理具有重要意义,另外,它也可以实现对网络中不良信息的自动过滤,从而保障网络的安全。
网上的不良信息包括暴力、色情、邪教等主题,主题性信息过滤大多采用基于统计的过滤技术,利用关键词匹配技术来实现,这种方法只能过滤出与主题相关的文本,不能区分出文章的立场和态度。而有些文章虽然也包含相关的主题,但却可能对主题持有不同的立场,例如包含“******”主题的文章,有些是站在批判******的立场上来表达观点的,有些却是站在支持******的立场上的,因此对这类信息进行分析时,不仅要分析其主题内容,还要分析它的立场和态度,即它的倾向性,采用基于统计的主题过滤技术是不能较好地解决这种过滤要求。要解决这个问题,除了要进行主题分析外,还要对文本进行语义分析,理解文本表达的主题思想,弥补统计方法缺乏语义信息的弊端,从而更精确地满足用户的信息需求。
本文提出了一个基于语义分析的信息过滤方法,除了对文本进行语义分析外,还充分考虑了文章主题词所在特征区域的重要性,在计算文本的倾向性指标时增加了特征区域权重因子,能更准确地过滤出倾向性文本。
2 倾向性文本语义模式分析
2.1 文本语义模式
目前的自然语言理解技术还不能全面而精确的解析和表达文本的主题思想,而倾向性文本过滤通常用于特定领域,语义分析只需基于特定领域知识,无需对文本进行全面的语义分析,只要分析出不同的倾向性。因此,对文本进行语义分析所产生的语义单元不必过细,可以简化。语言学家CharlesJ.Fillmore于1986年提出了“格语法”[1]的概念,对于文本分析采用简化的局部分析的方法,语义分析采用格语法。格语法以动词为中心研究语句的深度结构,认为句子的其他成分都是对动词的修饰,每一种修饰称为一个“格”。一个句子以动词为中心词,动作的施加者称为施事格,动作的承受者称为受事格,动作的地点称为地点格等,而格关系则是谓词和格之间的语义关系。对于倾向性分析,最重要的语义关系是施事格和受事格,其他的格对于倾向性影响较小,当文本中出现了与句子中各个角色关系相对应的格(即句子结构)时,才能判断为相关。
为了表示语句中的语义关系,本文采用了简化的语义模式来表示文本的基本语义框架。在进行语法和语义分析时,根据动作的施加和接受,可以将文本分为4种语义模式:
(a) 主(Who)、谓(What)、宾(Whom)模式
(b) 主(Who)、谓(What)模式
(c) 动(What)、宾(Whom)模式
(d) 关键对象(Who)模式
在许多文本中,有些主体、行为或个体本身就表现出对问题的倾向,如个体“非法邪教”、行为“欺骗”本身就已经反映了强烈的倾向性,模式d中把具有这种特性的主体、行为或个体统称为关键对象。
2.2 过滤模板的表示
对于文本的倾向性过滤要求的表达,同样可以忽略句子中对倾向性影响较小的时间、地点等因素,因此我们采用如下简化的过滤模板来表达文本的语义关系(见表1)。
表1 过滤模板的表示
表1中,Relevancy表示相关度,它代表不同的语义模式对作者观点的倾向性的权重,用正值表示正相关,负值表示负相关,Relevancy的绝对值越大,则表示倾向性越强。采用这种设置可以正确的判断在正面信息中引用负面信息的情况,例如,在过滤宣扬******的反动信息的过滤模板中,批判******的语义模式就具有负的相关度,这样可以避免在批判******的文本中引用了******言论而导致倾向性误判的情况。
3 倾向性文本过滤方法
3.1 过滤步骤
对文本的过滤过程分为3个步骤:
(1)对文本进行语法和语义分析,切分出每个句子中的语义模式。
(2)根据文本所在的特征区域和对应模板的相关度,计算该语义模式的加权相关度。
(3)计算全文语义的相关度,与过滤阈值进行比较,若相关度大于阈值,则认为该文档与过滤模板匹配。
3.2 相关度权重设置
不同的语义模式对作者的倾向性观点的表现能力是不一样的,因此,过滤模板中不同的语义模式的相关度一定是不同的,表示正面倾向的语义模式设置为正权重,表示反面倾向的语义模式设置为负权重,比如,批判******的各模式权重可分别设置为1~ 4,宣扬******的各模式权重可分别设置为-1~ -4,绝对值越大表示该种倾向性越大。
3.3 特征区域权重设置
文本特征区域是文本能够体现文章主题思想的重要区域 ,它包括主标题、副标题、摘要 等区域。国内有人抽样统计,中文期刊自然科学论文的标题与文本的基本符合率为98%,新闻文本的标题与文本主题思想的基本符合率为91% ,绝大多数文章都有标题,所以标题是主要的文本特征之一。基于上述的考虑,这些重要的特征区域单元,对文本的倾向性具有较强的支持作用,它们的存在可以在很大程度上决定文本的倾向性,比如,文章的标题中已经表明了作者的正面倾向性观点,而在文章中为了批判反面观点而大量引用了反面言论,若不考虑特征区域的作用,可能会将文章误判为具有反面倾向性。因此,对这些特征区域中的语义模式的相关度应赋予较大的权重,而其他区域的相关度应赋予相对较小的权重。
一般来说,文章中不同区域的文本对主题思想的表现力是不同的,因而,不同的特征区域对文本的倾向性的支持强度也是不同的。例如,标题区域是最重要的特征区域,层次越高的标题,它对文本的倾向性的支持强度越大,它的权值也应该越大,所以,不同特征区域的相关度权重也应是不同的。
网上检索到的文章通常是HTML网页的形式,HTML网页中有多种标签,如Title,H1~H6,P,B,I,U,DL,OL,UL等。对于HTML的不同标签一般可分为2大类,一类是标题类,主要包括Title(主标题),H1(一级标题),H2(二级标题),H3(三级标题),H4,H5,H6等;另一类是正文体,包括各种段落、字体、链接锚等标签。因此可以利用这些标签来确定文本或段落所在的位置,从而确定该文本中的语义模式对应的特征区域权重。出于算法处理的方便和快速性考虑,本文主要选择几个常用的标题类的标签来确定特征区域位置,而正文体类对应的位置均按同一权重进行处理。
综上所述,特征区域的权重函数P可以定义
其中,P1P2P3P4P51
3.4 相关度计算和过滤阈值确定
对于每个句子中分析出的语义模式,根据它所在的文本特征区域,首先计算出该语义模式的加权相关度,然后再对所有的语义模式的加权相关度求和,计算出全文语义相关度。假设D为待滤文本,该文本中分析出的第i个语义模式的相关度为Ri,其相关的特征区域权重为Pi,其中i=1,2,3,……,n,则全文语义相关度Rglobal的计算公式
这样计算出的全文语义相关度能充分的考虑到特征区域对倾向性的贡献度,并可以消除因引用反面信息而造成的误判。例如,正面文章中可能引用一些反面信息,出现这类语句的语义模式的相关度可能会小于零,而其他大部分语义模式的相关度是大于零的,而通过上述公式计算出的整篇文章的全文语义相关度还是大于零,因此不会误判倾向性。
为了提高对较小的文本的过滤效果,过滤阈值采用全文语义相关度与文本长度的比率,设过滤器阈值为T,|D|为待滤文本D的长度,比值计算公式
当该比值大于设定的阈值T时,则认为待滤文本D与过滤模板匹配。
4 实验结果
为了测试本模型的过滤效果,尽可能多地从网上收集并筛选出了190多份网页文本样本,分为如表2所列的3类文本。
表2 实验语料
选取的语料库既包含正面信息的语料,又包含负面信息的语料,目的是为了能过滤掉负面信息的文本,对正面信息和无关的文本放行。实验系统分别使用“引入特征区域权重因子的语义分析方法”和“基于统计方法的KNN分类方法”进行了同样的实验,2种方法的各项指标的实验结果如表3:
表3 实验结果
从实验结果来看,本系统过滤的准确率达到98.6%,比KNN方法高出15.6个百分点,查准率有较大的提高。另外,查全率也比KNN方法高出15.3个百分点。
5 结束语
本文提出的倾向性文本过滤方法,通过分析文本特征项之间的语义关系,引入特征区域权重因子,计算全文语义的加权相关度,来判断文本的态度和立场,达到内容审查过滤的目的。实验表明,系统具有较高的查准率,对于特定领域的倾向性文本可以高效地进行过滤。需要说明的是,语义模式的建立与维护需要相关的领域知识,对过滤效果有直接的影响,另外,语义模式的权重和特征区域的权重也需要人工确定。下一步的工作可以采用统计方法对相关度和特征区域权重进行训练,针对不同的领域确定更恰当的权重,进一步提高查准率和查全率。
参考文献
[1]Filmore C.J.,The Case of the Case.In:Bach E.,Harms R.(eds) Universals in Linguistic Theroy,New York,Holt,Rinehart and Winston,1986
Bondale N,Malvor P,Vaidyanathan A,Rao P V S. Extraction of information from open-ended questionnaries using natural language processing techniques[C].Comput.Sci.Inform,1997,7.29(2):15-22
金峰,刘永丹等.一个倾向性文本过滤系统的设计与实现[J].计算机工程与应用,2003,(30):137-140
尤文建,李邵滋,李堂秋.基于词汇链的文本过滤模型[J].计算机应用研究,2003,(9):32-35
刘伟权.自然语言理解与汉语文本信息处理理论研究[D].北京:北京邮电大学,1997
战学钢,姚天顺.基于汉语分析的中文分类方法[C].98中文信息处理国际会议.北京:清华大学出版社,1998
相关文章
学术参考网 · 手机版
https://m.lw881.com/