词性对新闻网络话题检测的影响

　　话题检测与跟踪（topicdetectionandtracking，TDT)的研究对象是新闻媒体信息流.话题检测属于TDT的一项子任务，它的目标是检测新话题并收集后续的相关报道.但是，随着互联网的迅猛发展,话题线索会散布在各类网络平台上，而由于不同平台上的线索特征存在着差异，因此容易导致仅依赖于新闻文本特征的传统检测方法无法完全适用于各个网络平台.针对这一问题,本文重点研究词性特征在新闻与微博语料上存在的差异.为便于说明，本文首先对网络话题检测所涉及的相关概念给出如下定义.

　　网络话题检测：是指一项面向跨网络平台的信息流进行未知话题识别的技术.

　　话题:是一个种子事件或活动’以及所有与之直接相关的事件或活动.

　　事件：指由某些原因、条件引起,发生在特定时间、地点，并可能伴随某些必然结果的一个特例.

　　报道:指与话题紧密相关、包含2个或多个能独立陈述某个事件子句的,且来自于不同网络平台的文本片段.

　　在上述定义中，本文强调网络话题的线索分布在不同的网络平台上.话题检测一般可分为在线式和回顾式2种研究方式，前者的任务是在线检测当前网络报道所属的话题,而后者的目标是检测已有网络报道库中隐含的话题.本文主要研究回顾式的网络话题检测.

　　网络新闻与微博作为目前人们了解社会动态最主要的信息来源,在话题检测领域中具有很高的研究价值.尽管网络新闻与传统新闻并没有太大区别,也包含时间、地点、人物等要素，但微博作为近年来新兴的媒体传播方式之一,其文本特征与网络新闻有着明显的差异.从内容结构看,新闻一般有标题，其中包含最重要的信息’而微博没有标题;从字数上看，微博限定在140字以内,而新闻没有此限制.类似于其他文本挖掘技术,特征选取在话题检测研究中也发挥着重要的作用.更进一步,不同词性的特征词在描述话题时也会发挥不同的作用.因为在文本挖掘的研究中，选择不同的词性特征可能会导致完全不同的文本处理效果，所以，本文拟通过设计多组实验来观察词性特征对新闻和微博网络话题检测的影响,并利用对不同词性特征区分2种网络话题能力的分析,发现适合2种网络平台的最佳词性组合,为准确地进行网络话题检测提供有价值的参考.

　　1.相关工作

　　近年来，面向新闻语料的话题检测已有了一些广为人知的方法，例如K-means、CMU以及LDA等.但伴随网络新技术的出现和发展，越来越多的研究者开始将目光转向新的网络平台.如M.Cataldi等在2010年面向twitter平台数据开展了话题检测的算法研究.该算法通过时间标签来设定时间窗间隔提升正确率.同期,T.Sakaki等米用贝叶斯决策方法在twitter数据上成功地检测到80%以上的地震发生地点,但是仅能检测到预先指定的话题.在面向国内的微博平台研究中,杨亮等提出了利用情感分析检测热点事件,但是这种方法在缺少名词等特征的情况下，无法得知事件发生的具体内容.2012年,周刚等针对微博特征稀疏的特点’引入同义词扩展技术提升了话题检测的效果.

　　网络话题检测的目标是识别文本报道中隐含的未知话题，而文本挖掘技术可通过分类或聚类的思想,发现这些报道中暗藏的信息’因此文本挖掘技术是实现话题检测的一种有效方法.通常,选取不同的词性特征会对文本挖掘结果产生明显的影响.如S.Chua利用WordNet构建了4种词性集合进行了文本分类实验，实验表明名词可获得最好的分类结果，但该方法没有考虑词性组合对文本分类产生的影响.Liu等米用词性共现的方法对Sougou文本分类语料进行了聚类实验,实验结果表明选用名词、动词、形容词作为聚类特征的方法要好于传统的文档频率（documentfrequency，DF)特征选择方法，但是该研究没有通过实验去验证大部分功能词是否会对文本聚类产生影响.韩普等开展了词性对中英文文本聚类的影响研究’实验表明名词、动词、形容词和副词可提升文本聚类效果,其他词性会对文本聚类产生负面影响’但是’该实验没有针对中文新闻或微博语料集开展相应研究.

　　综上所述，目前网络话题检测的研究对象主要是针对单一的新闻语料或微博语料进行的，而且大多数研究者都是通过对聚类算法的改进来提升实验检测的效果，对词性特征的选取在话题检测中影响的研究鲜有报道.而不同词性特征的选择明显影响着文本挖掘结果的事实,也预示着词性特征的选择会对话题检测的效果产生影响.为此,本文拟利用一些代表性的现实世界中的数据,使用复旦大学汉语文本词性标注集进行特征提取与词性标注,统计不同词性特征在新闻与微博数据上的分布情况,并结合传统K-means聚类算法回顾式发现数据中的隐含话题，通过对比观察单一词性特征对2种网络平台的话题检测影响，试图发现网络话题检测的最佳词性组合.

　　2.词性标注与数据处理

　　2.1词性标注

　　实验的第1步是选取词性标注集.目前,汉语词性标注集比较权威的有中国科学院计算研究所汉语词性标注集、北京大学汉语文本词性标注集和复旦大学汉语文本词性标注集.

　　根据数据集的规模,本文选择复旦大学汉语文本词性标注集标记新闻语料和微博语料.命名实体作为文本的特征是话题检测中经常用到的特征降维方法’因此本文将命名实体标记为一种特殊的词性.在微博数据中’经常会出现“@”等特殊符号’为了研究这些符号是否会对话题检测产生影响,本文也将它们视为一种特殊的词性特征.这些细分的词性可为文本深层处理提供支撑,但是过细的词性特征会造成文本特征稀疏的问题,进而影响话题检测的效果,所以将上述的词性进行了合并处理，合并后的词性如表1所示.

合并后的复旦大学汉语文本词性标注集

　　2.2数据处理过程

　　实验选取以下2个数据集作为研究对象.

　　1) 新闻数据集:来自搜狗实验室，共953篇新闻，人工标记108个话题.

　　2) 微博数据集：来自数据堂，共2257篇微博，人工标记16个话题.

　　源新闻语料包含了搜狐新闻国内、国际、体育、社会和娱乐等18个频道的新闻报道.本文选取其中2008年历史版本中的特别版数据作为研究语料，构建仅包含文本内容的新闻数据集.微博语料采集了新浪2013年8月6日至2013年8月19日的微博数据，在预处理过程中保留了全部微博的正文内容,并按照源数据中划分的话题类标记每条微博.

　　语料预处理完成后，实验面向2种语料分别构建了2个词性空间，如图1所示.在数据处理过程中，首先，对2个数据集中的每篇报道利用FudanNLP进行分词处理,去掉文本中不含特殊符号的标点、表情符与运算符’构建2个数据集的报道词集.然后,按照表1中的合并词性对报道词集中的词进行标注’形成2个标记好词性的语料集.最后’将这2个语料集按照不同词性各划分为16个不同的文档集，每个文档集中的每篇报道仅由一种词性的词表示.为了能准确地观察单一词性特征在2种数据集的分布情况，本文在数据预处理时并没有进行停用词处理,尽量保持了文本语料的原貌.

　　3.实验及结果分析

　　3.1不同词性特征在2种数据集上的分布情况

　　实验首先对2组语料的词性分布进行了统计,统计结果见表2.从词数比例的统计结果可看出,2个数据集中名词词数比例最大,其他词性所占的比例相差不到10%.如果将每种词性的词数比例进行对比’可看到定位词、数词、量词、助词、介词与连词的词数在新闻数据集上所占的比例高于微博’形容词与特殊符号在微博数据集上所占的比例略高于新闻’其他词性特征的词数比例没有明显区别.从数量上看’每种词性在单一网络平台的数据集上所占的比例与划分话题后的平均词数比例基本相同’这说明词性特征的分布情况不会因为检测话题而改变.

新闻和微博语料的数据处理过程

　　总而言之，不同词性特征在2种数据集上的分布情况并无太大差别，这说明虽然微博长度短内容随意，但是用户在写作过程中的用词习惯较为正式.

组语料中不同词性特征统计

　　3.2网络话题检测性能评价方法

输出类-话题类矩阵表

　　网络话题检测的主要评价方法是观察报道集中文档被划分到正确话题的优劣程度.本文采用表3的方法评价话题检测性能,其中,a、6、c、d分别表示4种情况下文档的数量.为了评价需要,分别给出召回率（recall)、准确率(precision)、宏平均的定义为：

网络话题检测性能评价方法

　　本文采用经典的K-means聚类算法实现话题检测’为了保证实验效果’设定新闻文档集的聚类个数为108个话题类，微博文档集的聚类个数为16个话题类.

　　3.3单一词性特征对网络话题检测的影响

　　按照3.2节中介绍的性能评价方法分别计算召回率、准确率和厂值,实验结果如表4所示.可观察得到’词性特征会对新闻与微博的话题检测产生影响.只保留名词的话题检测效果最好.命名实体的话题检测与保留全部词性的评测结果大致相同’但词数只占全部词性的5%左右，因此通过命名实体词集进行话题检测可大大降低话题检测的特征维度.将2个数据集检测指标中的F1值进行对比，可发现动词对新闻话题检测更有影响，数词、量词与时间短语词对新闻话题检测的贡献度略高于微博，形容词对微博话题检测的贡献度略高于新闻.网址与特殊符号具有区分微博数据话题的能力，但是并不具备区分新闻报道话题的能力.命名实体与名词在2种数据集上都有较高的话题检测贡献度,其他词性检测2种语料中隐含的话题能力较弱.

单一词性特征在新闻与微博语料上的实验结果

　　从上可见,在仅选取单一词性特征作为文本特征时，名词区分话题的能力最强，命名实体也能取得较好的结果，同时可降低文本的特征维度.动词区分新闻话题的能力强于微博,而形容词区分微博话题的能力略强于新闻.其他词性的特征也会对话题检测产生影响,但影响程度要比上述4种词性弱.

新闻与微博语料单一词性波士顿分析

3.4组合词性特征对网络话题检测的影响。

　　本文目的是希望找到最佳的词性特征组合，在保证实验效果的情况下尽量降低文本特征的维度.波士顿图分析法可呈现多种特征在不同标准下的区分话题能力，因此本文将词数作为衡量特征维度的标准，将F值作为评价结果的指标，观察不同词性对实验的影响.实验将波士顿图分为4个象限，如图2所示，图2(a)(b)分别是新闻与微博的分析图，图中横轴表示词数，纵轴表示宏平均F值，每个节点代表一种词性特征.

　　为了找到网络话题检测的最佳词性组合，选取单一词性实验中结果最好的命名实体与名词作为基准词性，分别和波士顿分析过程中区分话题能力较高的其他词性构建组合.所有词性组合利用哈尔滨工业大学停用词表进行了停用词处理，希望得到最佳的话题检测结果.不同的文本向量维数w会对实验效果产生影响，本文对2组语料选择w的取值范围是[200，3000]，共14x15组实验，并采用R值衡量实验结果.详细数据见表5、6，实验结果见图3.通过实验结果可看到，在大多数情况下，两两词性组合区分话题的能力强于单一词性，但是效果并不显著.多词性组合的区分话题能力强于两两词性组合.

　　词性组合在新闻语料上的实验结果词性组合在微博语料上的实验结果

　　虽然数据集并不能代表所有语料的情况，但本文的研究可说明词性会对新闻和微博网络话题检测产生影响.通过实验可看到，在选取单一词性特征的情况下，选取名词可得到最准确的检测结果，命名实体特征维度低且可得到较好的实验结果，动词在新闻数据集上会得到更好的实验效果，其他词性的特征也会对话题检测产生影响.在选取词性组合的情况下，名词或命名实体、数词、时间短语、形容词以及量词的组合可提高新闻网络话题检测的A值，名词或命名实体、形容词、量词、数词以及特殊符号与网址的组合在微博语料上可取得较好的实验结果.

新闻与微博语料词性组合话题检测F1 值结果

　　4.结论

　　1) 2个数据集中不同词性词数所占的比例相差不大，这说明虽然微博的内容从形式上看与新闻报道不同，但是用户在编写微博时的用词方式符合传统中文用词习惯.

　　2) 在仅选取单一词性特征作为文本特征时，选取名词可得到最准确的检测结果，词数比例极少的命名实体也具有较好的区分能力.动词在新闻数据集上会得到更好的实验效果，而形容词区分微博话题的能力稍强于新闻.其他词性的影响程度不如上述4种词性强.

　　3) 在选择词性组合作为特征时，名词或命名实体、数词、时间短语、形容词以及量词的组合可提升新闻网络话题检测的评测指标，名词或命名实体、形容词、量词、数词以及特殊符号与网址的组合可较好地区分微博语料中隐含的话题.

　　在未来工作中将研究改变不同词性特征的权重值提升话题检测效果的方法，同时对比不同的分词工具对话题检测造成的影响，结合词性特征与其他特征发现2种语料中隐含的话题.

　　冀俊忠1,贝飞1,吴晨生2,柴鹰1,宋辰1(1.北京工业大学计算机学院多媒体与智能软件技术北京市重点实验室，北京100124;2.北京市科学技术情报研究所，北京100048)