您当前的位置:首页 > 文学论文>新闻论文

官方微博与门户网站新闻语体的计量对比分析

2015-10-22 11:45 来源:学术参考网 作者:未知

  中图分类号:G20 文献标识码:A 文章编号:1003-1502(2014)04-0107-05

  一、引言

  官方微博新闻是由微博平台官方认证的企业、机构、媒体等非个人组织发布的新闻。在官方微博新闻中,不仅有文字,还可以有图片、视频、网络链接等。一般来说,每篇官方微博新闻的字数限制在140字内。门户网站新闻是以各大门户网站名义发布的新闻。与官方微博新闻一样,门户网站新闻中也可以有文字、图片、视频、网络链接等。然而与官方微博新闻不同的是,门户网站新闻并没有篇幅上的限制。

  计量语体分析就是采用计量的方法来研究语体。计量语体分析“隐含着对比的原则,因为任何‘量’在语体研究中作用的发挥和大小,取决于与另外一个或几个量的对比”。[1]虽然官方微博新闻和门户网站新闻都属于网络新闻,但是由于它们在传播方式、目的以及受众等方面不尽相同,所以二者在语体上也存在着一些差异。本文在真实语料的基础上,采用计量的方法对官方微博新闻与门户网站新闻进行对比分析,探讨它们在语体上的差异。

  二、语料及研究方法

  本文语料包括官方微博新闻样本和门户网站新闻样本两部分。官方微博新闻样本选自新浪新闻中心官方微博的“头条新闻”,我们随机选取了其中的100篇原创新闻为样本(共12381字),组建了官方微博新闻文本语料集合,命名为GFWB。门户网站新闻样本选自中国广播网、中国新闻网、新华网等门户网站,我们随机抽样选取了其中的100篇原创新闻为样本(共142382字),组建了门户网站新闻文本语料集合,命名为MHWZ。

  在获取样本之后,我们采用中国传媒大学“有声媒体语言资源网传媒语料库”的在线分词标注系统,①按照粗颗粒度②对GFWB和MHWZ进行切词和词语标注,提取出词汇层面和语法层面语体标记的数据;在数据分析的基础上,我们探讨了官方微博新闻与门户网站新闻语体上的差异。

  三、词汇层面上的差异

  我们选取词汇密度(lexical density)、词型例比(type and token ratio)、词长、缩略语、成语和惯用语,作为官方微博新闻与门户网站新闻词汇层面的语体标记。

  (一)词汇密度

  学者Ure[2]将词汇密度定义为文本实词数与文本词汇总数之比。她的研究表明,英语口头语体的词汇密度在40%以下,书面语体的词汇密度高于口头语体。词汇密度的计算公式如下:

  词汇密度=■ (公式1)

  按照公式1,我们计算出GFWB的词汇密度为82.06%,MHWZ的词汇密度为80.87%。官方微博新闻的词汇密度略高于门户网站新闻。一般来说,词汇密度越大,书面化程度就越高。

  (二)词型例比

  词型例比是词例数(type)与词型数(token)之比。词型例比越低,词汇就越丰富,“书面语体一般比较舒展、严密,词汇量也较口语丰富”。[3]词型例比的计算公式如下:

  词型例比=■ (公式2)

  按照公式2,我们计算出GFWB中的词型例比为2.47,MHWZ中的词型例比为7.22。官方微博新闻中的词型例比明显低于门户网站新闻。也就是说,在词数相同的情况下,官方微博新闻中的词汇比门户网站新闻更丰富。

  (三)词长

  我们在词长这部分主要分析了平均词长和词长分布。

  平均词长是总字数与总词数之比。书面语体的平均词长高于口头语体。平均词长的计算公式如下:

  平均词长=■ (公式3)

  按照公式3,我们计算出GFWB的平均词长为1.82,MHWZ中的平均词长为1.68。官方微博新闻的平均词长略高于门户网站新闻。

  我们还对GFWB和MHWZ中的词长分布进行了统计,见下表:

  从表1来看,GFWB中1字词和2字词的总比值略低于MHWZ,而3字词以上(含3字词)的总比值却高于MHWZ。GFWB和MHWZ中3字及3字以下词的总比值分别是0.95698和0.98174。这说明官方微博新闻更倾向于使用3字及3字以上的词, 门户网站新闻则更倾向于使用3字及3字以下的词。“词长在一定程度上代表了语言单位的复杂性”。[4]邓耀臣、冯志伟的研究表明,“音节数较少(小于等于3)的词汇在口语体中的平均使用频数明显高于书面语体”。

  (四)缩略语、成语和惯用语

  缩略语是“从已相对稳固了的较复杂的词或短语中抽取其主要成分,形成简短的词语,表示与原词语相同的意义”。[5]“成语是指历史上沿用下来或群众中长期流传、见解精辟并含有特定意义的固定短语”。[6]“惯用语是口语中形成的表达一种习惯含义的固定词组”。[6](143)

  我们对GFWB和MHWZ中缩略语、成语和惯用语的总比值进行了统计。总比值代表某类词语在语料中所占的比重。词语的总比值越高,使用频次就越高。GFWB和MHWZ中的缩略语、成语和惯用语的总比值见下表:

  根据表2中的数据,我们计算出GFWB中缩略语的总比值比MHWZ高79.11%,成语的总比值比MHWZ高5.52%,而惯用语的总比值则比MHWZ低3.81%。③   官方微博新闻中缩略语的总比值较高,这是由于受篇幅所限,官方微博新闻在语言上力求简练。而缩略语形式短小,恰恰符合了官方微博新闻篇幅上的要求。

  官方微博新闻中成语的总比值高于门户网站新闻,而惯用语的总比值则低于门户网站。通常,成语多用于书面语体;惯用语多用于口头语体。

  四、语法层面上的差异

  我们选取词类、句长、破碎度和句类,作为官方微博新闻与门户网站新闻语法层面的语体标记。

  (一)词类

  按照朱德熙(1982)词类划分标准,[7]我们将GFWB和MHWZ中的词划分为17个类别。我们对这17个词类进行了t-检验(置信区间取95%)。检验结果表明, GFWB中的代词、方位词、介词、连词、语气词、助词与MHWZ并无统计学意义上的差异,这6个词类在GFWB和MHWZ中的均值、总比值都很接近。也就是说,在词数相同的前提下,这6个词类的词型丰富程度在GFWB和MHWZ中相差无几,也许与这6个词类都属于封闭性词类④有关。检验结果还表明,GFWB与MHWZ中名词、处所词、时间词、区别词、数词、量词、动词、形容词、副词、拟声词、叹词的数据具有统计学意义上的差异。我们对GFWB和MHWZ中的这11个词类的总比值、均值和标准差进行了统计,见下表:

  从表3来看,虽然名词、处所词、时间词、区别词、数词、量词、动词、形容词、副词、拟声词、叹词这11个词类的总比值差异较小,但是它们的均值差异较大。在总比值差异较小的情况下,均值越大,词型就越少。由此可知,官方微博新闻中这11个词类的词型丰富度均不及门户网站新闻。

  值得注意的是,拟声词和叹词在GFWB中的总比值均为0,也就是说,在官方微博新闻中未出现拟声词和叹词。拟声词和叹词在MHWZ中的总比值分别为0.0044和0.0033。可以说,官方微博新闻和门户网站新闻中拟声词和叹词的总比值都很低。这也许是因为拟声词和叹词多用于口头语体和文艺语体,而官方微博新闻和门户网站新闻都属于新闻语体的缘故。我们对MHWZ中拟声词和叹词的分布情况进行了进一步考察,发现它们大多出现在直接引语中。

  GFWB中11个词类的标准差均高于MHWZ。标准差反映了词型使用频率的离散程度,标准差越大,词型使用频率波动就越大。这表明GFWB中这11个词类的词型使用频率远不如MHWZ均衡,GFWB中11个词类的词频差距要比MHWZ大很多。词频差异越大,话题就越集中。这说明官方微博新闻的话题比门户网站新闻的话题更集中。人们大多认为书面语体中的话题相对固定,口头语体中的话题则往往不够集中。

  (二)句长

  “长句中有较多的修辞成分,所以使用长句,就能够更准确、更严密地表达思想。也正是因为长句容量大,就可以对事物做详尽的描述”,[8]而短句“形体较小,字数较少,结构较简单……明白易懂,简洁有力,明快活泼”。[8]长句多用于书面语体,短句多用于口头语体。我们对GFWB和MHWZ中的句长分别进行了统计,见以下图表:

  图1显示,在GFWB中,31至40字的句长所占比值最高;而在MHWZ中,则是11至20字的句长所占比值最高。GFWB句长的众数为38,MHWZ句长的众数仅为11。这些数据都表明官方微博新闻中的句子更长,更倾向于使用长句。

  从表4来看,GFWB的标准差比MHWZ低7.7247,方差低352.701。标准差越低,句长分布越聚集;而方差越低,则说明句长分布越趋于平均值。这表明GFWB的句长比MHWZ更集中,且多接近句长平均值37.9365字(见图1)。由此可见,在官方微博新闻中,句长分布整齐,结构相同或相似的句子数量较多,而“句长相近、结构相似”的句子大多出现于书面语体中。

  (三)破碎度

  “破碎度,是指一句话中停顿次数,即一句话的零散程度”。[9]阚明刚的研究表明,书面语体的破碎度要低于口头语体。破碎度计算公式如下:

  破碎度=■ (公式4)

  我们将“句中停顿总次数”理解为句内点号的数量,将“语料中总句数”理解为句末点号的数量。根据黄伯荣和廖序东关于点号的划分标准和公式4,[10]我们计算出GFWB的破碎度为2.6,MHWZ的破碎度为2.9,即官方微博新闻的破碎度略低于门户网站新闻。通常书面语体的语言较为流畅,其破碎度往往低于口头语体。

  (四)句类

  “句类是句子按照不同语气功能划分出来的类型。一般分为陈述句、疑问句、祈使句和感叹句”。[9]我们对GFWB和MHWZ句类的总比值进行了统计,见表5。

  从表5来看,无论是在GFWB中,还是在MHWZ中,陈述句的总比值都远远高于疑问句、祈使句和感叹句。官方微博新闻与门户网站新闻都属于网络新闻语体,网络新闻的主要功能是传递信息、陈述事实,所以在官方微博新闻与门户网站新闻中,陈述句的数量比疑问句、感叹句和祈使句多。

  表5中的数据还表明,GFWB中疑问句、感叹句和祈使句的总比值与MHWZ有较大差异。根据表5,我们计算出GFWB中疑问句总比值比MHWZ低49.76%,感叹句总比值比MHWZ低52.94%,祈使句总比值比MHWZ低85.13%。⑤我们发现这三个句类大多出现在直接引语中。显而易见,上述差异是由于官方微博新闻中的直接引语数量较少,门户网站新闻中直接引语数量较多而形成的。

  结 语

  通过对官方微博新闻语体和门户网站新闻语体进行计量对比分析,我们得出以下几点结论:

  第一,官方微博新闻与门户网站新闻都属于网络新闻语体,二者书面化程度都很高。官方微博新闻和门户网站新闻的词汇密度均在80%以上;拟声词、叹词的总比值都很低;而陈述句的总比值都很高。

  第二,官方微博新闻比门户网站新闻更倾向于书面语体。官方微博新闻的词汇密度、平均词长、成语的总比值均高于门户网站新闻;官方微博新闻中的词型例比、3字及3字以下词的总比值、惯用语的总比值均低于门户网站新闻;官方微博新闻中11个词类的词型使用频率远不及门户网站新闻均衡,即官方微博新闻的话题更集中;官方微博新闻中多用长句,句长分布比门户网站新闻更集中,也更接近;官方微博新闻中的破碎度低于门户网站新闻,直接引语的数量少于门户网站新闻。   本文的不足之处主要有以下两点:第一,由于受到语言处理工具的限制,我们未能提取出语体的所有标记,因而我们所揭示的官方微博新闻语体与门户网站新闻语体的差异,只不过是冰山一角而已。第二,我们所选用的语料样本数量有限,这在一定程度上影响了统计数据的准确性。

  今后,我们将扩大语料规模,探索出自动提取语体标记的方法,为语体研究尽绵薄之力。

  注释:

  ① http://ling.cuc.edu.cn/cucseg/

  ② 粗颗粒度与细颗粒度切分标准请参看《面向语言监测的自动分词标注规范研究报告》。

  ③ 计算公式为:差异=■×100%

  ④ 封闭性词类(closed-class word)的成员数目有限,变化较少,一般可以穷尽列举。

  ⑤计算公式为:差异=■×100%

相关文章
学术参考网 · 手机版
https://m.lw881.com/
首页