计算机辅助报道这一概念引人中国的时间并不长,最初由卜卫于1998年发表《计算机辅助新闻报道--信息时代记者培训的重要课程》一文,介绍了计算机辅助新闻报道的相关问题,并认为“在我国,已有数百家媒体上了网,人民日报、中国日报、新华社等新闻机构已在网上建立了数据库,但大多数记者还没有采用计算机和互联网进行新闻报道的意识,其知识和技术在多数新闻院校也尚未普及,因此,对新闻记者及在校新闻大学生的计算机辅助报道和互联网的教育应该被提上议事日程”。2000年,王波出版《计算机辅助报道概论》一书,介绍了计算机辅助新闻学各个不同组成部分的发展与现状,并通过大量研究和报道的实例说明计算机辅助报道、计算机辅助调研、计算机辅助引证、计算机辅助聚会的基本方法及其具体应用,书中包括大量国外利用计算机辅助报道方法写成的报道实例,以及对国内外网上信息资源的介绍。但无论从学界还是业界的反映来看,这一始于1950年代,流行于1990年代的新闻报道手段在其引进之初并没有得到什么呼应。国内各大新闻学院并没有因此而开设计算机辅助报道的系列课程,而关于这方面的研究论文也很稀疏,零零星星地出现于学术期刊,以介绍性的材料为主。
转机大约出现在2010年7月。维基解密事件后,业界对“数据新闻”这一形态开始亲睐有加。随着数据新闻在新闻界的切入,计算机辅助报道再次出现在我们视野。然而,大多数时候,它只是作为数据新闻的一个背景墙,用来解释什么是数据新闻。比如,当“关于数据新闻概念的界定,学界尚无定论”时,方洁、颜冬试图从新闻呈现形态、新闻生产流程、新闻行业发展三个层面来对数据新闻进行定义,认为“数据新闻的内涵就是基于数据的抓取、挖掘、统计、分析和可视化呈现的新型新闻报道方式”,在将其与精确新闻、计算机辅助新闻报道、数据可视化等概念进行了比较分析后,作者认为:“计算机辅助新闻报道更偏向于一种辅助工具,它不是一种独立存在的新闻报道方式,而强调r种方法和运用”,“数据新闻的概念代表着一种新闻发展的形态,其概念的内涵和外延比计算机辅助新闻报道更加广阔”。从这个意义上来说,计算机辅助报道似乎已成了数据新闻的一个注释,而《精确新闻学》及其作者菲利普迈耶(PhilipMeyer)也在国内沉寂了相当一段时间后被频频提及,其原因也非常相似:用来界定数据新闻。
这一判断是否存在误区?“历史上的计算机辅助报道起源于精确新闻报道或调査性报道的需要,计算机辅助的是精确新闻报道过程中的数据采集处理和分析”,从这个意义上来说,卜卫更倾向于将计算机辅助报道作为援助新闻采集过程的辅助工具,而不是一种新闻报道方式。这一认知至今都有现实意义,但从当前的发展来看,计算机辅助报道的意义显然远不止于此。在哥伦比亚大学新闻学院下属的TowCenter(数据新闻研究中心)为其计算机和新闻双学位的硕士所开设的计算新闻学课程中,乔纳森史特里(JonathanStray)教授认为,计算机技术主要在以下这四个领域对新闻报道有所帮助:以数据推动的报道,故事的展现示方式,信息筛选以及影响跟踪。这一表述较为生动地阐释了计算机辅助报道在最近60多年以来的生命力,与政治、技术发展的交互关系,并在大数据背景下发展并定义了计算机辅助报道。因此,本文试图将计算机辅助报道与广义的计算机辅助性工作,如打字、排版,图形图像编辑、音视频编辑,电子邮件采访,数据录人、统计软件区隔开来,而将其视作利用计算机对新闻素材进行结构化、半结构化数据与非结构化数据处理、分析,从而完成的新闻报道。
然而,数据新闻、精确新闻、两者与计算机辅助报道的关系仍然有待明晰化。鉴于此,本文试图从计算机辅助报道的产生、发展及演变入手,尝试对这一新闻报道的辅助工具进行历史纬度的解读,并挖掘其最新发展形态--数据新闻的意义,进而对数据新闻之于传统媒体的作用给出一些思考。
一、起源:基于强大计算能力的结果预测
在新闻机构引人算术可追溯至史前就已存在的计算工具,其中最重要的一项发明在1880年代由赫尔曼?霍尔瑞斯(HermanHollerith)完成。鉴于其发明的穿孔卡片,霍尔瑞斯被视作现代计算技术的奠基者。霍尔瑞斯首先把穿孔纸带改造成穿孔卡片,以适应人口数据采集的需要。由于每个人的调查数据有若干不同的项目,如性别、籍贯、年龄等等。霍尔瑞斯把每个人所有的调查项目依次排列于一张卡片上,然后根据调查结果在相应项目的位置上打孔。例如,穿孔卡片“性别”栏目下,有“男”和“女”两个选项;“年龄”栏目下有从“0岁”到“70岁以上”等系列选项,如此等等。
随后,霍尔瑞斯发明了一台制表机,可以一次读取40张卡片的数据,巧妙的设计在于其自动统计。霍尔瑞斯在机器上安装了一组盛满水银的小杯,穿好孔的卡片就放置在这些水银杯上。卡片上方有几排探针,探针连接在电路的一端,水银杯则连接于电路的另一端。只要某根探针撞到卡片上有孔的位置,便会自动跌落下去,便与水银接触接通电流,启动计数装置前进一个刻度。从这个意义上来说,霍尔瑞斯穿孔卡表达的是二进制信息:据估计,一台制表机可以代替500个人的劳动。此制表机开启了数据的自动化处理时代,也正是这种数据处理的方法,构成了电脑“软件”的雏形。
其后,霍尔瑞斯的发明开始商业化,并很快在发薪簿、存货清单和核算等数据处理方面获得了较好的发展。1911年,由于经营不善,霍尔瑞斯出售了自己的制表机器公司(TabulatingMachineCompany);1924年,该公司被更名为国际商业机器公司(IBM)。
数据处理的下一个飞跃是1936年。美国的霍华德艾肯(HowardAiken)在深入研究巴贝奇分析机的基础上,对巴贝奇分析机设计作了重大改革,提出用机电方法而不是纯机械方法来实现分析机,1944年,艾肯在哈佛大学制成了改进的巴贝奇分析机--MarkI计算机。MarkI计算机由电子继电器供电,为第二次世界大战期间的美国海军服务。
就在MarkI计算机飞速发展的同时,美国军方也发明了一种机器来解决弹道问题。这台机器最早出现于宾夕法尼亚大学,由爱荷华州立大学的约翰文森特-阿塔纳索夫(JohnVincentAtanasoff)及其研究生助理克利福德.贝瑞(CliffordBerry)共同完成。这台机器被称为阿塔纳索夫-贝瑞计算机(Atanasoff-BerryComputer,通常简称ABC计算机)。机器上装有两个记忆鼓,使用电容器来进行数值存储。这台机器被誉为第一台现代计算机。
在大型计算机主机的运算能力不断提升时,美国的民意调研也获得了长足的发展。1932年,因岳母竞选州务卿,乔治盖洛普(GeorgeGallup)提出一种科学抽样方法,并准确无误地预测出了选举结果;1936年,盖洛普再次使用科学抽样法对美国大选进行民调,最终数据显示富兰克林罗斯福的得票率将是55.7%,而大选结果是罗斯福贏得62.5%的选票。公众对民调的关注和重视将其与计算机完美地结合在了一起,这一时期,利用大型计算机主机生成、处理数据,通过数据呈现的民调内容在媒体上并不罕见,有力地促进了媒体记者对大型计算机主机的了解与使用。1940年代之前,“computer”仅意指那些精于计算的人,而到了1940年代,这一术语开始指称那些用于数据处理的机器。此后,迈耶划分了计算机发展的三个阶段:第一个阶段是使用真空电子管的ENIAC;第二阶段是IBM7090,使用了晶体管;第三阶段是IBM360系列,使用了集成电路。至此,计算机已充分具备了大型计算的能力。
受民调所形成的巨大影响力刺激,截止到1930年代之前,众多的报纸介人到民意测验领域,主要包括赫斯特报系(HearstNewspapers)、纽约论坛报《NewYorkHerald》、《辛辛那提问讯报》(CincinnatiEnquirer)、《哥伦布电讯报》(ColumbusDispatch)、《芝加哥论坛报》(ChicagoTribune)。1940年代,媒介支持或者建立的调查机构纷纷建立,包括:JoeBelden’sTexasPoll(1940年),MervinField’sCaliforniaPoll(1947年),theDesMoinesRegisterIowaPoll(1943年)和theMinneapolisTribune’sMinnesotaPoll(1944年)。到1952年大选时,根据基于选举前期所返回的投票数据,RemingtonRand公司格蕾丝赫柏(GraceM.Hopper)所发明的全世界第一个编译器(Compiler)所开发的UNIVAC计算机给出了大选的预测:艾森豪威尔会赢得压倒性的胜利。CBS的高层最初拒绝播出这一似乎并不可能的预测(此前舆论普遍认为两个候选人的得票会非常接近),最终播出这一吻合最终事实的预测时,CBS公司高层因拒绝信任大型计算机主机而受到了嘲笑,至此,计算机辅助报道正式诞生。
必须说明的是,民调在上个世纪四五十年代推进了大型计算机主机计算功能在新闻生产中的作用。然而,由于民调所涉及的数据计算不仅要耗费相当的财力,且需要专业的统计学人士(他们在日常的新闻生产中作用并不大),并挖掘了更专业的商业用途(民意调查、商业调查、媒介调研乃至咨询服务),很快,媒体中的民调部门逐渐演变成专门的媒介调研机构,成为媒体经营运作的一个部分,为广告商制定购买媒体投放平台的价格标准,但不再直接为媒体提供内容生产。至此,民调对这一时期的计算机辅助报道的推动也就结束了。
随后,计算机对新闻生产的辅助作用出现了其他形式:记者们开始使用大型电脑主机处理政府数据库的信息,以发现和调査新闻事实,因此,这一时期的计算机辅助报道被认为是根据政府机构提供的计算机磁带(储存器)所制作的调查性报道。在长达20年的时间内,根据政府机构提供的计算机磁带所制作的调查性报道主要通过计算机的海量计算功能,进行各种结果的预测,这是计算机辅助报道在这一时期的主要作用。而所谓的计算机辅助,仅仅是利用计算机强大的计算能力。
二、发展:基于公共利益的精确新闻
继大型电脑主机用于海量计算、进行各种结果预测约17年后,菲利普迈耶和埃利奥特贾斯坪(ElliotJaspin)开启了以公共利益为指向的计算机辅助报道,克拉伦斯琼斯(ClarenceJones)N大卫伯纳姆(DavidBurnham)、唐.巴莱特(DonBarlett)以及詹姆斯斯蒂尔(JamesSteele)紧随其后,利用技术的发展再次进人计算机辅助报道这一领域,这一时期,他们在选择计算机所提供的功能上发生了变化。迈耶于1973年出版《精确新闻学》,在该书中,迈耶认为,计算机辅助报道是指任何采用计算机获得信息和分析信息的报道。他还定义并提出了计算机辅助的两个方向:获得信息和分析信息。
在《精确新闻学》一书中,迈耶从学理上对这一新闻实践进行了梳理、总结,发展了计算机辅助报道。由于记者的参与性非常低,这种报道形式在其诞生之初往往会被视作在写学术论文,但对新闻界来说,这一时期的计算机辅助技术恰恰是其强化自身独立性的重要手段。“从19世纪末到20世纪70年代,美国的新闻报道经历了客观性新闻报道、解释性新闻报道、调査性新闻报道和精确新闻报道的发展过程。每一种新闻报道形式的变化实质上都在追求摆脱新闻来源的控制,强调记者报道的独立性和系统性。”受自身独立性、系统性的驱使,新闻界选择了这一参与性非常低的报道形式。至此,计算机辅助报道开始逐渐摆脱的计算阶段,进入运用调查、实验和内容分析等社会科学研究方法,来收集资料、查证事实,从而报道新闻的时代。这一时期,计算机辅助报道的具体形式表现为精确新闻。
在1973年出版的第一版《精确新闻学》中,迈耶这样写道:“若我们的记者惯于使用一些社会科学的研究工具,会犯更少的错误。迈耶还认为,计算机和数据统计都是完成传统新闻业务的有效工具,因为计算机和数据可以帮助记者“寻找事实,推断原因,指出纠正社会问题的方法,并评估这些纠正的努力的效果”。从媒体的内在独立性要求出发,计算机辅助报道的发展及走向变得容易理解。美国学界普遍认为,这一时期的计算机辅助技术对新闻生产的贡献主要表现在三个方面:首先,这种新闻提升了新闻客观性。例如蒂姆伯纳斯李(TimBerners-Lee)声称,记者“不再需要找到与人在烟雾缭绕的酒吧交谈的技巧”,但必须“装备(自己)的工具去分析(数据)”,以“帮助人们真正看见融合在一起的这一切以及国家在发生什么”;第二,政府有向新闻机构提供各种数据的职责,而这种供给降低了媒体深度调查的成本;第三,受众参与提供数据并进行数据分析,可以提高公民的政治参与。这就为我们勾勒出了新闻报道形式的变化中所隐藏的媒体独立性的成长。当然,对新闻机构来说,计算机辅助技术还是个卓越的发展平台:“计算机辅助报道在一定程度上打破了对新闻来源的垄断。无论是大型新闻机构还是小型新闻机构,他们可以有平等机会来获得信息和分析、发布信息。”
对美国新闻界整体而言,大型计算机主机的使用通常可以追溯至上个世纪60、70年代,其时,相当一批主流大报已经拥有了自己的计算机主机及操作这些主机的记者。然而,对精确新闻这一报道形式而言,最关键的一个保障因素却是1967年的《信息自由法》(FreedomofInformationAct),这部关于联邦政府信息公开化的行政法规规定:联邦政府的记录和档案原则上向所有的人开放(有九类政府情报可免于公开);公民可向任何一级政府机构提出查阅、索取复印件的申请;政府机构则必须公布本部门的建制和本部门各级组织受理情报咨询、查找的程序、方法和项目,并提供信息分类索引;公民在查询情报的要求被拒绝后,可以向司法部门提起诉讼,并应得到法院的优先处理。在技术的配合下,美国政府的许多数据逐渐从纸版变成电子版,变得便携且便于复制,《信息自由法》则从制度上保证了这些数据的可获得性,从而确认了媒体、记者对数据的控制。换句话说,计算机技术的发展让媒体获得了进行计算机辅助报道的能力,而《信息自由法》则保证了媒体在进行计算机辅助报道时获取数据的权力。这一时期,政府的数据库是一种有效引发公众问题,吸引公众注意力,从而影响政治议程的手段--对于刚刚可以自由获取各类政府数据的美国公民来说,这个偏好并不难理解。
政府数据的易得为精确新闻报道记者提供了广阔的天地:1969年,《迈阿密先驱报》的克拉伦斯琼斯(ClarenceJones)通过计算机获悉刑事司法系统的模式;1972年,《纽约时报》的戴维.伯纳姆(DavidBurnham)分析了犯罪报道和来自纽约警察局的逮捕统计数据,揭示了媒体所呈现的犯罪与实际犯罪行为之间的差异,伯纳姆同时还指出:1973年,黑人犯下谋杀罪的几率要比白人高出40倍;《普罗维登斯杂志》(TheProvidenceJournal)的埃利奥特贾斯坪,则在1986年检索了行车记录不良的校车司机的犯罪记录,完成《校车司机和他们的犯罪记录(Schoolbusdriversandcriminalrecords)》,报道的出台直接促使美国联邦政府对校车司机资格进行重审;另一名著名的精确新闻记者是比尔戴德曼(BillDedman),来自《亚特兰大宪法报》(AtlantaJoumal-Constitution),他根据美国国家统计局和联邦金融机构检查委员会的数据,完成《钱的颜色(TheColorofMoney)》,披露了亚特兰大金融机构贷款中的种族主义,报道于1989年获普利策奖。
在1970年代之后的精确新闻报道案例中,“揭露社会不公,指出现有社会问题并提出解决方案”特征逐渐形成。但必须指出的是,直到1990年代,这一计算机辅助报道的新形式才开始盛行于美国报业。卜卫认为,这一方面是因为当时可利用的数据库有限;二是因为在互联网与个人电脑没有普及的当时,记者仅能得到以计算机磁带方式存储的信息,利用起来不甚方便等。梅里斯玛考克斯(MelismaCox)也认为,精确新闻需要几个阶段的准备:一、记者需要拥有个人电脑;二、虽然个人电脑最初用于文字处理,但随即发现可以连上网上数据库。1990年代之后,以精确新闻为代表的计算机辅助报道在全美国各大媒体的新闻编辑室盛行。其时,由于技术条件的支撑以及美国民众对数据的天然信任,计算机辅助报道成为一种基本的新闻报道模式。与业界相呼应,美国的新闻院校也开始开设计算机辅助报道的系列课程,以计算机辅助报道为名的各种协会也纷纷成立。
1989年-1996年的普利策评奖中,有8篇计算机辅助新闻报道获奖,其基本指向均是“公共利益”。因此,在相当一段时间内,美国国内认为,计算机辅助报道在被确认为可以帮助记者通过公开的公共问题以设置政治议程的数据上,有助于公共利益或天理昭彰。但显然,被贴上“与公众利益相关”标签的原因并不是因为计算机辅助技术更适用于揭露社会不公,而是因为调查性新闻报道的采访更为艰难、隐蔽,记者们也就更倾向于使用计算机辅助技术进行数据挖掘。此外,《信息自由法》让政府数据变得易得,记者们也就更乐意在这块处女地开垦,这些都与信息的易得程度及记者的独立性相关。就计算机辅助报道的发展历程来看,我们不难发现,从利用其强大的计算能力到以精确新闻来揭露社会不公,计算机辅助报道所服务的领域随着技术变化、记者的文化惯习、数据的易得而不断变化。此后,随着调查性报道在美国的衰落,计算机辅助技术在新闻采编中的应用也有所回调。
三、演变:基于商业价值的数据新闻
在2002年《精确新闻学》的修订版中,迈耶进一步提出,“记者要成为数据库管理者”。“在信息量不足的时代,记者主要的精力在于寻找和获取信息,然而处于信息丰富的今天,信息处理的过程就显得尤其重要。信息处理过程包含两个层面:一个是通过分析不断变动的数据以找到其中的意义和结构,另一个则是通过展示让用户了解哪些信息对他们具有重要性和相关性。数据新闻要像科学一样严谨,它公开其方法,呈现其结果,经得起核实、验证”。至此,计算机辅助报道的表现形式开始从精确新闻走向数据新闻。
在“公共利益”指向的年代,记者将收集和分析数据作为一种强化(通常是调査性)报道的手段;进人大数据时代,记者则让数据呈现贯穿整个新闻工作流程,计算机辅助技术在新闻生产中的作用又有所上升,但是,这一时期的计算机辅助技术对新闻生产提供的帮助又有所转向。在美国和英国,一些新闻机构直接雇佣程序员担任记者,这些人称自己为“程序员记者”--他们生产了与过去不一样的在线新闻产品。几家主流报纸(如《纽约时报》、《卫报》)以及独立的新闻机构(如propublica)已在新闻编辑室(newsroom)中建立了专业团队,专门设计所谓的“新闻应用程序”(newsapplications),这些程序大幅使用计算机技术,完成收集、处理、分析数据等一系列工作,并将数据变得易读、可读。
2007年,《阿斯伯里公园报》(AsburyParkPress)的计算机辅助报道项目组花了5个月时间追踪一名房产大亨的破产经历--他在2006年的时候还拥有3亿美元身家。该项目组吃惊地发现,这个33岁的男子利用了自己显赫的家庭关系网,吸引了那些有钱又天真的投资者和易骗的银行发放了非法贷款,这一事件引发了项目组的好奇。借助计算机技术进行追踪,他们完成了近十年来最大的金融报道--次贷危机,获得了许多奖项并受到读者们的一致好评。该项目组负责人贾森梅索德(JasonMethod)在《计算机辅助报道的红利(TheBenefitsofComputer-AssistedReporting))一文中写道,计算机辅助报道的好处在于:在数据唾手可得的今天,计算机技术可以提供极大的便利。它让大报小报的记者都可以去探究国家大事。当然,这些努力的好处非常显著,尤其在互联网上。当然,在各个新闻网站上,交互式数据库与图表是我的挚爱。
作为异军突起的一种新闻报道形式,数据新闻继承并发展了以精确新闻为代表的计算机辅助报道。位于英国的调査性新闻中心(TheCentreforInvestigativeJournalism)为来自英国及全世界各地调查性新闻领域的开拓者与先锋们举办讲座、会议、研讨等,在他们所提供的调查性报道手册中,有一本小册子名为《数据新闻学或计算机辅助报道(DataJournalismorComputerAssistedReport)y,这含糊的表达说明,业界将数据新闻等同于计算机辅助报道。而无论是被称为数据新闻还是计算机辅助报道,其表达的信息都非常直接:在数据化的社会大背景下,计算机已越来越成为各种新闻生产不可或缺的辅助工具--在过去的新闻生产中,计算机更多地服务于调查性新闻报道,今天,计算机已成为各大新闻领域中不可或缺的辅助工具。
如果说1967年的《信息自由法》是从制度上保证了公众对各类政府数据的知情权,互联网则将更多的政府、社会组织、企业等数据搬到了媒体与公众面前。此外,用户留在互联网上的各种数据、社会化媒体平台上的UGC、移动终端的各类信息、物联网技术的发展等,也和各种数据一起,汇流成了今天的大数据。虽然“非结构化数据”通常不能为传统的数据库所用,但是,从非结构化数据的庞大“宝藏”中获得知识及洞察力的计算机工具正在迅速发展。如今,数据不仅正在变得更加可用,也正在变得更加容易被计算机所理解。阿里巴巴总参谋长曾鸣认为,大数据和传统的数据比较起来,其差别在于:一、在线,大数据必须永远在线;二、实时,大数据必须实时反映;三、全貌,大数据不再是样本思维,而是全体思维。这些都为数据新闻做好了准备。
受政府数据易得性和媒体独立性成长的驱动,以“公共利益”为指向,以精确新闻为报道形式的计算机辅助报道在传统媒体应对新媒体的挑战中转型。在广告大幅下滑、发行量(收视率)大幅下跌的今天,传统媒体的出路已成为一个重要话题。《2013世界报业创新报告》明确指出,数据新闻可以从两个方向扩张传统新闻业:一是以应用技术来收集和深度分析数据,二是以交互方式呈现结果或将结果可视化。前者直接压缩庞大的新闻采编费用,后者以互联网模式呈现新闻,应对新媒体的挑战,从本质上来说也是在谋求商业利润。从这个意义上来说,计算机辅助报道从精确新闻转入数据新闻,有传统媒体衰败后求变的背景,也有大数据崛起的背景,但更有其商业价值上的考虑。由于大数据增加了信息的“熵”和公众对信息的理解难度,这就使得公众需要借助媒体来完成信息流通和数据解读。这样,在专业的数据挖掘和解读下,数据新闻赋予了传统媒体新兴的商业价值,以“公共利益”为指向的精确新闻被切换成了以“商业价值”为指向的数据新闻。
新闻界对数据新闻的亲睐还表现为一些相关书籍。2011年11月,在伦敦召开的为期48小时的摩斯拉节(MozillaFestival)上,大家合力完成了《数据新闻学手册(theDataJournalismhandbook)}。随后,这本小册子发展为一场国际性的业界合作,涉及几十个数据新闻业的开拓者与实践者,包括《芝加哥论坛报》、英国广播公司、澳大利亚广播公司、德国之声、《卫报》、《金融时报》、《赫尔辛基新闻》、《全国日报》(LaNacion)、《纽约时报》、ProPublica网站、《华盛顿邮报》、《德州论坛报》(theTexasTribune)、《如此世道》(VerdensGang)[35]等;2014年1月28日,来自Storyful,BBC、《卫报》和其他主流新闻媒体的记者联合撰写并推出《社交媒体验证手册》,全书共分十个章节。“当灾难袭来时,记者可以轻松地访问社交媒体上的大量信息,但是核实信息将变得困难。那么记者如何利用社交媒体报道突发新闻?”这就是欧洲新闻中心(EJC)编写《验证手册(VerificationHandbook)》的原因,这份免费的在线手册称自己是“为紧急报道验证数字内容的明确指导”;迈阿密大学传播学院教授信息地图及可视化课程的老师艾伯托?凯若(AlbertoCairo)也于2014年1月出版了《功能艺术:信息地图和可视化入门(TheFunctionalArt:Anintroductiontoinformationgraphicsandvisualization)》,该书着眼于如何理解和使用信息地图、数据可视化工具,在涉及大量数字和变量列表时,建议记者利用可视化工具来认识周围的复杂世界。
当然,计算机辅助技术对新闻生产的贡献显然不止于此。2014年3月18日,美国加州发生里氏4.4级地震,《洛杉矶时报》是第一个报道这场地震的媒体,而该报能拔得这个头筹,其原因是“机器人写手”。收到美国地质勘探局电脑系统发出的地震信息后,《洛杉矶时报》系统内的地震新闻自动生成系统将数据输人事先准备好的模板。这个系统仅用了三分钟就完成了新闻的生成并将其发表在《洛杉矶时报》的网站上。
彭兰认为:在大数据背景下,新闻业务的主要调整方向也许会体现在如下方面:一、趋势预测性新闻和数据驱动型深度报道分量的增加;二、数据呈现、分析与解读能力的提高;三、新闻生产中跨界合作的增强。这三个指向都与媒体的商业取向密切相关,但商业取向同时也提升了媒体的专业主义。必须承认的是,数据挖掘技术有效规范了新闻生产的专业性,使其更为规范。计算机数据结合统计可以用来揭示问题,这就使得在数据新闻的内容生产中,公民和记者不能完全从自己的个人角度出发。
四、现状:数据新闻在中国的发展障碍
随着技术的发展,可获得的数据量不断上升,记者对数据掌握、分析能力的不断提升,计算机辅助报道在新闻实践中不断得到完善,从最初的利用大型计算机主机进行海量计算,到借助计算机,运用调査、实验和内容分析等社会科学研究方法进行报道,再到今天将数据纯净化、结构化来“深入资料”,挖掘特定信息来“过滤数据”,再将数据“视觉化”以做出报道,计算机辅助报道的各个发展阶段都折射出媒体应对社会发展的生存之路。田加刚认为,在《卫报》的新闻战略中,数据新闻是其应对新媒体特别是公民新闻的冲击,而提出的开放新闻观的具体策略之一;方洁、颜冬认为,“数据新闻”(datajournalism)是当下全球新闻业应对大数据时代发展变革中产生的新兴领域,且被视为未来新闻业的发展趋势。事实上,从当下学界和业界对数据新闻的追逐来看,数据新闻已被诸多媒体视作生存的必要手段及下一步的业务增长点之一。
本文认为,计算辅助报道已经历了三个阶段:基于强大计算能力的结果预测阶段、基于公共利益的精确新闻阶段和基于商业价值的数据新闻阶段。在计算机辅助报道发展的前两个阶段,外部世界的媒体变化没有影响到中国,很显然,这与当时社会对这两次新闻界变革的需求相关:以海量计算为特征的计算机辅助报道出现于美国媒体时,中国媒体仅是政治的辅助工具;以精确新闻学为代表的计算机辅助报道在美国大规模兴盛时,中国媒体还处在跑马圈地的粗放式经营、发展阶段,无论是受众还是媒体都没有意识到自己需要精确新闻。然而,当数据新闻携商业价值到来时,国内几乎所有的市场化媒体都对这一新闻报道形式发出了天然邀请,纷纷与大数据公司合作,进行数据新闻制作。这次与国际同步的原因在于:与全世界的传统媒体一样,中国的传统媒体也陷人了严冬,且对自己的未来走向不甚明了。
当然,我们认为,传统媒体对“数据新闻”的关注不排除传统媒体严冬期“捡到篮里都是菜”的逻辑思维,急于拓展自己的业务增长点而进行尝试,但其背后的“大数据”化社会背景不容忽视。对当下中国而言,一、个人计算机及互联网的使用成本都在逐年下降,数据的获得渠道不再封闭;二、2009年5月1日《信息公开条例》的实施,各种终端数据库的建设,均为媒体与公众的数据获取提供了便利;三、在大数据蜂拥而至时,普通公众对于如何理解数据也有其要求。由于大数据的理解已或将成为一种专业技能,普通受众必然会对理解社会的介质--大众传媒提出需求。从这三个层面来看,对于将数据化的复杂社会翻译成新闻报道,并提供给公众,媒体已具备了初步条件。
与计算机辅助报道、精确新闻学在学界、业界的反应平平也形成了强烈的反差,国内新闻学界对“数据新闻”异常敏感。在陈力丹、廖金英的《2013年中国新闻传播学研究的十个新鲜话题》中,“上升中的‘大数据’研究”排名第一,在梳理了2013年的大数据研究论文后,作者发现,“众多学者文章谈到,大数据将改变现有新闻理念,改变未来媒体的信息生产与呈现,使追求精确的‘数据新闻’成为可能”,因此,“在大数据技术等因素的推动下,新闻业务将实现一些方向性调整,如趋势预测性新闻和数据驱动型深度报道分量有所增加,数据呈现、分析与解读能力提高,新闻生产中跨界合作增强”。中国传媒大学调查统计研究所率先成立中国传媒大学数据挖掘研发中心。而在一份新闻传播学青年学者手中广为流传的“人大新闻2014大数据建模方法与传播学研究暑期工作坊招生简章”中,我们可以看到,大数据还改变了新闻传播学的研究方式。此外,数据可视化已经出现在部分新闻院校的选修课名单上。
然而,较之成熟的媒体市场,就数据新闻业在中国的走向来看,其规模和发展程度都无法望其项背。根据数据程序员兼多媒体新闻记者米尔寇洛伦茨(MirkoLorenz)的说法,数据新闻学是一个包含了下列这些元素的完整的工作流程(workflow):将数据纯净化、结构化来“深人资料”,挖掘特定信息来“过滤数据”,再将数据“视觉化”以做出报道。按照这一标准,目前中国传媒业的数据新闻依然寥寥,或者说,成熟、具备一定风格的数据新闻作品并不显著,这与记者采写新闻时的路径依赖直接相关。没有经历过以海量计算为特征、以精确新闻学为代表的计算机辅助报道的发酵、成熟,中国媒体在进人数据新闻领域时有其文化资本上的障碍。目前来说,由于绝大部分记者都没有受过信息检索技术的训练,以往的媒体工作经历也没有培育他们读懂数据的能力。
如果关注美国数据新闻发展的社会背景,我们也不难发现中国媒体在数据新闻上的劣势。多年来,美国政府巳累积了大量数据,只要对这些数据进行梳理、分析,就能挖掘出许多新闻。如单个访问,记者通常很难获得哪些群体更倾向于去哪些类型的医院就医,但大数据可以提供具有统计学意义的结果,并可告知受众未来可能发生的状况。但是,数据应该如何公开?以怎样的格式公开?Data,gov便是美国政府为此建立的一套共通标准。2009年,Data,gov上线,这是奥巴马就任后为增加政府资料透明度而设立的一系列网站。因陷入财政困局,白宫于2011年4月宣布Data.gov、paymentaccuracy.gov、Performance.govNFedSpace、USASpending.gov和Apps.gov/now将终止营运,但这一系列网站所带来的数据及其赋予媒体的意义却不会动摇:白宫已宣布将这些数据开源化。开源化的目的是让世界各国都可以使用共通的方式公开数据,该计划被命名为OpenGovernmentWatfonn。这也就是说,在政府数据的获取与使用上,美国媒体易如反掌。而在中国,政府的大数据公开还刚刚起步,大数据公司持有的数据多为用户的个人信息。因此,从媒体的层面来说,“原始数据”已成为国内记者进人数据新闻领域的最大障碍,数据的获取不足,以及缺乏数据处理与分析能力,导致通过整合数据而挖掘新闻的方向模糊不清。
以一些著名的数据新闻作为样本,中国媒体目前更不具备数据新闻的竞争力。《纽约时报》2011年以维基解密数据完成了GuantanamoFiles,为了以合适的视觉呈现方式向读者呈现故事,该新闻前后改了15版,最后在纸质报纸和网站上用了两种不同的呈现方式(网站有互动,并随时更新囚犯最新状况);在“议员的花费”这个项目中,英国《卫报》向公众公布了45万多条电话、机票账单,将数据众包,最后,3万多名受众对这份长达7000多页的数据进行了审阅,为《卫报》挖掘出了前所未有的新闻。基于成本及其他因素的考虑,这些数据新闻的生产模式目前在中国被复制的可能性并不高,而那些雇佣了程序员来做记者的商业网站(如虎嗔)则更追求短平快和效率,不会去尝试这类相对厚重的选题。而在数据新闻项目上愿意投人的时间和资本、记者团队对数据的掌控、挖掘能力以及可获取的数据量都会对数据新闻生产产生极大的影响。
即便在数据新闻业有所拓展的区域,其生产路径也各自不同。在《纽约时报》,设计师或程序员会把自己当作真正的记者来工作,而在德国、瑞士等国,数据新闻制作则要传统的新闻记者与程序员合作,靠分工合作来弥补专业差异。
五、结语:数据新闻的实践路径
数据库是新闻界面对当下复杂社会及海量信息的一个关键点,而计算机辅助技术也在大数据的背景下迎来了数据新闻,成为媒体在大数据背景下一个新的业务增长点。然而,这个新的增长点在当下中国并不容易操作,其后续也难以判断--至少在当下,数据新闻并不是显著的利润增长点,而这对于急于转型的传统媒体来说又非常关键。
从计算机辅助报道的起源、发展、演变及在中国的发展现状来看,本文认为,虽然热闹非凡,但数据新闻在当下中国仍遭遇着与其他国家所不一样的诸多文化及政治障碍,我们不能因为传统媒体急于转型、新闻界寻找业务增长点就夸大数据新闻的功能及作用,更不能无视数据新闻所需的社会土壤。但必须指出,在“鼓吹”、“推荐”数据新闻后,国内的新闻传播学界除了引入、介绍数据新闻的概念,还有责任和义务对“数据新闻”项目进行学理探索、思考,给出数据新闻的实践、操作模式,并在此基础上,完成数据新闻的课程设计及相关培训。当然,为数据建立的一套共通标准不该仅仅是统计学界、社会学界的目标,也应该是新闻传播学界在通向数据新闻的道路上必须解决的重要命题。
本文系2014年中央高校基本科研业务费专项资金资助项目“大数据背景下的计算机辅助报道”(项目批准号:2014XZD10)的阶段成果。
作者:苏宏元、陈娟