一、媒体新闻数据库系统简介
(一)媒体新闻数据库系统及其功能
媒体新闻数据库指以各类媒体上的新闻信息作为收录对象,对符合建库要求的信息进行收集、整理、分析、加工的数据库系统。国内参与此类数据库系统建设的单位包括新闻机构、信息服务商和图书馆等,较有代表性的有新华通讯社的《新华社多媒体数据库》、香港慧科讯业有限公司的《香港慧科媒体信息全文数据库》、广州大学图书馆的《媒体眼中的广州全文数据库》等。
媒体新闻数据库系统的功能,除一般的信息浏览、检索、统计外,更重要的是作为为本单位或特定客户群提供深层次信息服务产品的数据基础。这些信息产品有以下形式:
1. 新闻专辑汇编:指某一时间段内,各类媒体有关某一区域、某一事件或某一人物的新闻报道的汇总,可编辑成目录索引、简报摘要或全文专辑,能较全面地反映该时段该区域的社会生活全貌,或该事件发生的经过及影响,或该人物社会活动的全貌,可作为决策参考或存档资料。
2. 舆情分析:指根据客户要求,通过对某一时间段内或某一特定事件的社会舆论情况的分析研究,真实地反映社情民意及民众对社会事项的态度及情绪,并在此基础上提出合理的预测及建议,供管理者决策时参考。
(二)媒体新闻数据的分类标引根据媒体新闻数据库系统的功能,不难看出对数据库中的数据进行有效的分类标引,使新闻数据可迅速、准确地按需求聚类,是媒体新闻数据库系统建设中重要的一环。
传统的图书分类法以学科立类为主,上下级类目间有着严格的隶属关系。但新闻信息有着综合性强、容易形成专题的特点,不适合套用传统的图书分类法。
在2006年《中文新闻信息置标语言》和《中文新闻信息分类与代码》两项国家标准公布实施前,国内的新闻数据没有统一的分类标准,各新闻数据库系统多采用自编的分类体系,有的采用“分类主题一体化”的标引系统,有的是几种分类法的综合。2006年上述两项标准颁布,它们以“主题立类为主,学科立类为辅”为立类原则,较好地适应了新闻分类的特点,在新华社等机构得到了应用,但由于种种原因,总体的推广情况并不十分理想。
近年来网络发展迅猛,新闻传播方式更新,数量激增,客户对有关新闻的信息服务有了更高的要求。媒体新闻数据库系统不仅要在收录数据的时效性、全面性上追求更快更全,后期信息产品也要求得到更高质量的系统支持。以往比较单一、比较概括的分类在新闻专辑汇编或舆情分析撰写时并不能完全满足信息聚类、数据筛选的要求,信息产品编撰人员往往需要罗列多个关键词构建复杂的布尔表达式,用全文检索的方式从数据库中筛选出需要的数据,占用大量的系统资源、耗时费力且容易产生错漏。
面对问题,一些新的、能更方便迅速地实现信息聚类的信息分类法进入了媒体新闻数据库建设者的视野。
二、分众分类及其特点
(一)了解分众分类
作为网络信息资源组织的一种解决方案,分众分类(Folksonomy)正引起越来越多的关注,它是一种社群参与者运用自由定义关键字的方式进行协作分类的活动,它的原理是向社群参与者提供一种协同构建与共享各自资源标签的开放式平台,通过用户自己制定分类标准和提交资源标签来实现。
(二)分众分类的特点
与以学科、类目为主的传统文献分类法相比,分众分类有着众多优点,如节省用户时间和精力、标引成本低、能多维度揭示信息内容、可实现快速而自动信息聚类、直观、易于维护、时效性强等。但其缺点也相当明显,如单一随意、词义模糊、缺乏控制和有效指引、专指度不够等作为WEB2.0的核心技术之一,分众分类发展迅速,已被广泛应用于新闻、论坛、博客、社交、购物等几乎所有类型的网站中。这些网站应用分众分类,着重于它可实现快速而自动信息聚类、直观、易于维护、时效性强、用户参与度高等特点,既有利于用户迅速获得所需信息,又有利于网站的信息组织,聚集人气,提高浏览量和点击率。
三、在媒体新闻数据库系统引入分众分类
(一)分众分类可发挥的优势
在媒体新闻数据库系统中引入分众分类,可发挥其如下优势:
1. 可更为全面、准确地揭示新闻内容
尽管以“主题立类为主”的新闻分类法能较适应新闻综合性强、容易形成专题的特点,但有相当部分新闻的内容会涉及多个领域,仅用单一的主题类目标引出新闻的核心主题,或用更具综合性的上位类作为新闻的类目均不能准确、全面地揭示出新闻内容,在进行新闻专辑编辑或更深层次的舆情分析时,这种精确度不高的分类法更难以体现出它的实用价值。
例如,2012年广东省开展了“三打两建(打击欺行霸市、打击制假售假、打击商业贿赂;建设社会信用体系、建设市场监管体系),建设幸福广东”的专项活动。省委、省政府作出决策,省政法委牵头,公检法、纪检、质监、卫生、城管、城建、文化等多部门参与。相关新闻数量众多,涉及了政治、经济、司法、卫生、文化、社会生活等多个主题领域,有的综合性报道会包含上述各个部门的行动情况,有的新闻则只与其中某一部门的某次具体行动相关;来自不同部门的客户对信息服务的需求也是多样化的,有的希望了解综合性的舆情,也有的既需要综合性舆情概况,也需要了解对某一方面行动的报道情况分析。采用传统的文献分类法较难准确反映与“三打两建”相关新闻的多个角度。但采用分众分类法,则可用多个标签来标引,使新闻能迅速、便捷地在“三打两建”、“三打”、“治安”、“经济”、“质量”等不同标签下聚类,供编辑新闻专辑或舆情分析之用。
又如,对某一人物,特别是领导人的新闻报道,既有他参与政治活动的,也有他参与教育、卫生、体育活动的,使用传统分类法,会根据新闻的侧重点将之归入不同的主题类目中。在编辑相关人物的新闻专辑汇编时,以往只能通过全文检索,把正文中提到此人物姓名的新闻筛选出来,这一操作会占用较多的系统资源且有可能出现遗漏。利用分众分类,则可以把人物姓名作为一个标签,不仅可以迅速实现与该人物相关的新闻聚类,而且还能通过其它标签使筛选出的新闻自动完成二级聚类,便于后期专辑编辑工作。
2. 可灵活地对类目进行调整
传统分类法的特色是结构严谨,层次分明,因此如果要对类目进行调整、补充相当困难。对于新闻信息这类随社会发展、公众关注点的改变而在不断发展变化中的信息而言,缺乏灵活性的分类法不利于对其进行准确的标引,更不便于迅速准确地信息聚类。
分众分类的标签是由用户(分类人员)自由定义的关键字,具有高度的灵活性,如上术举例中的“三打两建”、“三打”、“两建”即可分别按需要被定义为新的分类标签;有关人物的标签亦可随人物的性质变化、专辑编辑工作的需要而适时调整、增减,为后期的检索、统计、汇编、分析提供支持。
3.可便捷地进行多次归类
以往对新闻信息的分类都是由分类人员一次进行的,完成后基本不会再作修改。但就媒体新闻数据库而言,客户的需求是不断发展变化的,旧有的分类有时无法满足新的需求。
例如,有新客户提出要对过去5年某地教育类新闻报道进行舆情分析。旧有类目中虽有“教育”类目,但实际工作中发现,有关教育政策的制定等新闻被归入了“政治”类,公安交警部门开展的校车安全检察行动的报道被归入了“治安”类,仅提取原“教育”类下的新闻数据进行分析将无法满足需要,简单地把相关新闻类号改入教育类亦不是妥当的做法。
采用分众分类,一是当专辑编辑人员或舆情分析人员发现问题时,可直接进行再次归类,不需要把需求转给分类人员进行操作;二是这样的再次归类可反复进行,尽可能适应变化了的需求。
(二)使用分众分类可能遇到的问题
由于分众分类本身具有的局限性,将其引入媒体新闻数据库系统中,可能会遇到如下问题:
1.标签多样不统一
由于分众分类是以词为类,采用用户自己标注的标签作为类目的分类法,不同用户对同一事物的标注有可能是多样的、不统一的,例如对有关“社会保险”的新闻,给出的标签就可能是“社会保险”或“社保”。如果不对类似情况加以处理,必然会影响数据检索的检全率。
2. 标签模糊不明确
传统分类法由专家反复研究编制,类目明确,指向清晰。分众分类法由用户自行给出标签标注,有的甚至是直接将文章标题或句子切分作为标签,因而可能导致词意模糊,专指度不够。例如从新闻标题《本期计划很给力》切分出的标签“计划”、“给力”等。语意模糊的标签将直接影响信息检索的检准率。
3. 标签的扁平化
分众分类的各个标签(类目)间没有等级层次的划分,因而是扁平化的。这一方面使得进行标签(类目)浏览时,一些有价值的标签可能会被淹没;另一方面,标签缺乏等级控制造成的信息分散也会对检全率造成影响[6]。例如上文举例中,由于“三打两建”与“三打”两个标签间并无等级从属关系,若某则新闻仅以“三打”作标注,当以“三打两建”为标签进行检索时就会被漏检。
四、在媒体新闻数据库系统中引入分众分类的思路
从上述分析可见,在媒体新闻数据库系统中引入分众分类法有利有弊,如何扬长避短,提高标引质量,使数据库系统能更好地满足用户需求、为客户提供更高质量的信息产品是关键。
(一)对标签的规范控制
相对于面向全体网民的门户网站、论坛等,媒体新闻数据库所面向的用户群较小,要求却更高。通常这些用户是付费用户,希望通过这类数据库得到更为准确、全面、条理性更强的新闻信息资料以及更深层次的信息产品,以适应不同的需求。
“用户群较小”的特点,恰使对媒体新闻数据库中数据进行分众分类的规范化更有可行性。可考虑从以下方面着手:
1.在分类阶段的控制
在分类阶段引入规范的标引词库,可有效地减少分众分类中标签的多样化及词意模糊等问题的出现。由于媒体新闻数据库中的数据信息是经过条件筛选后入库的数据,无论数据是由系统自动采集还是人工录入,均可在入库时进行初步的标签标注。自动采集的数据可利用PLM文章关键词提取器[7]或类似软件提取文章关键词后,与约定的标引词库中的标签进行比对,作为初拟的分众分类标签。人工录入的数据,亦可按标引词库初步提取出标签。对于新闻数据入库后,由信息产品编辑人员或普通客户进行标引时,均可通过标引词库向他们推荐标签,以避免标签的模糊性和随意性。
2.后控规范化处理
当用户提交标签后,系统需要进行一定的规范化处理,才能尽可能避免错误、无意义的标签产生,这包括利用受控词表等对同义词、近义词、专有名词等进行限定,以及利用后控手段对标签的筛选、融合处理,最终形成既能反映用户观点,又规范、准确的标签,从而提高标签系统的准确性、兼容性和开放性[6]。
(二)分众分类与传统分类的融合
在媒体新闻数据库系统建设中引入分众分类,并不是要以之替代传统的分类法,而是要综合二者的优点,实现对媒体新闻信息更有效的组织管理,为数据库系统的客户提供更优质的信息服务。
1.建立映射关系
建立传统文献分类法所使用的受控词表与分众分类标签间的映射关系,既可在用户标注标签时向用户推荐规范的标引词,也可在用户以文献分类法顺序浏览时同步展示出相应的标签,供用户参考选择,如此可达至标签的初步结构化,避免标签的过度扁平化。但仍需要考虑到这样的映射关系可能不仅有“一对一”的,也会有“一对多”的。如“校车”标签即可能与文献分类法中的“教育”、“安全”、“质量监督”等多个主题词相关。
2.更新完善标引词库
用户提交的标签可能在系统推荐的标引词库的收录范围外,对这些标签,应区分出有价值和无价值的。无价值的如词意过于模糊无法传达明确信息的,或有错字漏字的,均可被忽略。对有价值的新标签,应及时补充入标引词库,使之得以不断更新完善。
五、结语
随着互联网的发展从WEB2.0迈向WEB3.0,分众分类技术也在不断更新发展中。以信息开发利用为目标的媒体新闻数据库的建设,应不拘泥于传统技术,更要不断关注新技术的产生与发展,并将之引入数据库系统的建设中,以保持数据库系统的生命力,为客户提供更优质的信息服务。