[摘要]在介绍传统世界的信息组织模式的基础上,从传统世界信息组织的缺陷入手,比较分析数字世界的信息组织在检索语言、元数据、分类方式、组织理念上的变革和优势。从不同角度论证传统世界的信息组织存在的必然性,进而探讨新信息环境中信息组织的发展趋势,指出信息组织应沿着传统世界与数字世界的融合、社会网络和知识关联方向发展。
[关键词]信息组织 传统世界 数字世界 发展趋势
1 传统世界的信息组织
传统世界的信息组织是指对由原子构成的实体资源的组织,包括简单的安排事物——如餐具如何在橱柜中摆放,商品如何在货架中排放。但是,其最重要的组织对象是附着于各种载体上的信息,即文献信息的组织。是一种线型模式,如图1所示:
其中信息标引、信息描述、信息排序是关键的三个阶段。信息标引是指在对信息内容进行分析的基础上,根据一定规则给信息的内容属性以标识,并作出描述的过程;信息描述是指根据信息组织和检索的需要,对信息资源的主题内容、形势特征、物质形态等进行分析、选择、记录的活动;信息排序是在信息标引后,按一定规则和方法把所有信息描述记录组织排列成一个有序的整体。在传统世界中,庞杂、无序的文献信息群经过选择、标引、描述、排序后,很好地实现了有序化,保证了原子世界中的每个实体在一定空间内的唯一性,这种机制,对信息资源的开发利用以及用户检索信息有着不可替代的作用。
但是,由于传统世界的信息组织对象是原子所构成的物质,而原子的运行是遵循特定规律的:①由原子构成的物质随着时间的推移会越来越不稳定,纸张会泛黄和分解,照片底片会溶化,所以必须采取一些措施来让大自然的作用偏离它的轨道;②原子构成的物质需要占据空间,为了节省空间,必须为物质安排唯一的位置,同时要建立目录、索引等检索工具来指示物质的位置,但是这些检索工具不可能记录某个实体信息资源的所有信息,当实体信息资源的规模大到一定程度时,即便是引用计算机与网络技术,信息的查找利用也很难做到高效、准确。Www.133229.CoM在传统世界中,无论采用何种信息组织方式,都要受其信息组织对象自身以及环境的限制,毕竟在一个图书馆中,很难会把一本书放在它可以归属的多个书架上,因为这样太浪费空间。
2 数字世界的信息组织
与传统世界相比,数字世界的信息组织发生了很大变化。信息内容被数字化成比特;信息组织的范围更为广泛,不再停留在对文献特征的描述,而是深入到了知识单元;信息组织的空间更为广阔,它不再需要如传统世界那般就单一的信息组织框架体系达成一致。随着web2.0的深入发展,信息组织在检索语言、元数据、分类方式、组织理念上蓬勃发展,展现出全新的特征,这不仅是技术上的变革,更是理念上的颠覆。
2.1 检索语言的发展——标签语言
标签语言是一种纯自然语言,它的语词来自于一个平面的命名空间,不受任何预先制定的词汇间的关系限制。以受控语言为基础的传统分类法和主题法主要应用于图书馆的文献信息组织中,这类信息资源在一定意义上具有同质性,即由原子构成,由于实体空间的限制,它们一般是集中分布、规模有限、增长速度可控的;同时用户一般都具有一定的知识基础,对信息检索的查全率与查准率要求比较高。在这种情况下,采用受控语言的分类法和主题法可以通过较为严密的机制满足用户的需求。但是,对于数字世界中由用户产生的海量、动态、异质的信息资源,由一个采用受控语言的系统集中控制和组织的难度加大、成本增加,而标签语言的优势恰好可以解决这些困难。
2.1.1 多维度揭示信息资源 标签既不同于分类法的类目,也不同于主题法的主题词,它是在对信息进行概括和理解基础上产生的,是基于对信息内容个人理解上的私人标注,可以是针对主题,也可以是与文章主题无关的语词,因此标签的设定要比主题词自由、方便,它可以从多个维度来揭示信息内容,从多个语境来丰富其含义,例如,一张以长城为背景的照片,可能拥有“长城”、“艳阳高照”、“旅行”、“恐高”等标签。
2.1.2 具有大众性传统世界的信息组织需要专业人员或计算机来完成信息标引、描述工作,而标签语言没有采用预先定义的分类法和词表,不需要用户拥有分类法或者本体相关的知识。这样,用户可以在几乎不需要任何学习和使用成本的情况下独立、轻松的完成信息的标注和分类。
2.2 元数据的发展——任何信息都是元数据
元数据一股被认为是“关于数据的数据(date a—bout date)”,它由专家制定,具有严格的规范性,以信息内容为出发点。其实它并不是一个全新的概念,早已广泛应用于传统世界的信息组织当中了,像图书中的版权页说明、图书馆中的目录卡片等都是元数据。元数据经过了10余年的发展,其标准越来越复杂,随着网络信息的快速增长,信息类型越来越多样化,任何标准都面临着“滞后”的风险,同时其严格的规范性也限制了用户的使用。
在数字世界中,元数据正在打破那些严格的限制,也在挑战传统的元数据的概念。如果你记不清罗贯中某部著作的名称,可以求助于google图书的搜索框,输入“罗贯中”,就可以看到一张罗贯中著作列表。只要点击《三国演义》的链接,你就可以查到全文,其中包括那句经典的原文:“滚滚长江东逝水”。相反,如果你想知道“滚滚长江东逝水”这句话的出处,只要将这句话输入google图书的搜索框,就能够看到《三国演义》被列出来。在第一个例子中,是用罗贯中的名字作为元数据来找到书中的内容,而在第二个例子中,是用书中部分内容作为元数据来找到作者和书名。可以说,在多元的数字世界中,不仅一本书中的每一个词都可以被看做元数据,而且链接到这本书的每一种信息也是如此,元数据和数据的唯一区别就是,元数据是你已经了解的信息,而数据是你试图找出来的信息。
2.3 分类方法的发展——folksonomy
分类在传统世界的信息组织中占有重要地位,传统世界对信息的分类主要采用等级分类法。等级分类法将类目体系组织成一个树状结构,其结构显示直观,类目设置比较均衡,非常适和文献的分类排架。但是,这种树形结构必须以牺牲丰富性和深度为代价来达成广泛性,它构建的基础就是一遍又一遍地使用隶属关系:“b是a的一种”,或者“b应该向a报告”,又或者“b是a的孩子”。无论各个分支体系是何种关系,这种关系都太过简单化了,根本不能体现事物自身及其相互关系的复杂性。
在数字世界中,信息空间更为广阔,由下而上的folksonomy正在崛起。与传统的树形分类结构相比,folksonomy拥有立体化的、非等级结构的类目体系。如果把等级分类法比喻成一颗树,那么folksonomy可视为一堆离散分布在一个立体空间中的树叶。在这里,利用folksonomy对“索尼照相机”这一类目进行组
织,以明晰其组织原理。首先,对“索尼照相机’’这一类目进行分析,由用户对“索尼照相机”添加各式各样的标签,标签完全不受限制,包括照相机、索尼产品、生日礼物、旅行用品等。这样“索尼照相机”就分散在多个类目下,将一片叶子挂在了属于它的多个枝头上,用户可以更方便地找到它;另外,这种标签立体图揭示的关系更为丰富多彩,例如,“索尼笔记本”、“索尼手机”这两个类别同样可能被标上“索尼产品”这个标签,然后“索尼笔记本”、“索尼手机”、“索尼照相机”就通过“索尼产品”这个标签形成了聚类,同样,通过“照相机”、“生日礼物”、“旅行用品”这些标签又可以与其他的多个类别、多个事物形成联系,这样就构成了一个密集的信息网络,就如同漫天飘舞的树叶,而且,这些飘散的树叶又是智能的,通过一个叶片可以联系到多个叶片,只是叶片之间的联系是潜在的,等待着用户去发掘和创造而已,如图2所示: