1前言
信息可视化(InformationVisualization)是将抽象数据用可视的形式表示出来,以利于分析数据、发现规律(信息)和决策制定。我们知道图形可以帮助我们思考,信息可视化的关键是将数据用有意义的图形表示出来,目的是洞察数据,发现信息,做出决策或解释数据。
可视化系统主要采用树(Trees)、图(Graphs)、地图(Maps)及虚拟现实(VirtualReality)等隐喻方式,其中知识的组织和描述是关键。学术界提出的知识组织工具包括主题地图(Topicmap)以及本体(Ontology)[本体的开发工具较多,目前国内最为流行的是Pnrt6g6,是斯坦福大学医学院的医学情报学研究组用Java语言开发研制的本体构建工具,是集本体编辑和知识编辑为一体的开放源码软件,提供图形界面和交互式的本体设计开发环境。
国际上各种文献分类法(如UDC、DDC、CLC等),都是对信息资源的主题概念进行分类,用不同的代码表示一类信息资源的类别。这些分类法的最大可取之处是其对知识的科学分类,对本体的构建具有重要的借鉴意义。目前,国际上关于用本体工具构建分类法的研究并不多,因为本体和词表的相似性,大多数学者都在讨论用本体工具构建具体词表(如叙词表[3]和主题词表等);国外SudattaChowdhury和G.G.Chowdhury曾在其论文里讨论用Prot6g6构建《杜威十进制分类法》(DDG)的简单的可视化知识地图⑷。鉴于《中国图书馆分类法》(CLC)在国内使用的广泛性和科学性,如果《中图法》可以实现可视化,对于图书情报部门的分类编目以及各种类型用《中图法》做分类依据的检索系统都很有帮助。本文首先选择《中图法》中几个具有典型关系的类目,描述如何用Prot6g6进行构建,并通过Prot6g6的部分插件对这些类目及其类目间的关系进行图形化显示,以证明用本体工具Pn>t6g6实现《中图法》可视化的可行性。
2Prot6ge实现《中图法》可视化
传统的信息、知识组织方法有许多种,并且在很多领域有着广泛的应用。这些方法经过长时间的积累,巳经形成了一个比较完善并且得到公众认可的概念体系,一方面可以直接用来构成顶层本体,然后在词基础上进行加工、添加属性等;另一方面,里面的词汇及层次结构,又可以在我们构建本体时提供重要的参考[5]。所以当许多学者致力于建立不同学科的本体时,另一些学者使用已存在的知识组织和管理工具,例如分类法和叙词表。一个成熟的分类表可以帮助我们在构建本体时选择概念及表述概念之间的关系,并判断概念之间、信息资源之间的相关性。
《中国图书馆分类法》是国内影响最大、使用面最广的图书分类法,不仅图书情报部门类分文献使用,而且在图书发行、各类数据库乃至互联网中也得到了广泛的应用。《中图法》采用等级列举式的分类体系,类目(包括通用复分表和专用复分表的子目)采用“字母数位元混合制”标记,一般用一个字母表示一个大类,用字母加数字表示大类下类目的层层划分。每个类目都表达一个完整的主题,类号是先组式的,类目之间关系及其显示呈现为纵向和横向两种。纵向关系指类目间的等级关系,横向关系指类目间虽不存在等级关系,但内容上相互关联。本文根据这两种关系,在各个大类里任意挑选几个有相应关系的类目,并结合复分表进行构建,各类的类号和类名作为本体名称一并输人。因Protege系统将“Thing”(事物)定义为超类,用户定义的类都是其子类,所以本文在“OWL(:1_(类目)”模块里将构建的最高级类目设为超类“Thing”的子类,再按《中图法》的体系结构往下细分;不同级别类目之间的横向关系用Prot6g6中的“properties(属性)”模块来揭示;可视化图形用Pn)t6g6中的部分插件(TGViz,Jambalaya等)来显示。
2.1纵向关系的实现
①从属关系又称隶属关系,是指类目体系中母类与其子类的关系,连续划分的一系列具有从属关系的类目称为一个类列或类链⑺。分类表中同时使用不同的字号、字体和排列的缩格来表示类目的级位,而在Prot印6的不同插件所展示的图形中,是通过(带箭头)连接线表现类目之间的从属关系。例如图1所示,在TGViz插件中搜索“G250图书馆学”,可以明显看出“G25图书馆学、图书馆学事业”是其上位类,“G250.7图书馆自动化、网络化”是其下位类;同理,层层下分。
②并列关系通常指类目体系中同位类之间构成的关系。凡属同位类的类目,它们之间的性质、范围一般应是互相排斥的[7]。例如图1显示,在Prot辦的TGViz插件中,搜索“H3常用外国语”,可以看到其下有七个同位类“H31英语”、“H32法语”、“H33德语”、“H34西班牙语”、“H35俄语”、“H36日语”、“H37阿拉伯语”,这些同位类围绕着上位类,同位类之间呈辐射:状显示。
2.1横向关系的实现
①交替关系是指类目体系中具有多种从属关系的知识门类,这类类目一般用“[]”括起,注明“宜人XX”或“XX人XX”,本身不能用来分类,只起引向使用类目的作用〖7],但在分类检索系统中能为读者提供多途径检索。例如,在《中图法》里,“[RM5]放射性物质对环境的污染及防护”宜入“X591放射性物质污染及其防治”,因此本文在properties模块中设置“宜人”属性,在OWLClass模块中,将类目R145添加此属性,并指向类目X591,如后页图所示。
②相关关系,又称类缘关系。其形式在分类表上用参见注释和多重列类法来体现的。参见不是推荐,也不是仿照,只是对分类的一种提示、指导和帮助[7]。在Prot6g6中,参见注释的设置和交替类目一样,在properties模块中设置“参见”属性,然后指向相应类目,这里不再详述。多重列类有分面分类的性质,是对某个类目同时采用几个分类标准,建立几组平行子目,平行子目所体现的内容相互交叉,例如“J9电影电视艺术”按不同的标准分为“J95各种电影、电视:按内容分”、“J96各种电影、电视:按表现形式和技术分”和“J97各种电影、电视:按题材分”。在Prot6g6中,因其本体名称中不能使用标点符号,所以本文在输入本体名称时将分类的标准放在类号之后,如下图Pn>t6g6的TGViz插件所示,平行子目与并列关系中的同位类一样,围绕其上位类呈辐射状显示,本文这里没有选择显示所有类目,只选择了显示2级类目,图3中类名上的数字表示其类目所应有的下位类。
现的共性类目,制定了仿照复分的办法,《中图法》的八个通用复分表,适用各个类目,具有分面组配的性质。类目仿分实际上就是一个隐含的专类复分表,只是不单独编表而已[7]。例如,在《中图法》里,“1227当代作品”仿类目“1266现代作品”分,因此本文在properties模块中设置“仿分”属性,具体操作与上面两种横向关系类似,这里不再详述。下图4是以类目1227仿1226分为例,展示了用Prot6g6中Jambalaya插件所显示的可视化图形中类目之间的仿分关系。在图4中,类目之间的纵向关系以蓝线相连,箭头从上位类指向下位类;带箭头红线表明其横向关系,当鼠标扫过红线时,跳出的红色小窗口就显示类目之间应遵守的关系。如图中1227与1226之间就有红线相连,箭头指向1226,鼠标放到红线上显示“1227当代作品仿分1266现代作品”。
3Prot#6实现《中图法》可视化的评估3.1优点
①类目显示的丰富性。传统的文献分类法是典型的树型结构体系,用户检索时必须严格遵循其既定的线形体系⑻。用Prot6g6构建的分类法,突破了以往惯用的树型显示方式,提供多级显示。当以某一个类作为检索点时,可以显示这一类目的所有上下位类。而且还可在“Radius”(显示级数)选项中进行选择(从0到10),实现多级显示。当选择显示级数为一级时,可以显示检索点的基本信息;当选择
②显示形式的多样性。Prot6获提供了很多可视化插件,在这些可视化插件中,可以以各种形式来表现类目,提供多维显示,使信息显示的丰富程度大大增加,例如在Jambalaya-个插件中,就有辅射形、喷泉形、垂直树形、水平树形等各种图形显示类目,类目间不同的关系可以选择用不同的颜色来显示,而且允许交互式的导航,界面非常简单友好,这里就不一一展示。
③使用方便Prot6g6工具的安装软件与插件可以免费下载,使用时不需要掌握具体的本体表示语言,而且Prot6g6具有图形化的用户界面,与Windows操作系统的风格一致,模块划分清晰,配有详细的帮助文件,比较容易学习。除此之外,Prot6g6提供的部分可视化插件支持中文的编辑和输出,构建的分类法可视化界面里的每一个类目,包括类目的实例,都是检索点,双击即可显示其相关信息,在需要时可以迅速访问相关的信息,大大方便了使用。另外,Prot6g6具有很好的开放性和兼容性,可用RDF、RDFS、0WL等本体语言在系统外对本体进行编辑和修改。
3.2存在的问题
①通过研究,发现《中图法》的设计思路、功能、对象、用法与现在的本体是有很大区别的,《中图法》是按照知识门类逻辑次序,层层划分、逐级展开的列举式线性结构组织信息,允许多层次的结构,二级显示时,则以一级显示时所显示的信息为中心再次进行辐射,以此类推。一般来说,比较实用的是二级或三级显示,若显示级数过多的话,就会由于内容过多而显得杂乱无章。另外,除了多级显示外,可以同时显示类目的属性及其实例。(本文参廂《中国分类主题词表》给相应的类目以实例,如“R289.2医方汇编”的实例有:成方、防病方、复方、急救方、经方、时方、土方)。在Prot6g6的Jambalaya插件中,如图5所示,图中类目的实例都用红色的小方框表示,检索时输入类目名称或实例都可以,通过任一个实例都可以找到其所属类目。
这就意味着一个类目有多重的关系而本体就是领域内使用,满足领域内知识的组织,只要在高层本体和顶层本体遵循一定的原则就可以了。因此用本体工具构建《中图法》,每个类目、类目间的关系都需要定义,许多类目间模糊的关系需要明确。经过研究,本人认为最好不要将整个《中图法》原原本本地进行转换,应当参考《中图法》的逻辑层次,根据具体的需要,按各个大类构建某个大类的知识本体。
②Prot6g6是是斯坦福大学用Java语言开发研制的本体构建工具,构建时输入的类名第一个字符必需是英文字母或汉字,类名中不能使用标点符号;而且部分插件(如OWLViz插件)不支持中文显示,在一定程度上影响了可视化后的分类法的易用性,这就涉及到了工具的汉化问题。另外Prot6g6不能同时打开两个本体,用其进行可视化显示时,如果类目过多内容复杂,标识容易重叠,细节层次与缩放比例难以协调,图形常常相当拥挤,会出现显示信息不完整的现象,这无疑影响了其实用性。
③用Prot6g6构建分类法,只能用手工进行逐个类目的输入,不支持批量输人,构建整个《中图法》的类目表需要相当长时间,费工费时,运行速度慢,成本较高。
4结语
当然,本文只是研究的初级阶段,只是讨论用
Prot6g^工具构建《中图法》的基本类目和类目之间的基本关系,下一阶段的研究是将构建的分类法可视化地图应用到图书馆检索系统中,以期对图书情报部门的分类编目和检索有更好的帮助。而基于本体的图书馆检索模型,国内外已有学者在讨论研究[〗2_14],给予了一定的理论基础。总之,Pn^g爸因其多维、多级显示方面的优势,并且操作简单,所以用其进行《中图法》的可视化有其可行性。但是,Protege毕竟是国外开发的软件,设计思路和原则与《中图法》有一定的出入,并且部分插件不支持中文输出,需要对其进行改造。当然,最终的解决办法还是希望国内的专家学者们能重视这个领域,结合《中图法》的编制原则和特点,开发中文的可视化工具,为《中图法》的可视化提供更好的前景。