基于本体的市场准入知识获取技术的研究与实现

　　【论文关键词】：本体　知识获取　　知识管理　　市场准入。

　　【论文摘要】：随着本体论的研究和应用在计算机领域的发展，这一理论的成果在信息服务平台建设方面也得到了应用与推广。本文首先介绍本体相关理论的知识获取、检索技术为出发点，利用Java语言的跨平台性和可移植性特点及J2EE构件化开发技术。结合知识管理与工作流技术的理念，提出了一种集成企业平台知识获取应用模型以及市场准入领域本体的关联模型，并在项目中予以应用。

　　1研究背景

　　市场准人技术措施研究的主要内容是国际市场的准人机制、技术措施、技术法规与技术标准等。目的是为产品出口提供技术支持．帮助企业顺利进入国际市场．从而规范和保护国内市场、营造良好的产业发展环境提供智力和信息支援。

　　随着知识管理的进一步研究与应用．知识管理要求企业更加重视对知识资产的保护。本课题在本体论的基础上．以知识管理和工作流技术为主旨．从研究市场准入信息服务领域的主要内容出发。即技术法规、技术标准、合格评定、标签标志和预警通报等，开发一套从知识获取、知识处理与存储、知识共享与重用、知识发现等功能的知识管理型平台知识管理所涉及的关键技术包括知识获取技术、存储技术和检索技术等。下面将从语义理解的角度探讨相关理论。最后给出实现该平台的框架模型。

　　2知识管理相关理论

　　知识管理不同于信息管理．它的目的是通过知识的共享来达到提高整个组织的应变与创新能力。从而提高企业的竞争力。下面将从知识本体论和知识管理支撑平台相关理论加以阐述。

　　2．1知识本体论相关

　　从哲学观点考虑．本体的概念是指”现实世界中各种类型的对象、属性、事件、过程和关系的哲学表示”，研究的是一种存在性的问题。而其在计算机学科领域的解释为：通过本体涉及到的概念、术语及其相互关系的规范化述。勾画出某一领域的基本知识体系和描述语言

　　在知识工程、自然语言处理、信息检索系统、智能信息集成等领域研究和发展本体。是因为包含有一定的特点：本体是领域内形式化描述的基础；可以在不同的建模工具、语言、软件工具进行翻译和映射：在知识管理方面．本体就是一个词汇表。本体是领域知识的形式化的说明。通常由概念、概念之间的关系、公理、规则组成。元数据解决资源的语义描述问题．本体可以将对象知识的概念和相互间的关系进行较为精确的定义。

　　元数据提供知识库的语义基础．使资源有了基本的微观结构，但是元数据并不能完全解决信息系统的语义异构问题．知识本体在某种程度上可以看成是”元云数据．信息系统中不同实体对象可能采用不同的元数据方案．不同的实体对象之间的关联关系非常复杂，知识本体能够对这些情况进行很好的描述。元数据与本体的关系可以简单地看成是微观与宏观的关系本体论也可以用一个三元组0(C，R，S)表示。C表示概念的集合．R表示概念间的关系。S表示约束。S本身是二元组<ConS．RolS>．Cons是对C中概念的约束．RolS是对关系的约束。知识本体的创建过程如图所示：某个具体领域的知识本体不可能是唯一

的。形式化方式手段也可以不同．但是不同的知识本体必须通过某种机制保证交换和映射的顺利进行．形式化的方式也需要标准化。这就是知识本体语言的作用。本体域与元数据的映射关系可以描述是l：N的关系。

　　从目前的研究看．知识处理较为可行的方案是由Bemers—Lee提出的语义Web结构。在此之上构建本体和逻辑推理规则。以完成基于语义的知识表示和推理，从而能够更好地为计算机理解和处理

　　知识管理理念应用在系统平台建设上．具有非常重要的意义。其中知识获取技术即知识检索技术被认为是本支撑平台的关键技术。

　　知识获取最主要的目的，在于从原有的资料里。抽取出有用的资料知识。知识获取的方式有两种。一种方式就是从外部比如网页获取与本领域相关知识．另一种方式是从自身业务系统对知识经验的积累。这里要关注的主要是第一种方式。因此如果以最原始的方法从外部网页获取知识，即采用人工方式．除了费时外，还可能产生标识的语义错误或者专业术语的认知差异。因此尽可能使这一过程成为一个自动化的过程。自动化获取技术是个非常复杂的过程．包括获取规则的产生以及找到相关领域知识关键词并且分析其语义。

　　现有描述网络信息的语言有多种。如XML,RDF,OWL等，它们的格式各不相同。为了便于数据的表示和交换以及检索．选定RDFS(ResourceDescriptionFrameworkScheme)。它是在RDF基础上增加了许多语义原语．用来更进一步增加对资源语义的描述能力。如类、属性、类和属性之间的隶属关系等。RDFS更多的内容在此不熬述。它具有领域的模型概念。RDFS虽然能表示语义。在某一程度上也能用它来表示本体。但是它没有足够的标签来表示完整意义上的知识本体为了满足语义方面的要求．因此出现了OWL(WebOntologyLanguage)语言，它是借助XML语言为基础，基于XML格式描述本体，具有较强的表达概念的能力和推理的能力．满足智能检索中进一步实现推理的要求

　　0WL作为W3C推荐标准，是语义万维网的核心技术之一。它通过定义类和类的属性来形式化一个领域．声明和定义对象和对象的属性．以及在0WL形式化语义允许程度上对类和对象进行推理。以下是OLW文档片段：

　　管理支撑平台基于知识的、语义上的匹配即从内容导向出发，获得较好的查准率和查全率。以下将从宏观层面介绍知识管理支撑平台的外部体系结构。

　　将管理支撑门户(MSP)~知识管理(1)两者整合在一起，真正实现”管理形式”和”管理内容”的统一。用公式描述为：

MSP+KM=KMss(KM basedManagementSupportedSystem)基于知识管理的信息服务平台建设．必须抓住强调以人为本。它从以人的操作为主，演变为一个整合式的知识管理为主的电子化服务平台。可通过统一的入口登录平台查询所需的信息，并在适当的时候由智能代理启动服务程序。

基于J2EE架构、Domino俳结构化文档数据处理技术体系结构模型如下图所示：

在数据层。由于涉及的数据多数为非结构数据。由文档数据库保存文档数据．元数据库支持知识元数据的管理以及支持关系型数据管理的数据仓库。

　　构件层是一组用来分发处理相应数据的功能组件。支撑平台层涉及平台的一些公共的技术。比如搜索引擎．业务工作流模型。CMS等。它们均在不同的应用服务中被调用执行。

　　企业服务总线提供给应用系统发出应用请求的一个分类服务层。提高了服务器的安全性、高效性及稳定性。

　　建立在本体领域基础之上基于语义web的外部知识获取技术．是知识管理型市场准入平台的关键部分。由于很多技术法规、标准、合格评定程序都是动态发展的。及时追踪各网站动态变化．自动更新各行业技术标准、法规等是至关重要的一步。因此从增量数据挖掘来看．必须强调在领域知识的自动数据挖掘过程。本着市场准入本体领域知识共享的研究．首先必须确定本体模型．以下是市场准入的本体领域模型：

据前面介绍的本体理论可知．本体包括领域相关概念及其概念的关系。那么市场准入领域的相关概念见上图。我们使用本体就是为了通过一定的规则更容易标识语义网中的相关概念．从而获取要搜索的领域知识。

　　在语义网络之上构建本体和逻辑推理规则．以完成基于语义的知识表示和推理。从而能够为计算机所理解和处理，是实现智能提取技术的基础。在自动提取阶段。可以采用启发规则和经验规则的推导过程。同时也必须关注领域本题自身的建设与维护，比如术语、概念关系的增减等，便于领域本体的完善。为信息的自动提取提供可靠的保证

　　本文以本体论的基本理论为基础．从知识获取技术的角度出发。应用语义网模型，构建知识型市场准入平台的框架。利用元数据表示本体概念。方便本体的维护与扩充。由于知识获取的关键就是通过构建语义网，标识关键词、术语，形成领域本体，通过与本体概念的比较推理提取相关信息。市场准入平台在上述框架模型和领域本体的基础上实现一个自动获取知识的工具。