人工智能是计算机科学的一个分支,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学,在许多科学领域都获得了广泛应用,网络信息检索就是其中一个非常重要的应用。文章介绍了信息检索的基本概念和人工智能的常用方法,指出跨语言检索已越来越成为信息检索的一个重要方向;对跨语言检索的实现模式、语言学资源、实现的关键技术问题进行了阐述;并展望了人工智能领域的发展前景。
0 引言
人工智能(Artificial Intelligence)是当前科学技术发展中的一门前沿学科,是在计算机科学、控制论、信息论、神经心理学、语言学等多种学科基础上发展起来的一门综合性很强的边缘学科。它是研究机器模拟人的大脑所从事的感觉、认知、记忆、学习、联想等思维活动,解决人类才能处理的复杂问题,实质上是模仿人的大脑而展开思考[1]。目前,人工智能技术已经应用在许多方面,而信息检索(Information Retrieval)就是其中的一个重要应用。
1 信息检索系统概述
人类解决问题的方法之一就是不断地尝试,即逐个地检验可能解决问题的每个方法,直至找到一个可行的方法为止。但是这种盲目的搜索法,随着问题规模扩大,可能组合的数量也就增长的越大,“组合爆炸”效应使得这种方法并不能解决大而复杂的问题。
完整的信息检索应包括信息的存储和检索两个过程,主要针对的是单一语种的文档集,其查询语言通常为单一语种。而如今的趋势是人们所面对的信息资源不再是单一语种,而是用不同语言表达的信息汇聚在一个集合中。因而多语言问题日益成为信息共享的一个主要障碍,基于此,跨语言检索则成为解决这一问题的一个最佳方案[2]。
2 人工智能的基本方法
人工智能就是为了帮助人们更快的解决问题,它包括两方面:对于确定性事物的判断和对于不确定性事物的判断,它的主要方法包括以下几种。
2.1 启发式搜索
不断地尝试各种方案的准确性,对各种可能性进行反复测试,直到找到合适的解决方案,是人们常用的方法。常用的搜索策略有盲目搜索和启发式搜索。盲目搜索是按顺序测试各种方案的可行性;而启发式搜索则可以根据经验和启发式信息进行搜索,对希望不大的搜索方向就直接摒弃掉。
启发式搜索可以利用问题本身的定义,还可以利用与问题有关的一些特定的知识进行搜索,因而可以找到更有效的解决方案,大大缩短了搜索过程。
2.2 智能规划
智能规划主要是面向实际问题,基本思想是:对周围环境进行认识与分析,根据要实现的目标,对若干可供选择的动作及所提供的资源限制施行推理,综合制定出实现目标的规划。规划要依靠启发式信息,成功与否,很大程度上决定于启发信息的可靠程度。而智能规划问题的操作的前提之间也存在着很强的依赖与冲突关系,即一个操作的使用常常使另一个操作无法执行,甚至导致最终目标无法实现。因此,在智能规划中也要考虑如何避免操作间的冲突。
智能规划目的是建立起高效实用的智能规划系统。该系统的主要功能可以描述为:给定问题的状态描述、对状态描述进行变换的一组操作、初始状态和目标状态。智能规划系统能够给出从初始状态变到目标状态的一个操作序列,其复杂性和所处的环境以及Agent的功能有关。
2.3 知识的表达技术
知识及其表达是计算机科学中智能程序设计研究的主要领域,也是人工智能领域关心的基础性问题。知识表达(Knowledge Representation),即知识表示或知识描述,也就是知识的形式化或模型化,是研究在机器中表示知识的方法、可行性、有效性及一些通用的原则。而智能程序,就是把现实世界的知识有机地结合到计算机程序中,使程序具有识别、学习、推理和适应环境等能力。主要技术包括:如何把各类知识进行编码、存储;如何快速寻找需要的知识;如何对知识进行运算、推理;如何对知识进行更新、修改等[3]。
3 跨语言信息检索
跨语言信息检索(Cross-language Information Retrieval,CLIR),是指用户以一种语言提问,检出另一种或几种语言描述的信息资源的信息检索技术和方法。跨语言信息检索中,用户用以表达自己的信息需求,构造检索提问式的语言称为源语言(Source Language),被检索的信息资源所使用的语言称为目标语言(Target Language)。而要实现语言之间的转换,首先要使计算机能理解自然语言文本的意义,然后能以自然语言文本来表达给定的意图、思想等。例如自动识别一份文档中所有被提及的人与地点;识别文档的核心议题;在一堆仅人类可读的合同中,将各种条款与条件提取出来并制作成表;或者通过精心选定的某些特征和文本中的某些元素结合来识别一段文字,通过识别这些元素可以把某类文字同其他文字区别开来,比如垃圾邮件同正常邮件等等。
跨语言信息检索是在对自然语言理解的基础之上,其关键问题是要使查询语言与文档语言在检索之前达成一致。使用户以一种语言提问,可以检索出另一种语言或多种语言描述的相关信息。例如,输入中文检索式,跨语言检索系统会返回英文、日文等语言描述的信息,而且这些信息不仅仅是文本信息,还可以是其他形式的信息。
3.1 智能技术在跨语言检索的实现模式
人工智能技术在信息检索系统的广泛应用,是人工智能技术与信息技术的成功结合的结果。在跨语言检索中,提问式所用的源语言一般是用户的母语,而被检索的文档所使用的目标语言,一般是用户不熟悉甚至完全陌生的语言。目前跨语言检索的主要实现方法有提问式翻译方法、文献翻译方法、提问式-文献翻译方法、中间翻译方法、专有名词音译方法、基于本体的转换方法等。而最常用的就是提问式翻译方法。
3.2 跨语言检索中的语言学资源
在跨语言检索中,两种或多种语言之间的翻译对于跨语言检索的性能有重要影响,翻译必须以一定的语言资源工具作基础,主要解决的问题是语言障碍,在跨语言检索中,常用的语言学资源有手工编制双语词典、机器可读词典、语料库等。
手工编制双语词典是翻译人员进行翻译必备的工具,具有准确、全面地优点,但在跨语言检索中难以实现计算机的自动识别处理。
机器可读词典是把手工词典以机器可读的编码形式进行组织,便于实现两种语言在词汇层次上的对译,但机器可读词典如不借助人工干预,则难以解决翻译的歧义性问题。
语料库,尤其是平行语料库的应用,不仅改善了词翻译的不确定性,而且对于专有名词的翻译有着重要的意义,因为在平行语料库中,词与词之间的对应是惟一的,很多在手工编制双语词典和机器可读词典中不能获取的词都可以在平行语料库中得到。
各种语言资源在跨语言检索中使用不是孤立的,同时使用两种或多种语言资源会达到更好的效果。
3.3 跨语言检索的关键技术
在跨语言检索中主要涉及的关键技术有计算机信息检索技术、机器翻译技术和歧义消解技术。信息检索技术完成提问式与文档之间的匹配,机器翻译技术完成不同语言之间的语义对等,歧义消解技术则解决翻译过程中的多义和歧义问题[4]。
3.3.1 计算机信息检索技术
计算机信息检索技术主要是自动搜索技术、自动标引技术、语言处理技术和自动匹配技术。检索系统利用网络爬虫进行网络信息的收集,然后利用自动标引技术对搜集的信息进行标引,使用相应的语言处理技术,实现2种语言的相对应,形成索引数据库。用户输入检索式,计算机把检索式与数据库中的索引项进行匹配,按检索式与标引项相关度的大小排序输出检索结果。其实现过程如图1所示。
3.3.2 机器翻译技术
在跨语言检索中,所要解决的问题实际上是一个语言处理问题。不同于单一语种的语言信息检索和机器翻译,也不是两种技术的简单叠加,而是一种有机的融合,有着自身的特点和专门的研究内容。机器翻译技术实质上是一种能够将一种语言的文本自动翻译成另一种语言文本的计算机程序,核心是保持两种文本(源语言文本和目标语言文本)的语义对等[5]。由于在翻译过程中,源语言文本中的词往往对应目标语言描述的几个词,所以要选择最合适的词或相关处理以达到意义上的一致。在跨语言检索中,翻译的准确性直接决定了检索的准确性,准确性的提高需要利用自然语言处理与机器翻译相结合的技术,而由于这涉及复杂的计算机语义分析技术,因此机器翻译的效果还远未达到人们所期望的水平。
3.3.3 歧义消解技术
跨语言信息检索涉及到两种语言之间的相互转换,在此过程中主要会出现的问题是歧义问题,需要解决自然语言文本和对话的各个层次上广泛存在的各种各样的歧义性或多义性(ambiguity)。在自然语言中,一词多义和一义多词的现象是非常普遍的,对查询进行处理时,确定检索词的确切含义是非常重要的,即要把带有潜在歧义的自然语言输入转换成某种无歧义的计算机内部表示,这需要大量的知识和推理。而对被检索文献而言,要提高查准率,就需要明确文献中出现的检索词的含义,以判断其相关性。
跨语言信息检索中的歧义来自源语言和目标语言两个方面,解决方法可以分为两类。
一类是在一定程度上模仿人类解决歧异性的方法,结合人工构造的语法学、词法学、句法学、语义学等方面的知识,力求给出文本非歧义的解析表达。但是机器要在这种全文本层次上实现正确有效的分析是相当困难的,其性能水平无法与高昂的语言分析成本相对应。因此,这类方法大都局限在语言的特定子集或较小的论域中。
另一类是采用一些比较实用的方法,力图以较低的成本达到较合理的性能水平。例如:通过对查询翻译中根据上下文信息确定词性的词性标注技术;利用两个有一定关联的词共同出现在某一篇文献,或者文献的某一个部分的这种关联,来确定词含义的词的共现技术;用来解决用户查询表达式比较简短,且缺少充足的语境信息对其进行准确翻译问题的相关反馈技术等。这些都在跨语言信息检索中扮演着重要角色。
4 结束语
互联网的飞速发展,对我们的生活、工作将带来巨大的影响,掌握信息检索已成为每个人须具备的基本能力,因而信息获取和精化技术也就成为当代计算机科学与技术中迫切需要研究的课题。如何更好地将人工智能技术应用于这一领域,是人工智能走向广泛实际应用的契机与突破口。本文探讨了人工智能在信息检索中的基本方法,并对跨信息检索的关键技术作了初步的探讨。虽然目前该领域还存在着诸多的问题,如:非文字资源,包括音频资源和视频资源的搜索,准确率还有待提高;搜索中涉及到的用户隐私、安全性还有待完善,与用户真正需要的高效、智能服务还存在一定的差距等。未来其发展的潜力将是十分巨大的。
作者:臧劲松 来源:计算机时代 2016年10期