现代信息检索论文: 现代信息检索方法的探讨 要想充分利用这些浩如烟海的文献信息资源,必须借助各种各样的检索工具。同时,因特网信息资源的骤增及其异构性、动态性,不断给信息检索带来新的挑战。信息检索已成为现代社会信息化和各种应用的关键。如何更高层次的模拟、应用人脑的智能原理,从本质上变革信息资源检索方法,已成为现代化信息知识检索理论研究的热点。实践证明,将人工智能技术与信息技术结合,发挥人工智能的作用,是一条成功的经验。下面就知识检索与信息检索的关联和发展,作初步的探讨。 一、布尔检索 利用布尔逻辑算符进行检索词或代码的逻辑组配,是现代信息检索系统中最常用的一种方法。常用的布尔逻辑算符有三种,分别是逻辑或“OR”、逻辑与“AND”、逻辑非“NOT”。用这些逻辑算符将检索词组配构成检索提问式,计算机将根据提问式与系统中的记录进行匹配,当两者相符时则命中,并自动输出该文献记录。 下面以“计算机”和“文献检索”两个词来解释三种逻辑算符的含义。①“计算机”AND“文献检索”,表示查找文献内容中既含有“计算机”又含有“文献检索”词的文献。②“计算机”OR“文献检索”,表示查找文献内容中含有“计算机”或含有“文献检索”以及两词都包含的文献。③“计算机”NOT“文献检索”,表示查找文献内容中含有“计算机”而不含有“文献检索”的那部分文献。 检索中逻辑算符使用是最频繁的,对逻辑算符使用的技巧决定检索结果的满意程度。用布尔逻辑表达检索要求,除要掌握检索课题的相关因素外,还应在布尔算符对检索结果的影响方面引起注意。另外,对同一个布尔逻辑提问式来说,不同的运算次序会有不同的检索结果。布尔算符使用正确但不能达到应有检索效果的事情是很多的。 二、信息检索 信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索已成为图书馆独立的工具和用户服务项目。 信息检索通常指文本信息检索,包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索。它是基于信息组织形式,如字符串、结构化数据库,应用信息处理方法,如排序数据查找、字符匹配,实现效率不高的检索。信息检索综合应用布尔检索方法和基于超链的检索技术,改进了基本检索功能,但缺点是对精确的提问不能给出精确的回答。从历史上看,信息检索经历了手工检索、计算机检索到目前网络化、智能化检索等多个发展阶段。 目前,信息检索已经发展到网络化和智能化的阶段。信息检索的对象从相对封闭、稳定一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理松散的Web内容;信息检索的用户也由原来的情报专业人员扩展到包括商务人员、管理人员、教师学生、各专业人士等在内的普通大众,他们对信息检索从结果到方式提出了更高、更多样化的要求。适应网络化、智能化以及个性化的需要是目前信息检索技术发展的新趋势。 三、知识检索 知识检索的基本思想是,模拟扩展人类关于知识处理与利用的智能行为和认识思维方法,是充分利用在线图书馆和数字图书馆的文献信息资源的有利工具。例如:抽象思维方法,形象思维方法。知识检索具有明显的优势:①实现信息服务向知识服务的转化,向用户提供潜在内容知识,以及分析预测后的超前性领域成果或知识。②提供主动服务方式,自动优化用户需求,主动提供个性化检索。③面向用户,依据用户的需求及其变化,能灵活选择理想的检索策略和技术,并且将繁重的知识信息存取工作从用户移向了计算机。④综合应用各类知识和各种高效的智能技术,全面提高检索效率。 知识检索是综合应用信息管理科学人工智能认知科学及语言学等多学科的先进理论与技术,基于知识和知识组织,融合知识处理和多媒体信息处理等多种方法与技术,充分表达和优化用户需求,能高效存取所有媒体类型的知识源,并能准确精选用户需要的结果。
Xiaoming Sun, Runyao Duan, and Mingsheng Ying. The Existence of Quantum Entanglement Catalysts. IEEE Transactions on Information Theory 51(1): 75-80 (2005).Min Zhang, Chuan Lin, Shaoping Ma, How Effective Is Query Expansion for Finding Novel Information? First Internatinal Joint Conference on Natural Language Processing, LNAI 3248, 2005, pp149-157Liu Yiqun, Wang Canhui, Zhang Min, Ma Shaoping, Web Data Cleansing for Information Retrieval using Key Resource Page Selection, The 14th International World Wide Web Conference (WWW2005)(Poster), May 10~14, Chiba, Japan, pp1136-1137Xianghui Wei, Shaoping Ma, Yijiang Jin. Segmentation of Connected Chinese Characters Based on Genetic Algorithm. Proc. 8rd ICDAR, Seoul Korea, Aug 29-Sep 1, 2005. pp. 645-649Lei Yang, Uniformization of Discrete Data, in Proceedings of the 16th international symposium on algorithms and computation (ISAAC 2005). LNCS 3827, Sanya, Hainan, China, Dec. 2005, Liu, Min Zhang, Shaoping Ma, Effective Topic Distillation with Key Resource Pre-selection, Asia Informaiton Retrieval Symposium, LNCS 3411, 2005, pp129-140Le Zhao, Min Zhang, Shaoping Ma. The Empirical Impact of the Nature of Novelty Detection. LNCS 3689, Asia Information Retrieval Symposium (AIRS 2005)(poster), Jeju Island, Korea, 2005. pp497-502Canhui Wang, Yiqun Liu, Min Zhang, and Shaoping Ma. Topic-Independent Web High-Quality Page Selection Based on K-Means Clustering. LNCS 3689, Asia Information Retrieval Symposium (AIRS 2005) (poster), Jeju Island, Korea, Oct, 2005. Lu, Shao-ping Ma, Min Zhang. Automatic Image Annotation Based-on Model Space . Proceedings of 2005 IEEE International Conference on Natural Language Processing and Knowledge Engineering(IEEE NLP-KE’05). Wuhan, China. Oct. 30-Nov. 1,2005. pp455-460Liu Yiqun, Zhang Min, Wang Canhui, Ma Shaoping, Learning-based Web Data Cleansing for Information Retrieval,to be appeared in Journal of Computational Information Systems, Journal of Computational Information Systems, Vol 1(n4): pp. 709-716, 魏湘辉,马少平,基于凸包像素比特征的粘连汉字切分,中文信息学报,,, , pp91~97刘奕群,张敏,马少平,利用虚拟站点定位技术的网络信息检索研究.第一届全国信息检索与内容安全学术会议大会优秀论文,中文信息学报, (2) , 2005.张敏,林川,马少平,使用遗传算法的信息检索动态参数学习方法,计算机研究与发展,, , , pp486-492.茹立云,马少平,路晶,基于平均检索精度的图像特征融合方法.计算机研究与发展,2005,42(9):1640-1646张敏,马少平,宋睿华,DF还是IDF?主特征模型在Web信息检索中的使用,软件学报,,,,pp1012-1020杨磊,黄辉,宋涛,桶外排序算法的抽样分点分发策略,软件学报,,,,pp643-651刘奕群,张敏,马少平,基于改进决策树算法的网络关键资源页面判定,软件学报2005,16(11):1958-1966.王灿辉,茹立云,张敏,马少平,基于伪反馈与分类的文本检索,全国第八届计算语言学联合学术会议,,南京,pp481-487刘奕群,张敏,马少平,用户行为分析在网络信息检索中的应用概述,全国第八届计算语言学联合学术会议,,南京,pp488-494刘奕群,张敏, 马少平,面向信息检索需要的网络数据清理研究,第二届全国信息检索与内容安全学术会议(NCIRCS2005),大会优秀论文. ,北京. pp35-43.王灿辉,张敏,马少平,Web作弊与反作弊技术综述,第二届全国信息检索与内容安全学术会议,,北京. pp279-285. Le Zhao, Min Zhang, Shaoping Ma,The Nature of Novelty Detection, Information Retrieval,vol 9(5): 521-542, 2006.富羽鹏,项荣璟,张敏,刘奕群,马少平,A PDD-based Searching Approach for Expert Finding in Intranet Information Management,Asia Information Retrieval Symposium (AIRS) 2006,AIRS,p43-53, singapore, Liu, Min Zhang, Liyun Ru and Shaoping Ma,Automatic Query Type Identification Based on Click Through Information,Asia Information Retrieval Symposium, AIRS 2006, in Lecture Notes in Computer Science Vol. 4182: pp. 593-600, 2006Data Cleansing for Web Information Retrieval using Query Independent Features. Yiqun Liu, Min Zhang, Liyun Ru, Shaoping Ma. Proceedings of the 1st China-Kyoto International Student Workshop on Digital Content and Web Computing. Wang, Zhichao Li, Min Zhang, Shaoping Ma, THUIR at TREC 2006: Blog Track (Draft), The Fifteenth Text REtrieval Conference, 2006年11月Rongwei Cen, Yiqun Liu, Min Zhang, Yijiang Jin, Shaopin Ma, THUIR at TREC2006 Terabyte Track, TREC 2006, page 673-676, 2006Yupeng Fu, Rongjing Xiang, Yong Wang, Min Zhang, Shaoping Ma, THUIR at TREC 2006: Enterprise track,Maryland, America, Nov 11 赵乐,岑荣伟,王灿辉,齐伟,金奕江,张敏,马少平,清华THUIR 2005年863信息检索评测,中文信息学报 2006(20)增刊:91~年3月刘奕群,张敏,马少平,面向信息检索需要的网络数据清理研究,中文信息学报,, , pp70~77路晶,金奕江,马少平等,使用基于SVM的否定概率和法的图像标注.智能系统学报,2006,(1):62-66余慧佳,刘奕群,张敏,茹立云,马少平,基于大规模日志分析的网络搜索引擎用户行为研究,第3届学生计算语言学研讨会,pp. 193-199,最佳论文,,沈阳马少平,刘奕群,页面质量评估及其在网络信息检索中的应用,2006年全国搜索引擎和网上信息挖掘学术会议,大会特邀报告,2006年7月,济南王灿辉,金奕江,马少平,基于文档中心内容快速提取的Web监控辅助系统,中国中文信息学会二十五周年学术会议,,北京,pp338 ~344.马少平,张敏,信息检索研究:过去三十年中我们走了多远,中国中文信息学会二十五周年学术会议,,北京,大会特邀报告。 Yiqun Liu, Min Zhang, Liyun Ru, Shaoping Ma. Data Cleansing for Web Information Retrieval using Query Independent Features. Journal of the American Society for Information Science and Technology (JASIST), Volume 58, Issue 12, Pages 1884-1898, Liu, Yupeng Fu, Min Zhang, Shaoping Ma, Liyun Ru. Automatic Search Engine Performance Evaluation with Click-through Data Analysis. to be appeared at the 16th World Wide Web conference (WWW07), 2007, Banff, Canada. Web application top conference. p1133~1134Yupeng Fu, Rongjing Xiang, Yiqun Liu, Min Zhang, Shaoping Ma. A CDD-based Formal model for Expert Finding. In *Proceedings of the ACM Sixteenth Conference on Information and Knowledge Management (CIKM 2007), p881-884,Lisboa, Portugal, November Fu, Rongjing Xiang, Yiqun Liu, Min Zhang, Shaoping Ma, Finding Experts Using Social Network Analysis, 2007 IEEE/WIC/ACM international conference of Web Intelligence (WI'07), pp77-80, Nov, USA, 2007Yupeng Fu, YuFei Xue, Tong Zhu, Min Zhang, Shaoping Ma. THUIR at TREC2007: Enterprise Track. In Proceedings of NIST Special Publication: the Sixteenth Text Retrieval Conference (TREC2007). Maryland, USA, November 2007,p594~598Rongwei Cen, Yiqun Liu, Min Zhang, Liyun Ru, Shaoping Ma, Web Page Quality Estimation Based on Linear Discriminant Function, Journal of Computational Information Systems. , , 2007, pp1117~1126 路晶,马少平,基于概念索引的图像自动标注, 计算机研究与发展,(3):P452-459王灿辉,张敏,马少平,自然语言处理在信息检索中的应用综述。中文信息学报,2007,21(2):35-45余慧佳,刘奕群,张敏,茹立云,马少平,基于大规模日志分析的搜索引擎用户行为分析,中文信息学报,, ,刘奕群,张敏,马少平,基于非内容信息的网络关键资源有效定位,智能系统学报,Vol2, ,pp45~52,马少平,张敏,从SIGIR看信息检索技术的过去与未来,第五届全国搜索引擎与网络信息挖掘会议(SEWM2007)大会报告王灿辉,张敏,马少平,等。基于相邻词的中文关键词自动抽取。广西师范大学学报。2007,25(2):161-164岑荣伟,刘奕群,茹立云,张敏,马少平,基于虚拟主题的网络关键资源页面定位技术研究,全国第九届计算语言学学术会议(JSCL-2007).李智超,熊风,富羽鹏,马少平 分布式大规模文本检索系统,《广西师范大学学报(自然科学版)》 第25卷 第2期 李智超,余慧佳,马少平,使用支持向量机进行作弊页面识别,第三届全国信息检索与内容安全学术会议论文集,248-254,2007富羽鹏,张敏,马少平,企业与内联网信息检索方法概述,广西师范大学学报。2007,25(2):90-98富羽鹏,张敏,马少平,基于虚拟专家描述文档的专家检索研究,全国第九届计算语言学学术会议,大连,2007年8月富羽鹏,张敏,马少平,通过构建专家描述文档来进行专家查找,多语种信息处理国际会议,延吉,2007 年6 月,大会特邀报告富羽鹏,张敏,马少平,企业内部邮件中话题讨论检索研究,第三届全国信息检索与内容安全学术会议,苏州,2007 年11月,被推荐到中心信息学报Wang Yong, Liu Yiqun, Zhang Min, Ma Shaoping, Ru Liyun, Modeling Lifetime of Web Pages Based on User Interest Analysis, 第三届全国信息检索与内容安全学术会议,苏州,2007 年11月,被推荐到中心信息学报 Canhui Wang, Min Zhang, Liyun Ru, Shaoping Ma. An Automatic Online News Topic Keyphrase Extraction System. In Proceedings of 2008 IEEE/WIC/ACM International Conference on Web Intelligence, Sydney, Australia, 2008. (WI'08), pp214~ Jing, Ma ShaoPing and Zhang Min. Multi-Instance Clustering for Web Image. Optimization-based Data Mining and Web Intelligence (ODM 2008) for 2008 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology. pp 467~ Wang, Min Zhang, Liyun Ru, Shaoping Ma, Automatic Online News Topic Ranking Using Media Focus and User Attention Based on Aging Theory, In Proceedings of the ACM 17th Conference on Information and Knowledge Management (CIKM 2008), October 26–30, 2008, Napa Valley California, USA. pp1033-1042Min Zhang, Xingyao Ye, A generative model to unify topic relevance and lexicon-based sentiment for opinion retrieval, The 31st Annual International ACM SIGIR Conference (SIGIR 2008), 20-24 July 2008, Singapore, Wang, Min Zhang, Shaoping ma, Liyun Ru, Automatic Online News Issue Construction in Web Environment, the 17th International World Wide Web Conference (WWW2008), Beijing, April, 2008, Liu, Rongwei Cen, Min Zhang, Shaoping Ma, Liyun Ru. Identifying Web Spam with User Behavior Analysis. The Fourth International Workshop on Adversarial Information Retrieval on the Web (AIRWeb 2008). . p9~ Liu, Min Zhang, Shaoping Ma, Liyun Ru, User Behavior Oriented Web Spam Detection, the 17th International World Wide Web Conference (WWW2008), poster, Beijing, April, 2008, . Zhu, M. Zhang, Y. Liu, S. Ma, THUIR at TREC 2008: Blog Track, Proceedings of The Seventeenth Text REtrieval Conference (TREC 2008), page . Xue, T. Zhu, G. Hua, M. Zhang, Y. Liu, S. Ma, THUIR at TREC 2008: Enterprise Track, Proceedings of The Seventeenth Text REtrieval Conference (TREC 2008), page . Zhou, Q. Fang, R. Cen, M. Zhang, Y. Liu, S. Ma, THUIR at TREC 2008: Relevance Feedback Track, Proceedings of The Seventeenth Text REtrieval Conference (TREC 2008), page Jing, Ma ShaoPing and Zhang Min. A Multi-Instance Clustering Approach for Web Image Using One-Class Support Vector Machine. Journal of Computational Information Systems, 2008, 4(3): Wang, Min Zhang, Shaoping Ma, Liyun Ru. Automatic Hot Event Detection Using Both Media and User Attention. Journal of Computational Information Systems, (3), June, 2008. Wang, Yiqun Liu, Min Zhang, Shaoping Ma, Liyun Ru, Identify Temporal Websites Based on User Behavior Analysis, The Third International Joint Conference on Natural Language Processing (IJCNLP08), Hyderabad, India, January 7-12, 2008, pp173~ Wang, Yiqun Liu, Min Zhang, Shaoping Ma, News Page Discovery Policy for Instant Crawlers, Asia Information Retrieval Symposium 2008 (AIRS 08), Harbin, China, January 16-18, 2008, pp520~525. 路晶, 马少平,基于多例学习的web图像聚类, 第四届全国信息检索与内容安全学术会议(NCIRCS’2008), 2008,pp636-646余慧佳,刘奕群,张敏,茹立云,马少平,“基于目的分析的作弊页面分类”,第 四 届全国信息检索与内容安全学术会议( NCIRCS'2008 ),2008年11月, pp405-414刘奕群,岑荣伟,张敏,茹立云,马少平,基于用户行为分析的搜索引擎自动性能评价,软件学报19(11):3023-3032。李智超,马少平,针对搜索引擎的媒体倾向性研究, 江西师范大学学报 第32卷 第2期 2008年4月 pp 127-131王勇,刘奕群,张敏,马少平,茹立云,基于用户兴趣分析的网页生命周期建模,中文信息学报,第22卷第2期,2008年3月,p76~80富羽鹏,张敏,马少平,企业内部邮件中话题讨论检索研究,中文信息学报,第22卷第2期,2008年3月,p81~86陈磊,刘奕群,茹立云,马少平,基于用户日志挖掘的搜索引擎广告效果分析,中文信息学报,第22卷第6期,2008年11月. pp92~97.黄志毅,刘奕群,马少平,基于用户行为分析的网页目录自动构建,第四届 全国信息检索与内容安全学术会议( NCIRCS'2008 ),2008年11月。pp355~362 Rongwei Cen, Yiqun Liu, Min Zhang, Bo Zhou, Liyun Ru, Shaoping Ma. Exploring Relevance for Clicks. In Proceedings of CIKM'09. 2009. (accepted)Rongwei Cen, Yiqun Liu, Min Zhang, Liyun Ru, Shaoping Ma. Web Observation from a User Perspective. WI 2009. (accepted)Rongwei Cen, Yiqun Liu, Min Zhang, Liyun Ru, Shaoping Ma. Study on the Click Context of Web Search Users for Reliability Analysis. AIRS 2009. (accepted)Rongwei Cen, Yiqun Liu, Min Zhang, Liyun Ru, Shaoping Ma. Automatic Search Engine Performance Evaluation with the Wisdom of Crowds. AIRS 2009. (accepted)Zhichao LI, Min ZHANG, Shaoping MA. Mining Synonymous Entities using Search Engine Query Logs. Journal of Computational Information Systems 5:3(2009) LI, Min ZHANG, Shaoping MA, Bo ZHOU, Yu SUN. Automatic Product Feature Words Extraction from Comments on the Web. The Fifth Asia Information Retrieval Symposium 2009 (AIRS2009)(已录用)Huijia Yu, Yiqun Liu, Min Zhang, Liyun Ru, Shaoping Ma, Web Spam Identification with User Browsing Graph. The Fifth Asia Information Retrieval Symposium 2009 (AIRS2009)(已录用)Yiqun Liu, Yijiang Jin, Min Zhang, Shaoping Ma and Liyun Ru. User Browsing Graph: Structure, Evolution and Application. Late breaking result session in Second ACM International Conference on Web Search and Data Mining (WSDM 2009). LIU, Bo ZHOU, Min ZHANG, Shaoping MA, Liyun RU, Effectiveness of Online Sponsored Search Based on User Log Analysis. Journal of Computational Information Systems. Vol 5, , 2009. pp1185-1192Min Zhang, Da Kuang, Guichun Hua, Yiqun Liu, Shaoping Ma, Is learning to rank effective for Web search, SIGIR 2009 workshop: Learning to Rank for Information Retrieval. July, 2009, Boston, Zhou, Min Zhang, Shaoping Ma, Yiqun Liu, Liyun Ru, Log-Mining Based Query Spelling Correction for Chinese Search Engines, Journal of Computational Information Systems, Volume 5, Number 3, pp1225-1234, Zhou, Min Zhang, Shaoping Ma, Yiqun Liu, Liyun Ru, Query Spelling Correction For Multi-Language Search Engines, Journal of Computational Information Systems, Volume 5, Number 3, pp1521-1528, Yang, The Chinese Pinyin Input Method based on Internet Data, Journal of Computational Information Systems, Volume 5, Number 3, pp1167-1174,2009. 余慧佳,刘奕群,张敏,茹立云,马少平. 基于目的分析的作弊页面分类,中文信息学报,第23卷第2期,2009年2月,p95~101薛宇飞,刘奕群,张敏,马少平,茹立云,基于用户浏览图的网页质量评估方法的比较分析。全国第十届计算语言学学术会议(CNCCL-2009),Jul. 24-26. 2009. pp482-488。路晶,马少平,使用基于多例学习的启发式SVM算法的图像自动标注,计算机研究与发展,, , 2009年5月,p864~871。
329 浏览 3 回答
349 浏览 3 回答
96 浏览 4 回答
165 浏览 4 回答
188 浏览 2 回答
178 浏览 3 回答
125 浏览 3 回答
318 浏览 4 回答
304 浏览 3 回答
286 浏览 3 回答
352 浏览 2 回答
329 浏览 3 回答
281 浏览 3 回答
206 浏览 3 回答
169 浏览 3 回答