与其他类型的论文一样,文本挖掘论文也需要严谨认真地完成,才能得到高分。在写作文本挖掘论文时,首先要搜集大量相关资料,并仔细分析和研究,把握文本挖掘的思想,建立正确的观点,形成逻辑论据,牢固掌握论证方法,使文本挖掘论文叙述流畅。
基于HTML结构的Web文本主题挖掘研究 摘要:随着数据挖掘应用的深入,非结构化和半结构化数据的挖掘,将成为下一个数据挖掘应用的热点。 文本挖掘是一种典型的非结构化数据挖掘,而Web挖掘则是典型的半结构化数据挖掘。所以将信息处理技术中 的汉语分词、信息抽取、语义分析等技术应用到Web挖掘研究技术发展的必然趋势。本文应对Web挖掘的特点, 将运用数据抽取进行数据结构转换并把语义分析技术应用到数据抽取的过程中的思想,使数据提取更加准确。 关键词:数据挖掘; Web;自动分词;数据提取;语义分析 一、引言 不断发展的Internet拉近了人们彼此之间的距 离,但是, Web上的海量信息却又逐渐让人们变得 无所适从,随着越来越多结构庞大且日益复杂的网 站的出现,使网络中的信息量以指数规律迅猛增 长,人们不得不花费大量的时间去搜索自己需要的 信息。无论个人还是企业,现实的竞争形势要求他 们对互联网上大量出现和产生的信息进行实时和深 层次的分析。于是,人们想到了数据挖掘技术,将 传统的数据挖掘同Web结合起来进行Web挖掘 从Web文档和Web活动中抽取用户感兴趣的潜在 的有用的模式和隐藏信息,弥补搜索引擎的不足。 Web挖掘是从Internet上收取知识的过程。它 是从WWW相关的资源和行为中抽取用户感兴趣的 有用的模式和隐含信息。Web上信息的多样性决定 了Web挖掘任务的多样性。按照处理对象的不同 Web挖掘一般可分为三大类:[1]Web内容挖掘 Web结构挖掘和Web使用挖掘,具体描述可见文 献[2]其分类比较见表1。[3] 表1 Web挖掘分类比较 Web内容挖掘 信息检索领域数据库领域Web结构挖掘Web使用挖掘 数据来源文本文档超文本文档超文本文档链接结构Web服务日志代理服务日志浏览器日志 数据特征非结构化半结构化半结构化把Web站点看作是一个数据库链接结构交互式数据
随着计算技术和生物技术的进步,当前生物医学文献正在以前所 未有的速度增长。这些文献中蕴含着最新的研究进展和丰富的生物医学知识,对于生物医学研究者具有重要意义。然而数以千万计的文献使得研究者追踪和整理自己 需要的知识和信息变得越来越困难。文本挖掘技术可以解决这一问题,帮助生物医学研究者提高从文献中获取知识和信息的效率。因此针对生物医学文献的文本挖掘 研究具有重要的应用价值。判别式模型是一类直接利用特征来预测目标变量的发生概率的机器学习模型,本文中主要用到的判别式模型有最大熵模型和条件随机域模 型。相对于产生式模型,判别式模型降低了特征之间的独立性假设的要求,并且与很多文本挖掘任务的需求相一致,因而更有可能取得好的效果。本文主要研究如何 利用判别式模型来解决生物医学文献挖掘中的问题。具体地,我们研究了生物医学文本挖掘中的三个任务:生物医学名实体识别、生物医学实体规范化以及生物医学 语义关系抽取。在这3任务中,第二个任务是第一个任务在语义处理上的延伸,前两个任务是第三个任务的基础。本文的主要内容包含以下4个方面。生物医学名实 体识别的目标是确定一个给定的文本集合内的某一类型的实体的名字的所有实例,它是进行深层次文本挖掘的必要步骤之一。本文在考察了生物医学领域实体识别的 特点和难点,分析了目前已有的生物医学实体识别方法的优缺点的基础上,提出了利用条件随机域模型结合丰富特征集来进行生物医学实体识别的方法。这些特征包 括:构词法特征、上下文特征和句法特征。其中,浅层句法特征是首次被引入到条件随机域模型中,同时用来进行实体的边界检测和类别判断。实验表明,这一特征 可以有效地提高名实体识别的效果。有监督的机器学习方法需要大规模的标注语料。大量的电子文献使得在生物医学领域获取未标记的语料已相当容易,但是对语料 进行标注仍然是一件昂贵的工作。针对在生物医学名实体识别中有监督学习所需的大规模训练语料比较难以获取的问题,本文提出了基于最大熵模型的协同训练的半 监督学习方法。该方法可以利用大量的未标注语料来提高在较少的标注语料的基础上学习到的分类器的名实体识别性能。为了进一步提高半监督学习的效果,本文将 主动学习引入到半监督学习的过程中。实验表明,基于最大熵模型的协同训练方法可以有效地提高初始分类器的识别性能。灵活的生物医学实体命名方式使得生物医 学实体具有严重的歧义。这已成为对生物医学文献进行深层自动文本挖掘的主要障碍之一。生物医学实体规范化的提出就是为了解决这一问题。生物医学实体规范化 就是把生物医学文献中表达同一概念的不同变体映射到统一的概念标识符。本文提出了一种用于生物医学实体规范化的多层歧义消解框架。实体规范化过程中不同阶 段有不同的歧义情形,在本文提出的框架中,针对这些情形采用了有针对性的解决策略,包括:基于词典的实体名字检测,基于机器学习方法的候选选择以及基于知 识的歧义消解。在BioCreAtIvE2006基因名字规范化任务的测试集上的实验表明本文提出的框架可以有效地解决规范化过程中的各种歧义。生物医学 语义关系抽取是生物医学文本挖掘的主要研究内容之一,是从无结构的生物医学文献中抽取出生物医学知识的重要手段。在实际应用中,生物医学语义关系的定义有 宽泛和具体之分。本文将宽泛定义和具体定义的生物医学语义关系抽取分别看作二分类和多分类问题,提出基于最大熵模型的生物医学语义关系抽取的方法。针对不 区分类别的蛋白质相互作用这种宽泛定义的关系抽取,提出了一种基于最大熵的二阶段蛋白质相互作用关系抽取方法。针对多类别的蛋白质相互作用这种具体定义的 关系抽取,提出使用最大熵模型结合词特征的抽取方法,该方法在一个具有10种蛋白质相互作用类别的数据集上取得了73.4%的总体精确率。同样的方法应用 到疾病与治疗方式关系抽取任务中,也取得了很好的实验结果。此外,本文还通过理论分析和实验对比,从理论和实践两个方面说明了判别式模型比产生式模型更适 合生物医学语义关系抽取问题。
参考文献
[1] 王浩畅,赵铁军. 生物医学文本挖掘技术的研究与进展[J]. 中文信息学报. 2008(03)
[2] 于中华,陈蓉,胡俊锋,陈源. 基于加权投票K—近邻法的生物医学缩略语消歧[J]. 中文信息学报. 2008(02)
[3] 龙军,殷建平,祝恩,赵文涛. 主动学习研究综述[J]. 计算机研究与发展. 2008(S1)