您当前的位置:首页 > 发表论文>论文发表

文档主题模型论文

2023-03-13 12:36 来源:学术参考网 作者:未知

文档主题模型论文

我们描述潜在的狄利克雷分配(LDA),它是一种用于离散数据集合(如文本语料库)的生成概率模型。 LDA是一个三层次的贝叶斯模型,其中一个集合中的每个项目都被建模为一组潜在的话题(主体)类型的有限混合。反过来,每个主题都被建模为一组潜在主题概率的无限混合。 在文本建模的背景下,主题概率提供了文档的明确表示。我们提出了基于变分方法和经验贝叶斯参数估计的EM算法的高效近似推理技术。 我们会报告LDA在文档建模,文本分类和协作过滤上的实验结果,并与一元混合模型( unigrams model)和概率LSI模型相比较。

在本文中,我们考虑建模文本语料库和其他离散数据集合的问题。我们的目标是找到对一个集合的成员的简短描述,它不仅可以高效处理大型集合,同时保留对分类,异常检测,摘要(概括)以及相似性和相关性判断等基本任务有用的必要统计关系。

信息检索(IR)领域的研究人员已经在这个问题上取得了重大进展(Baeza-Yates和Ribeiro-Neto,1999)。IR研究人员为文本语料库提出的基本方法 (一种在现代互联网搜索引擎中成功部署的方法)将语料库中的每个文档变为实数表示的向量,每个实数都表示(词汇的)计数比率。流行的tf-idf方案(Salton和McGill,1983),对于文集中的每个文档选择了“词”或“术语”作为基本单位,并且计数由每个词的出现次数。在适当的归一化之后,将该术语频率计数与逆向文档频率计数进行比较,该逆向文档频率计数度量整个语料库中的词的出现次数(通常以对数刻度,并且再次适当标准化)。 最终结果是文档术语矩阵X,其列包含文档集中每个文档的tf-idf值。 因此,tf-idf方案将任意长度的文档缩减为固定长度的数字列表。

尽管tf-idf规约具有一些吸引人的特征 - 特别是(在对集合中的文档进行区分的)单词集合的基本识别中,但是在(对文档的)描述长度上,该方法并没有减少多少,并且揭示出很少的文档内或文档间的统计结构。为了解决这些缺点,IR研究人员提出了其他几种降维技术,其中最著名的是潜在语义索引(LSI)(Deerwester等,1990)。LSI使用X矩阵的奇异值分解来标识tf-idf特征空间中的线性子空间,该子空间捕获集合中的大部分变异数(variance)。这种方法可以在大型集合中实现显着压缩。此外,Deerwester等人 认为LSI的衍生特征(即原始tf-idf特征的线性组合),可以捕捉基本语言学概念的某些方面,比如同义词和多义词等。

为了证实关于LSI的主张,并研究其相对的优缺点,开发文本语料库的生成概率模型和研究LSI从数据中恢复生成模型方面的能力是有用的(Papadimitriou et al。,1998)。然而,目前尚不清楚,考虑文本的生成模型的时候,为什么应该采用LSI方法 - (其实)可以尝试更直接地进行,(比如)使用最大似然法或贝叶斯方法将模型与数据相匹配(即得到数据的模型)。

Hofmann(1999)在这方面迈出了重要的一步,他将LSI的概率LSI(pLSI)模型(也称为特征模型aspect model)作为LSI的替代品。我们在第4.3节中详细描述的pLSI方法将文档中的每个单词作为混合模型中的样本进行建模,其中混合组件是多项随机变量,可以将其视为“主题topics”的表示。因此,每个单词都是从单个主题生成的,而文档中的不同单词可以从不同的主题生成。每个文档都被表示为这些混合组件的混合比例列表,从而将其简化为一组固定主题的概率分布。 这种分布是与文档相关的“简化描述”。

虽然霍夫曼的工作是向文本概率建模迈出的有用的一步,但它并不完整,因为它没有提供文档层面的概率模型。在pLSI中,每个文档都被表示为一个数字列表(数字的值是主题的混合比例),并且这些数字没有生成概率模型。这导致了几个问题:(1)模型中参数的数量与语料库的大小成线性增长,这导致过度拟合的严重问题;(2)不清楚如何将概率分配给训练集之外的文档。

要了解如何超越pLSI,让我们考虑包括LSI和pLSI在内的一类降维方法的基本概率假设。所有这些方法都基于“词袋”的假设 - 文档中的单词顺序可以忽略不计。此外,尽管不经常正式说明,但这些方法也假定文档是可相互交换的; 文集中文档的具体排序也可以忽略不计。

受益于Finetti(1990),一个经典表示理论认为:任何可交换随机变量的集合都具有混合分布(通常是无限混合)的表示。因此,如果我们想考虑文件和单词的可交换表示,我们需要考虑能捕获单词和文档的可交换性的混合模型。这一思路促使我们在当前论文中提出潜在狄利克雷分配(LDA)模型。

需要强调的是,可交换性的假设并不等同于随机变量独立同分布的假设。相反,可交换性本质上可以被解释为“条件独立且分布相同”,其中的条件是与概率分布的潜在隐参数有关的。在一定条件下,随机变量的联合分布是简单的,但如果围绕隐参数考虑,联合分布可能相当复杂。因此,虽然可交换性的假设是文本建模领域的一个主要的简化假设,并且其主要理由是它是一种会导致计算效率较高的方法,但可交换性假设对简单频率的计数或线性操作并不是一个必要的条件。在当前的论文中,我们的目标是,通过认真考虑de Finetti定理,可以通过混合分布获取重要的文档内统计结构。

同样值得注意的是,可交换性的基本概念有大量的总结概括,包括各种形式的部分可交换性,并且上面提到的表示法也可用于部分可交换的情况(Diaconis,1988)。因此,虽然我们在当前论文中讨论的工作集中在简单的“词袋”模型上(这表现为单个单词(unigrams)的混合分布),但我们的方法也适用于涉及较大结构混合的更丰富的模型,如n-grams或段落。

本文的结构如下: 在第2节中,我们介绍基本的表示法和术语。 LDA模型在第3节中介绍,并与第4节中的相关潜变量模型进行比较。我们在第5节讨论LDA的推理和参数估计。第6节提供了LDA拟合数据的一个说明性例子。文本建模,文本分类和协作过滤的实验结果在第7节中给出。最后,第8节给出我们的结论。

我们在整篇论文中使用 文本集合 的说法,指的是诸如“单词”,“文档”和“语料库”等实体。这很有用,因为它有助于指导靠直觉来感知的知识的处理(intuition),特别是当我们引入旨在捕捉抽象概念(如主题)的潜在变量时(潜在变量和隐变量说的是一回事)。然而,需要指出的是,LDA模型不一定与文本相关,并且可应用于涉及数据集合的其他问题,包括来自诸如协同过滤,基于内容的图像检索和生物信息学等领域的数据。 事实上,在7.3节中,我们将呈现在协同过滤领域的实验结果。

在形式上,我们定义下列术语: • 单词是离散数据的基本单位,假设有一个V个词组成的词汇表(词典),索引通过{1......V}表示,里面每一项代表一个单词。我们使用单位向量表示单词,它里面一项等于1其他项等于零。我们使用上标来表示第几个成分,因此第v个词在V维向量w中表示为:w v = 1 and w u = 0 for u ≠ v • 文档中的词来自一个包含N个词的词典,一个文档可以表示成N个词组成的序列,可以表示为 w = (w 1 ,w 2 ......w N ),下标表示第几个词。(注意,每个词用一个V维的向量表示,每篇文档有最多有N个不同的词,不要搞混了) • 一个语料库是含有M个文档的集合,用 D = ( w 1 , w 2 ...... w M )----注意有加粗

我们希望找到一个语料库的概率模型,它不仅为语料库成员分配高概率,而且为其他“类似”文档分配高概率。(意思就是说,语料库中某一文档的某个topic概率比较高,那么测试相似文档。也能得到相同的概率分布)

隐在狄利克雷分配(LDA)是语料库的生成概率模型。 其基本思想是文档被表示为潜在主题的随机混合,每个主题都是有不同的文字(词)分布特征的。

LDA为语料库 D 中的每个文档 w 假定以下生成过程:

在这个基本模型中做了几个简化的假设,其中一些我们在后面的章节中会删除。首先,Dirichlet分布的维度k(以及主题变量z的维度)被假定为已知并且是固定的。其次,单词概率通过k×V矩阵 β 进行参数化,其中 β ij = p(w j = 1 | z i = 1)(猜测:它表示在某个主题中索引为i的词出现的条件下,文档中第j个词出现的概率),现在我们将其视为待估计的固定量。最后,泊松假设对随后的任何事情都不是关键的,并且可以根据需要使用更真实的文档长度分布。此外,请注意,N与所有其他数据生成变量(θ和z)无关。 因此它是一个辅助变量,我们通常会忽略它在随后发展中的随机性。

一个k维Dirichlet随机变量θ可以从(k − 1)-simplex(单形或单纯形)中取值,并且在这个单纯形中有以下概率密度:

α 参数是一个k维向量,并且 α 的每一项都满足α i > 0,另外Γ(x)是 伽马函数 。狄利克雷分布在单形(属于指数族)上是一种实用的分布,具有有限维数的充分统计量,并且与多项分布共轭。

在第5节中,这些属性将有助于开发LDA的推理和参数估计算法。

给定参数α和β,主题混合分布θ、主题 z 和文档 w 的联合分布为:

上式表示给定参数α和β的条件下,文档的概率分布。

最后,利用单个文档边际概率的乘积,得到一个语料库的概率分布:

区分LDA和简单的Dirichlet多项式聚类模型很重要。 经典的聚类模型会涉及到一个两层模型:其中,一个Dirichlet为一个语料库抽样一次,一个多项式聚类变量为语料库中的每个文档选择一次,并且以聚类变量为条件,为文档选择一组词语 。与许多聚类模型一样,这种模型将文档限制为与单个主题相关联。另一方面,LDA涉及三个层次,特别是主题节点在文档中被重复采样。在这种模式下,文档可以与多个主题相关联。

图1所示类似结构通常在贝叶斯统计建模中研究,它们被称为分层模型(Gelman等,1995),或者更准确地说,是条件独立的分层模型(Kass和Steffey,1989)。这种模型通常也被称为参数经验贝叶斯模型(parametric empirical Bayes models),这个术语不仅指特定的模型结构,而且还指用于估计模型参数的方法(Morris,1983)。事实上,正如我们在第5节中讨论的那样,我们采用经验贝叶斯方法来估计一个LDA简单实现中的参数(比如,α和β等),但我们也考虑了更充分的贝叶斯方法。

如果联合分布对于置换是不变的,那么一个有限的随机变量集{z 1 ......z N }被认为是可交换的。 如果π(此π非彼π)表示某种整数从1到N的置换规则,则:

p(z 1 ......z N ) = p(z π(1) ......z π(N) )

如果每个有限的子序列是可交换的,则无限序列的随机变量是无限可交换的。

De Finetti的表示定理指出,随机变量的无限可交换序列的联合分布就好像从一些分布中抽取的一个随机参数,以该参数为条件,所讨论的随机变量是独立同分布的。

在LDA中,我们假设单词是由主题(通过固定的条件分布)生成的,而且这些主题在文档中是无限可交换的。根据菲内蒂定理,一组词汇和话题的概率必须具有以下这种形式:

θ是关于主题的多项式的随机参数。通过边缘化主题变量并赋予θ狄利克雷分布,在公式(3)中,我们获得了文档的LDA分布。

图1所示的LDA模型比传统分层贝叶斯文献中经常研究的两层模型要复杂得多。然而,通过边缘化隐藏的主题变量z,我们可以将LDA理解为两层模型。

特别是,让我们来构造单词分布p(w|θ,β):

请注意,这是一个随机量,因为它取决于θ。

我们现在为文档 w 定义下面的生成过程:(对每篇文档)

该过程将文档的边际分布定义为连续混合分布:(注意下式表示的是语料库,而非一篇文档 的分布)

图2说明了LDA的这种解释。 它描绘了LDA模型的一个特定实例引发的p(w| θ,β)的分布。请注意,在(V-1) - simplex中的这种分布仅通过k + kV个参数实现,但展现出非常有趣的多模式结构。

在本节中,我们将LDA与文本的简单潜(隐)变量模型(一元模型,一元模型的混合模型和pLSI模型)进行比较。 此外,我们提出了这些模型的统一几何解释,突出了它们的主要区别和相似之处。

在一元模型下,每个文档的单词都是独立的按照某个多项分布而绘制的,生成文档的概率为:

如果我们用一个离散的随机主题变量z(图3b)来扩充一元模型,我们就可以得到一个混合一元模型(Nigam et al.,2000)。在这个混合模型下,首先选择一个主题z,然后从条件多项式p(w | z)独立的生成N个单词,从而生成每个文档(该文档中的所有词都来自一个主题)。一篇文档的概率分布:

在每个文档仅显示一个主题的假设背景下,当从语料库做概率估计时,可以将词语分布视为主题的表示。正如第7节的实证结果所示,这种假设通常限制性太强,以至于无法有效地建模量大的文献。

相反,LDA模型允许文档在不同程度上展示多个主题。这是以(增加)一个额外参数为代价实现的:在混合一元模型中有与p(z)相关的参数有k-1个,而在LDA中与p(θ | α)有关的参数有k个。

概率潜在语义索引(pLSI)是另一个广泛使用的文档模型(Hofmann,1999)。 如图3c所示,给定了未知的主题z,pLSI模型假设文档标签d和单词w n 是条件独立的:

使用pLSI的另一个困难(也是来自于通过训练文档进行索引的分布的使用)是必须估计的参数数量与训练文档的数量呈线性增长。k-主题pLSI模型的参数是在k个未知主题上,V和M混合大小的k个多项式分布。这给出了kV + kM个参数,因此在M中线性增长。参数的线性增长表明该模型容易出现过度拟合,并且根据经验确定,过拟合确实是一个严重的问题(参见第7.1节)。在实践中,使用回火试探来平滑模型的参数以获得可接受的预测性能。 然而,已经表明,即使在使用回火时也可能发生过度拟合(Popescul et al.,2001)。

LDA通过将主题混合权重视为一个k个参数的隐藏的随机变量,而不是大量与训练集明确关联的单个参数,来克服这两个问题。如第3节所述,LDA是一个良好定义的生成模型,可轻松推广到新文档。此外,k-topic LDA模型中的k + kV个参数不会随着训练语料库的大小而增长。我们将在7.1节看到,LDA不会遇到与pLSI相同的过度拟合问题。

说明LDA和其他潜在主题模型之间差异的一种好方法是考虑潜在空间的几何形状,并了解每个模型下文档在该几何体中的表示方式。

上述所有四种模型(unigram, mixture of unigrams, pLSI, and LDA)都是在单词分布空间中进行操作的。每个这样的分布可以被看作是(V-1) - simplex上的一个点,我们称之为词单纯形(the word simplex)。

一元模型在词单纯形上找到一个单一的点,并假定文集中的所有单词来自相应的分布。潜变量模型考虑词单纯形上的k个点,并根据这些点构成子单形体,我们称之为主题单纯形。请注意,主题单纯形上的任何一点也是单词单纯形上的一个点。不同的潜在变量模型以不同的方式使用主题单纯形来生成文档。

• 混合一元模型假设,对于每个文档,词单纯形中的k个点(即,主题单纯形的那些角中的一个)中的一个一旦随机选择后,文档的所有单词都从对应于那一点的分布中获取。

• pLSI模型假定训练文档的每个单词来自随机选择的主题。这些主题本身来自于文档在主题上的特征分布,也就是主题单纯形上的一个角点。每个文件有一个这样的分布,训练文档集因此定义了关于主题单纯形的经验分布。

• LDA假定观察到的(训练集)和未看到的(验证集)文档中的每个词都是由随机选择的主题生成的,该主题是从具有一个随机选择参数的分布中抽取的。 从主题单纯形的平滑分布中,每个文档对此参数进行一次采样。

这些差异在图4中突出显示。

我们描述了使用LDA背后的动机,并说明了其与其他潜在主题模型相比的概念优势。在本节中,我们将注意力转向LDA下的推理和参数估计。

为了使用LDA我们需要解决的关键推理问题是计算给定文档的隐藏变量的后验分布:

不幸的是,这种分布通常难以计算。 实际上,为了规范化分布,我们将忽视隐藏变量并根据模型参数重写方程(3):

这是一个由于在潜在主题的总和中θ和β之间的耦合,而难以处理的函数(Dickey,1983)。Dickey表示这个函数是在Dirichlet分布的特定扩展下的期望,可以用特殊的超几何函数表示。它在贝叶斯环境中可用于删除(或审查,censored 暂时不明白怎么翻译)离散数据,以表示θ的后验(在该设置中,θ是随机参数)(Dickey等,1987)。

尽管后验分布对于精确推断是难以处理的,但是对于LDA可以考虑各种各样的近似推理算法,包括拉普拉斯近似,变分近似和马尔可夫链蒙特卡罗(Jordan,1999)。在本节中,我们描述了一个简单的基于凸性的变分算法,用于推断LDA,并讨论了第8节中的一些替代方案。

基于凸性的变分推理的基本思想是利用Jensen不等式来获得对数似然的可调下界(Jordan et al。,1999)。本质上,人们考虑一系列下界,它们由一组变分参数索引。变分参数由优化程序选择,该程序试图找到最可能的下限。

获得易处理的下界族的简单方法是考虑原始图形模型的简单修改,原始图形模型中一些边和节点已被移除。特别考虑图5(左)中所示的LDA模型。 θ和β之间的有问题的耦合是由于θ,z和w之间的边界而产生的。 通过丢弃这些边和w节点,并赋予所得到的简化图形模型以及自由变分参数,我们获得了潜在变量的一个分布族。这个分布族以下面这个变分分布为特征:

已经指定了简化的概率分布族,下一步是建立一个确定变分参数γ和Φ的值的优化问题。 正如我们在附录A中所示,找到对数似然的紧密下界的期望直接转化为以下优化问题:

因此,通过最小化变分分布和真实后验p(θ, z | w,α,β)之间的KullbackLeibler(KL)发散来找到变分参数的优化值。这种最小化可以通过迭代定点方法实现。 特别是,我们在附录A.3中表明,通过计算KL散度的导数并将它们设置为零,我们得到以下一对更新方程:

最近有新的项目做,没时间翻译啦,以后有时间再填坑,此处省略3000字......

最新用在学术论文上的模型有哪些

学术论文是某一学术课题在实验性、理论性或预测性上具有的新的科学研究成果或创新见解和知识的科学记录,或是某种已知原理应用于实际上取得新进展的科学总结,用以提供学术会议上宣读、交流、讨论或学术刊物上发表,或用作其他用途的书面文件。按写作目的,可将学术论文分为交流性论文和考核性论文。

学术论文是对某个科学领域中的学术问题进行研究后表述科学研究成果的理论文章。

学术论文的写作是非常重要的,它是衡量一个人学术水平和科研能力的重要标志。在学术论文撰写中,选题与选材是头等重要的问题。一篇学术论文的价值关键并不只在写作的技巧,也要注意研究工作本身。在于你选择了什么课题,并在这个特定主题下选择了什么典型材料来表述研究成果。科学研究的实践证明,只有选择了有意义的课题,才有可能收到较好的研究成果,写出较有价值的学术论文。所以学术论文的选题和选材,是研究工作开展前具有重大意义的一步,是必不可少的准备工作。
学术论文,就是用系统的、专门的知识来讨论或研究某种问题或研究成果的学理性文章。具有学术性、科学性、创造性、学理性。

什么叫论文的模型?

就是论文的格式

大学本科毕业论文格式标准

1.引言
1.1制定本标准的目的是为了统一规范我省电大财经类本科毕业论文的格式,保证毕业论文的质量。
1.2毕业论文应采用最新颁布的汉语简化文字,符合《出版物汉字使用管理规定》,由作者在计算机上输入、编排与打印完成。
1.3毕业论文作者应在选题前后阅读大量有关文献,文献阅读量不少于10篇,将其列入参考文献表,并在正文中引用内容处注明参考文献编号(按出现先后顺序编排)。
2.编写要求
2.1页面要求:毕业论文须用A4(210×297mm)标准、70克以上白纸,一律采用单面打印;毕业论文页边距按以下标准设置:上边距(天头)为:30 mm;下边距(地脚)25mm;左边距和右边距为:25mm;装订线:10mm;页眉:16mm;页脚:15mm。
2.2页眉:页眉从摘要页开始到论文最后一页,均需设置。页眉内容:浙江广播电视大学财经类本科毕业论文,居中,打印字号为5号宋体,页眉之下有一条下划线。
2.3页脚:从论文主体部分(引言或绪论)开始,用阿拉伯数字连续编页,页码编写方法为:第x页共x页,居中,打印字号为小5号宋体。
2.4前置部分从内容摘要起单独编页。
2.5字体与间距:毕业论文字体为小四号宋体,字间距设置为标准字间距,行间距设置为固定值20磅。
3.编写格式
3.1毕业论文章、节的编号:按阿拉伯数字分级编号。
3.2毕业论文的构成(按毕业论文中先后顺序排列):
前置部分:
封面
中文摘要,关键词
英文摘要,关键词
目次页(必要时)
主体部分:
引言(或绪论)
正文
结论
致谢(必要时)
参考文献
附录(必要时)

4.前置部分
4.1封面:封面格式按浙江广播电视大学财经类本科毕业论文封面统一格式要求。封面内容各项必须如实填写完整。其中论文题目是以最恰当、最简明的词语反映毕业论文中最重要的特定内容的逻辑组合;论文题目所用每一词必须考虑到有助于选定关键词和编制题录、索引等二次文献可以提供检索的特定实用信息;论文题目一般不宜超过30字。论文题目应该避免使用不常见的缩写词、首字缩写字、字符、代号和公式等;论文题目语意未尽,可用副标题补充说明论文中的特定内容。
具体内容依次列示如下内容:
中央广播电视大学“人才培养模式改革和开放教育试点”
××××专业本科毕业论文(小二号黑体,居中)
论文题名:(二号黑体,居中)
学生姓名:(××××××××三号黑体)
学 号:(××××××××三号黑体)
指导教师:(××××××××三号黑体)
专业:(××××××××三号黑体)
年 级:(××××××××三号黑体)
学 校:(××××××××三号黑体)
4.2摘要:摘要是论文内容不加注释和评论的简短陈述,应以第三人称陈述。它应具有独立性和自含性,即不阅读论文的全文,就能获得必要的信息。摘要的内容应包含与论文同等量的主要信息,供读者确定有无必要阅读全文,也供文摘等二次文献采用。
摘要一般应说明研究工作目的、实验研究方法、结果和最终结论等,而重点是结果和结论。摘要中一般不用图、表、公式等,不用非公知公用的符号、术语和非法定的计量单位。
摘要页置于封面页后。
中文摘要一般为300汉字左右,用5号宋体,摘要应包括关键词。
英文摘要是中文摘要的英文译文,英文摘要页置于中文摘要页之后。申请学位者必须有,不申请学位者可不使用英文摘要。
关键词:关键词是为了文献标引工作从论文中选取出来用以表示全文主题内容信息款目的单词或术语。一般每篇论文应选取3~5个词作为关键词。关键词间用逗号分隔,最后一个词后不打标点符号。以显著的字符排在同种语言摘要的下方。如有可能,尽量用《汉语主题词表》等词表提供的规范词。
4.3目次页:目次页由论文的章、节、条、附录、题录等的序号、名称和页码组成,另起一页排在摘要页之后,章、节、小节分别以1.1.1、1.1.2等数字依次标出,也可不使用目次页
5.主体部分
5.1格式:主体部分的编写格式由引言(绪论)开始,以结论结束。主体部分必须另页开始。
5.2序号
毕业论文各章应有序号,序号用阿拉伯数字编码,层次格式为:
1××××(三号黑体,居中)
××××××××××××××××××××××(内容用小四号宋体)。
1.1××××(小三号黑体,居左)
×××××××××××××××××××××(内容用小四号宋体

01 主题模型 - 大纲

主题模型 是机器语言在自然语言处理中的一个应用,主要做的是无监督的任务。

一般情况下,如果我们拿到一篇文章,这篇文章是无标记的文章。我希望通过机器学习的相关算法,帮助我们得到文章的分类结果。这是我们的初衷。

之前提到过,在传统的聚类算法中,当我们的数据量足够大、特征非常多的时候, 我们的距离度量公式就相对得失去了某种意义。即高维的数据会面临维度爆炸的问题,高维空间里边边角角里的数据之间的距离就没有什么意思了。如果距离的度量失效,那么聚类算法的结果就会非常差。

因此,传统的无监督的算法在处理文本分类的时候就起不到很好的作用了。因为文本分类在特征处理的时候我们会使用词袋法和TF-IDF,这些方法基于我们的语料库生成一个当前文章的词向量,即根据单词在文章中出现的频率/频数,来决定词向量中每一个元素的大小。

相对而来,生成的词向量是比较稀疏的,因为一篇文章中不太可能包含语料库中的所有词组。这种情况下怎么办呢? 我们引入了主题模型来解决这种距离度量失效的情况。 相对来说,这个结果可能会稍微的好一些。

但目前业界中,对主题模型的争议也比较大。很多人也认为主题模型的效果不太好。或者可以这么理解:模型再好,不如语料好。即, 优质的语料可以帮助提高文章分类的效果,不管你用的是什么模型。

根据 LSA模型 ,引申出了一个基于概率的模型PLSA, PLSA模型 本质上是一个生成式模型。

之前在聊统计学的时候,我们认为 统计学 是分两个学派的: 1、传统统计学的频率派; 2、贝叶斯学派。 实际上 频率派 在传统统计学中,我们认为其少了一个先验条件。 而 贝叶斯 认为世界上任何一件事情的发生都是由之前的某些事情来决定的。 所以贝叶斯要考虑很多先验条件。即 P(A|B) = P(A)×P(B|A)/P(B); 贝叶斯考虑A事件发生概率前,先要考虑其后验条件B;

LDA模型 是基于PLSA这个模型,在加入了一些先验的条件后得到的一个主题模型。

传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有,但两个文档是相似的。

举个例子,有两个句子分别如下: “乔布斯离我们而去了。” “苹果价格会不会降?

实际上有生活常识的人都知道,一个公司的创始人去世后,意味着股价肯定会跌。所以上面两句话本质上在说苹果公司的事情,但这两句话中没有任何一个词是一样的。如果我们用传统的词袋法去分析,我们会发现两篇文章的相似度是0。 这种情况下我们得考虑主题模型。

主题模型 (Topic Model)是用来在一系列文档中发现 抽象主题 的一种统计模型。直观来讲,如果一篇文章有一个中心思想,那么一定存在一些特定词语会出现的比较频繁。比方说,如果现在一篇文章是在讲苹果公司的,那么“乔布斯”和“IPhone”等词语出现的频率会更高一些;如果现在一篇文章是在描述微软公司的,那么“Windows”和“Microsoft”等词语出现的频率会更高一些;但真实情况下,一篇文章中通常包含多种主题,而且每个主题所占的比例各不相同,比如一篇文章中10%和苹果公司有关,90%和微软公司有关,那么和微软有关的关键字出现的次数应该是苹果关键字出现次数的9倍。

主题模型就是一种自动分析每个文档,统计文档内词语,根据统计的信息判断当前文档包含哪些主题以及各个主题所占比例各为多少。

主题模型是对文本中隐含主题的一种建模方法,每个主题其实是词表上单词的概率分布;

主题模型是一种生成模型,一篇文章中每个词都是通过“以一定概率选择某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到的;

模拟一个自由撰稿人的写作思路:

1、作者为写一篇文章构思了很多主题→以72%的概率选中了“苹果公司”为主题写文章→以0.23%的概率以“篮球”这个词开头写这篇文章。→以87%的概率以“Iphone”这个词为第二段的开头。

2、作者为写一篇文章构思了很多主题→以5%的概率选中了“篮球”为主题写文章→以90%的概率以“某个球星”这个词开头写这篇文章。→以0.035%的概率以“Iphone”这个词为第二段的开头。

分析 以我们对社会的认知,我们知道当以苹果公司为主题时写的文章,Iphone这个词出现的概率,会比以篮球为主题写文章时出现的概率高很多。反之在以篮球为主题写文章时,Iphone这个词可能就压根不会出现。

我们想对当前文章生成一个主题的时候,我们会从文章库中进行寻找。比如现在是NBA的休赛期,我们认为在新闻发布的文章库中,NBA的新闻出现的比较少。而当苹果开新的发布会时,我们认为新闻文章库中,苹果公司主题的文章会变多。

本质上我们刚刚构建的两个 自由撰稿人的写作思路 是一个贝叶斯网络。

结合上述这些基本概念我们来看下面的公式:

分析公式: 首先思考:P(词组,主题,文章) = P(w,t,d) 的联合概率如何求?

主题模型 克服了传统信息检索中文档相似度计算方法的缺点,并且能够在 海量的数据中找出文字间的语义主题 。主题模型在自然语言和给予文本的搜索上起到了重要的作用。

怎样才能生成主题?对文章的主题应该怎么分析?这是主题模型要解决的问题。

02 主题模型 - SVD矩阵分解、LSA模型

什么是论文模型,有哪几部分组成的?本科的毕业论文。关于概念不是很清楚。

你所谓的模型我想大体有两种吧:
一,是论文格式的范畴
由以下几个方面组成:
1、论文格式的论文题目:(下附署名)要求准确、简练、醒目、新颖。
2、论文格式的目录
目录是论文中主要段落的简表。(短篇论文不必列目录)
3、论文格式的内容提要:
是文章主要内容的摘录,要求短、精、完整。字数少可几十字,多不超过三百字为宜。
4、论文格式的关键词或主题词
关键词是从论文的题名、提要和正文中选取出来的,是对表述论文的中心内容有实质意义的词汇。关键词是用作计算机系统标引论文内容特征的词语,便于信息系统汇集,以供读者检索。每篇论文一般选取3-8个词汇作为关键词,另起一行,排在“提要”的左下方。
主题词是经过规范化的词,在确定主题词时,要对论文进行主题分析,依照标引和组配规则转换成主题词表中的规范词语。(参见《汉语主题词表》和《世界汉语主题词表》)。
5、论文格式的论文正文:
(1)引言:引言又称前言、序言和导言,用在论文的开头。引言一般要概括地写出作者意图,说明选题的目的和意义, 并指出论文写作的范围。引言要短小精悍、紧扣主题。
〈2)论文正文:正文是论文的主体,正文应包括论点、论据、论证过程和结论。主体部分包括以下内容:
a.提出问题-论点;
b.分析问题-论据和论证;
c.解决问题-论证方法与步骤;
d.结论。
6、论文格式的参考文献
一篇论文的参考文献是将论文在研究和写作中可参考或引证的主要文献资料,列于论文的末尾。参考文献应另起一页,标注方式按《GB7714-87文后参考文献著录规则》进行。
中文:标题--作者--出版物信息(版地、版者、版期)
英文:作者--标题--出版物信息
所列参考文献的要求是:
(1)所列参考文献应是正式出版物,以便读者考证。
(2)所列举的参考文献要标明序号、著作或文章的标题、作者、出版物信息。
二,是文章自身结构的范畴
例如一个论点要有几个论据组成,这几个论据要如何围绕此论点展开全方位的立体论述等。

相关文章
学术参考网 · 手机版
https://m.lw881.com/
首页