faceboo发表的nlp论文

当我们点开某个网站或新闻APP时，经常能看到这样的标题：“14亿人都不知道的真相，历史的血泪……”、“删前速看！XXX视频流出”等，但是点进页面时往往会发现，都是标题党！而时间和流量却在悄悄溜走。如果这时候有方法能够先阅读新闻，再提炼出关键内容，那么将大大节约时间并精准地找到我们需要的内容。而这就是图鸭君此次会介绍的技术—— “文本摘要自动生成”技术！文本摘要充斥着我们生活的方方面面，从新闻关键词的提炼到Google、百度等搜索引擎的结果优化，真正实现搜索中的所见即所得，“Smarter & Faster”。主流的文本摘要方式目前主流的文本摘要自动生成有两种方式，一种是抽取式（extractive），另一种是生成式（abstractive）。抽取式顾名思义，就是按照一定权重，从原文中寻找跟中心思想最接近的一条或几条句子。而生成式是计算机通读原文，在理解整篇文章意思的基础上，重新生成概要。抽取式摘要目前已经相对成熟，但抽取质量及内容流畅度均差强人意。伴随着深度学习的研究，生成式摘要对质量和流畅度都有很大的提升，但目前也涉及到原文本长度过长、抽取内容不佳等问题的限制。文本摘要的发展概况抽取式摘要是一种比较成熟的方案，其中Text rank排序算法以其简洁、高效的特点被工业界广泛运用。大体思想就是先去除文章中的一些停用词，之后对句子的相似度进行度量，计算每一句相对另一句的相似度得分，迭代传播，直到误差小于0.0001，再对上述方法得到的关键语句进行排序，即可获得摘要。抽取式摘要主要考虑单词词频，并没有过多的语义信息，像“猪八戒”、“孙悟空”这样的词汇都会被独立对待，无法建立文本段落中完整的语义信息。生成式文本摘要主要依靠深度神经网络结构实现，2014年由Goolge Brain团队提出的Sequence-to-Sequence序列，开启了NLP中端到端网络的火热研究。Sequence-to-Sequence又称为编、解码器（Encoder、Decoder）架构。其中Encoder、Decoder均由数层RNN／LSTM构成，Encoder负责把原文编码为一个向量C；Decode负责从向量C中提取提取信息，获取语义，生成文本摘要。但是由于“长距离依赖”问题的存在，RNN到最后一个时间步输入单词时，已经丢失了相当一部分信息。此时编码生成的语义向量C同样也丢失了大量信息，就可能导致生成摘要准确性不足。 Bahdanau等人在14年发表的论文《Neural Machine Translation by Jointly Learning to Align and Translate》中，第一次将Attention机制应用于NLP中。Attention机制是一种注意力（资源）分配机制，在某个特定时刻，总是特地关注跟它相关的内容，其他内容则进行选择性忽视。就像下图，在翻译“Knowledge”时，只会关注“知识”，这样的对齐能让文本翻译或者摘要生成更具针对性。 RNN／LSTM单元下每个词是按照顺序输入网络的，会记录文章的序列信息，所以大多数NLP任务，都是采用的RNN架构。但是这种架构限制了网络训练及摘要生成的速度，因为RNN必须一个个输入、一个个生成，无法进行并行计算。2016年Facebook AI Research（FAIR）发表了《A Convolutional Encoder Model for Neural Machine Translation》，对Encoder部分采用似乎不擅长处理序列信息的卷积网络（CNN）来实现，结果在翻译、摘要任务中，也达到了当年的最高水准； 2017年5月，还是FAIR，发布了《Convolutional Sequence to Sequence Learning》，第一次实现Encoder、Decoder均采用CNN单元，使网络在训练阶段能够并行计算，效率进一步提升。同时引入了Multi-step Attention，相比于之前只在最后一层生成翻译时往回看，多跳注意（Multi-step Attentio）的优化点在于Decoder阶段生成每一层的语义向量时都会往回看，进而提升了准确度。同时还有一些其他的trick：像引入单词的位置信息、残差网络、计算Attention时对高层语义信息和低层细节信息兼收并取等。最后在生成翻译和摘要时，速度相比之前最快的网络，提升了近9倍！同时在WMT-14英德、英法两项的单模型训练结果中，BLEU得分达到了25.16、40.46，英法翻译任务也是迄今为止得分最高的模型。时隔一个月，17年6月，Google团队发布了名为《Attention Is All You Need》的文章，即不用CNN和RNN单元，只用Self-Attention和Encoder-Decoder Attention，就完全实现了端到端的翻译任务，也是在WMT-14英德、英法翻译任务中，BLEU值达到了28.4和41.0的高分，因为同样可以并行计算，模型的训练及生成速度也有所提升。Self-Attention相比于之前的模型更加关注句子的内部结构，也就是word-pairs的信息，附图是是论文中Attention可视化的结果，可以发现仅在源文端，模型便学习到了“making more difficult”的word-pairs信息。同理对目标端，模型也会单独学习句子的内部结构信息。之后利用Encoder-Decoder Attention建立源文和目标词组、句子的对应关系。相比于FAIR 的卷积模型得到很高层才能看到句子的完整信息，Self-Attention在第一层便巧妙地建立了每个词和整个句子的联系，同时位置编码采用三角函数的相对位置法表示，理论上可以泛化到训练中未见过的更长长度句子的翻译中。目前Self-Attention仅用在了翻译任务中，但这样的思想，在文本摘要自动生成的任务中，也是可以参照的。总结：从传统的Text rank抽取式，到深度学习中采用RNN、CNN单元处理，再引入Attention、Self-Attention机器生成摘要的方式，这一步步的转化使得文本摘要生成的方式跟人类思维越来越像，先理解后提取概要。与此同时生成的摘要效果，也常常让我们惊艳。但文本摘要自动生成依然还有很多难题，如段落太长，那机器对于段落的理解时间就会更长，而过长的时间会导致机器对于段落信息的记忆损失；而深度学习非常依赖有标签的样本，标注工作也会是一笔非常大的开销等等，这些都是需要大家去解决与克服的问题。简而言之，文本摘要自动生成技术是一项非常具有前景但也是极具挑战性的技术。

量子位出品 | 公众号 QbitAI

2018，仍是AI领域激动人心的一年。

这一年成为NLP研究的分水岭，各种突破接连不断；CV领域同样精彩纷呈，与四年前相比GAN生成的假脸逼真到让人不敢相信；新工具、新框架的出现，也让这个领域的明天特别让人期待……近日，Analytics Vidhya发布了一份2018人工智能技术总结与2019趋势预测报告，原文作者PRANAV DAR。量子位在保留这个报告架构的基础上，对内容进行了重新编辑和补充。这份报告总结和梳理了全年主要AI技术领域的重大进展，同时也给出了相关的资源地址，以便大家更好的使用、查询。报告共涉及了五个主要部分：

下面，我们就逐一来盘点和展望，嘿喂狗~

2018年在NLP 历史上的特殊地位，已经毋庸置疑。

这份报告认为，这一年正是NLP的分水岭。2018年里，NLP领域的突破接连不断：ULMFiT、ELMo、最近大热的BERT……

迁移学习成了NLP进展的重要推动力。从一个预训练模型开始，不断去适应新的数据，带来了无尽的潜力，甚至有“NLP领域的ImageNet时代已经到来”一说。

正是这篇论文，打响了今年NLP迁移学习狂欢的第一枪。论文两名作者一是Fast.ai创始人Jeremy Howard，在迁移学习上经验丰富；一是自然语言处理方向的博士生Sebastian Ruder，他的NLP博客几乎所有同行都在读。两个人的专长综合起来，就有了ULMFiT。想要搞定一项NLP任务，不再需要从0开始训练模型，拿来ULMFiT，用少量数据微调一下，它就可以在新任务上实现更好的性能。

他们的方法，在六项文本分类任务上超越了之前最先进的模型。详细的说明可以读他们的论文：网站上放出了训练脚本、模型等：

这个名字，当然不是指《芝麻街》里那个角色，而是“语言模型的词嵌入”，出自艾伦人工智能研究院和华盛顿大学的论文Deep contextualized word representations，NLP顶会NAACL HLT 2018的优秀论文之一。

ELMo用语言模型（language model）来获取词嵌入，同时也把词语所处句、段的语境考虑进来。

这种语境化的词语表示，能够体现一个词在语法语义用法上的复杂特征，也能体现它在不同语境下如何变化。

当然，ELMo也在试验中展示出了强大功效。把ELMo用到已有的NLP模型上，能够带来各种任务上的性能提升。比如在机器问答数据集SQuAD上，用ELMo能让此前最厉害的模型成绩在提高4.7个百分点。

这里有ELMo的更多介绍和资源：

它由Google推出，全称是 B idirectional E ncoder R epresentations from T ransformers，意思是来自Transformer的双向编码器表示，也是一种预训练语言表示的方法。从性能上来看，没有哪个模型能与BERT一战。它在11项NLP任务上都取得了最顶尖成绩，到现在，SQuAD 2.0前10名只有一个不是BERT变体：

如果你还没有读过BERT的论文，真的应该在2018年结束前补完这一课：另外，Google官方开源了训练代码和预训练模型：如果你是PyTorch党，也不怕。这里还有官方推荐的PyTorch重实现和转换脚本：

BERT之后，NLP圈在2018年还能收获什么惊喜？答案是，一款新工具。

就在上周末，Facebook开源了自家工程师们一直在用的NLP建模框架PyText。这个框架，每天要为Facebook旗下各种应用处理超过10亿次NLP任务，是一个工业级的工具包。

（Facebook开源新NLP框架：简化部署流程，大规模应用也OK）

PyText基于PyTorch，能够加速从研究到应用的进度，从模型的研究到完整实施只需要几天时间。框架里还包含了一些预训练模型，可以直接拿来处理文本分类、序列标注等任务。

想试试？开源地址在此：

它能主动打电话给美发店、餐馆预约服务，全程流畅交流，简直以假乱真。Google董事长John Hennessy后来称之为“非凡的突破”，还说：“在预约领域，这个AI已经通过了图灵测试。”Duplex在多轮对话中表现出的理解能力、合成语音的自然程度，都是NLP目前水平的体现。如果你还没看过它的视频……

NLP在2019年会怎么样？我们借用一下ULMFiT作者Sebastian Ruder的展望：

今年9月，当搭载BigGAN的双盲评审中的ICLR 2019论文现身，行家们就沸腾了：简直看不出这是GAN自己生成的。

在计算机图像研究史上，BigGAN的效果比前人进步了一大截。比如在ImageNet上进行128×128分辨率的训练后，它的Inception Score（IS）得分166.3，是之前最佳得分52.52分 3倍。

除了搞定128×128小图之外，BigGAN还能直接在256×256、512×512的ImageNet数据上训练，生成更让人信服的样本。

在论文中研究人员揭秘，BigGAN的惊人效果背后，真的付出了金钱的代价，最多要用512个TPU训练，费用可达11万美元，合人民币76万元。

不止是模型参数多，训练规模也是有GAN以来最大的。它的参数是前人的2-4倍，批次大小是前人的8倍。

研究论文：

前前后后，Fast.ai团队只用了16个AWS云实例，每个实例搭载8块英伟达V100 GPU，结果比Google用TPU Pod在斯坦福DAWNBench测试上达到的速度还要快40%。这样拔群的成绩，成本价只需要 40美元，Fast.ai在博客中将其称作人人可实现。

相关地址

第一问：角度减少30分，即减小整圆面积的1/720*π*100*100约等于13.9平方厘米第二问：R增加1cm，即增加的面积等于现整圆面积-原整圆面积再*1/6=（π*101*101-π100*100）/6约等于105.2平方厘米

facebook发表的nlp论文

大家都知道，AI (神经网络) 连加减法这样的简单算术都做不好：可现在，AI已经懂得微积分，把魔爪伸向你最爱的高数了。它不光会求不定积分：还能解常微分方程：一阶二阶都可以。这是Facebook发表的新模型，1秒给出的答案，超越了Mathematica和Matlab这两只付费数学软件30秒的成绩。团队说，这是Seq2Seq和Transformer搭配食用的结果。用自然语言处理 (NLP) 的方法来理解数学，果然行得通。这项成果，已经在推特上获得了1700赞。许多小伙伴表示惊奇，比如： “感谢你们！在我原本的想象中，这完全是不可能的！”而且，据说算法很快就要开源了：到时候让付费软件怎么办？巨大数据集的生成姿势要训练模型做微积分题目，最重要的前提就是要有大大大的数据集。这里有，积分数据集和常微分方程数据集的制造方法：函数，和它的积分首先，就是要做出“一个函数&它的微分”这样的数据对。团队用了三种方法：第一种是正向生成 (Fwd) ，指生成随机函数 (最多n个运算符) ，再用现成的工具求积分。把工具求不出的函数扔掉。第二种是反向生成 (Bwd) ，指生成随机函数，再对函数求导。填补了第一种方法收集不到的一些函数，因为就算工具求不出积分，也一定可以求导。第三种是用了分部积分的反向生成 (Ibp) 。前面的反向生成有个问题，就是不太可能覆盖到f(x)=x3sin(x)的积分： F(x)=-x3cos(x)+3x2sin(x)+6xcos(x)-6sin(x) 因为这个函数太长了，随机生成很难做到。另外，反向生成的产物，大多会是函数的积分比函数要短，正向生成则相反。为了解决这个问题，团队用了分部积分：生成两个随机函数F和G，分别算出导数f和g。如果fG已经出现在前两种方法得到的训练集里，它的积分就是已知，可以用来求出Fg： ∫Fg=FG-∫fG 反过来也可以，如果Fg已经在训练集里，就用它的积分求出fG。每求出一个新函数的积分，就把它加入训练集。如果fG和Fg都不在训练集里，就重新生成一对F和G。如此一来，不借助外部的积分工具，也能轻松得到x10sin(x)这样的函数了。一阶常微分方程，和它的解从一个二元函数F(x,y)说起。有个方程F(x,y)=c，可对y求解得到y=f(x,c)。就是说有一个二元函数f，对任意x和c都满足：再对x求导，就得到一个微分方程：fc表示从x到f(x,c)的映射，也就是这个微分方程的解。这样，对于任何的常数c，fc都是一阶微分方程的解。把fc替换回y，就有了整洁的微分方程：这样一来，想做出“一阶常微分方程&解”的成对数据集，只要生成一个f(x,c)，对c有解的那种，再找出它满足的微分方程F就可以了，比如：二阶常微分方程，和它的解二阶的原理，是从一阶那里扩展来的，只要把f(x,c)变成f(x,c1,c2) ，对c2有解。微分方程F要满足：把它对x求导，会得到：fc1,c2表示，从x到f(x,c1,c2)的映射。如果这个方程对c1有解，就可以推出另外一个三元函数G，它对任意x都满足：再对x求导，就会得到：最后，整理出清爽的微分方程：它的解就是fc1,c2。至于生成过程，举个例子：现在，求积分和求解微分方程两个训练集都有了。那么问题也来了，AI要怎么理解这些复杂的式子，然后学会求解方法呢？将数学视作自然语言积分方程和微分方程，都可以视作将一个表达式转换为另一个表达式，研究人员认为，这是机器翻译的一个特殊实例，可以用NLP的方法来解决。第一步，是将数学表达式以树的形式表示。运算符和函数为内部节点，数字、常数和变量等为叶子节点。比如 3x^2 + cos(2x) - 1 就可以表示为：再举一个复杂一点的例子，这样一个偏微分表达式：用树的形式表示，就是：采用树的形式，就能消除运算顺序的歧义，照顾优先级和关联性，并且省去了括号。在没有空格、标点符号、多余的括号这样的无意义符号的情况下，不同的表达式会生成不同的树。表达式和树之间是一一对应的。第二步，引入seq2seq模型。 seq2seq模型具有两种重要特性：输入和输出序列都可以具有任意长度，并且长度可以不同。输入序列和输出序列中的字词不需要一一对应。因此，seq2seq模型非常适合求解微积分的问题。使用seq2seq模型生成树，首先，要将树映射到序列。使用前缀表示法，将每个父节点写在其子节点之前，从左至右列出。比如 2 + 3 * (5 + 2)，表示为树是：表示为序列就是 [+ 2 * 3 + 5 2]。树和前缀序列之间也是一一映射的。第三步，生成随机表达式。要创建训练数据，就需要生成随机数学表达式。前文已经介绍了数据集的生成策略，这里着重讲一下生成随机表达式的算法。使用n个内部节点对表达式进行统一采样并非易事。比如递归这样的方法，就会倾向于生成深树而非宽树，偏左树而非偏右树，实际上是无法以相同的概率生成不同种类的树的。所以，以随机二叉树为例，具体的方法是：从一个空的根节点开始，在每一步中确定下一个内部节点在空节点中的位置。重复进行直到所有内部节点都被分配为止。不过，在通常情况下，数学表达式树不一定是二叉树，内部节点可能只有1个子节点。如此，就要考虑根节点和下一内部节点参数数量的二维概率分布，记作 L(e,n)。接下来，就是对随机树进行采样，从可能的运算符和整数、变量、常量列表中随机选择内部节点及叶子节点来对树进行“装饰”。最后，计算表达式的数量。经由前面的步骤，可以看出，表达式实际上是由一组有限的变量、常量、整数和一系列运算符组成的。于是，问题可以概括成：最多包含n个内部节点的树一组p1个一元运算符（如cos，sin，exp，log）一组p2个二进制运算符（如+，-，×，pow）一组L个叶子值，其中包含变量（如x，y，z），常量（如e，π），整数（如 {-10，…，10}）如果p1 = 0，则表达式用二叉树表示。这样，具有n个内部节点的二叉树恰好具有n + 1个叶子节点。每个节点和叶子可以分别取p1和L个不同的值。具有n个二进制运算符的表达式数量就可以表示为：如果p1 > 0，表达式数量则为：可以观察到，叶子节点和二元运算符的数量会明显影响问题空间的大小。△不同数目运算符和叶子节点的表达式数量胜过商业软件实验中，研究人员训练seq2seq模型预测给定问题的解决方案。采用的模型，是8个注意力头（attention head），6层，512维的Transformer模型。研究人员在一个拥有5000个方程的数据集中，对模型求解微积分方程的准确率进行了评估。结果表明，对于微分方程，波束搜索解码能大大提高模型的准确率。而与最先进的商业科学计算软件相比，新模型不仅更快，准确率也更高。在包含500个方程的测试集上，商业软件中表现最好的是Mathematica。比如，在一阶微分方程中，与使用贪婪搜索解码算法（集束大小为1）的新模型相比，Mathematica不落下风，但新方法通常1秒以内就能解完方程，Mathematica的解题时间要长的多（限制时间30s，若超过30s则视作没有得到解）。而当新方法进行大小为50的波束搜索时，模型准确率就从81.2%提升到了97%，远胜于Mathematica（77.2%）并且，在某一些Mathematica和Matlab无力解决的问题上，新模型都给出了有效解。△商业科学计算软件没有找到解的方程邀请AI参加IMO这个会解微积分的AI一登场，就吸引了众多网友的目光，引发热烈讨论。网友们纷纷称赞：鹅妹子嘤。有网友这样说道：这篇论文超级有趣的地方在于，它有可能解决复杂度比积分要高得高得高得多的问题。还有网友认为，这项研究太酷了，该模型能够归纳和整合一些sympy无法实现的功能。不过，也有网友认为，在与Mathematica的对比上，研究人员的实验设定显得不够严谨。默认设置下，Mathematica是在复数域中进行计算的，这会增加其操作的难度。但作者把包含复数系数的表达式视作“无效”。所以他们在使用Mathematica的时候将设置调整为实数域了？我很好奇Mathematica是否可以解决该系统无法解决的问题。 30s的限制时间对于计算机代数系统有点武断了。但总之，面对越来越机智的AI，已经有人发起了挑战赛，邀请AI挑战IMO金牌。Facebook AI研究院出品这篇论文有两位共同一作。 Guillaume Lample，来自法国布雷斯特，是Facebook AI研究院、皮埃尔和玛丽·居里大学在读博士。他曾于巴黎综合理工学院和CMU分别获得数学与计算机科学和人工智能硕士学位。 2014年进入Facebook实习。 Franois Charton，Facebook AI研究院的客座企业家（Visiting entrepreneur），主要研究方向是数学和因果关系。传送门 ————编辑 ∑Gemini来源：新浪科技

2 月 17 日，Rob Yeung 博士发表。17 条评论

Facebook 推特领英

什么是自然语言处理？神经语言程序设计 (NLP) 是一种教练方法，由 Richard Bandler、John Grinder 和 Frank Pucelik 在 1970 年代设计。然而，许多循证科学家和心理学家对 NLP 持强烈批评态度，有些人甚至将其添加到所谓的“不可信疗法”列表中。

NLP 创建后，其思想主要以易于阅读的书籍和培训计划的形式传播，旨在帮助人们实现变革和成功。甚至自助作家 Tony Robbins 最初也开始教人们 NLP 技术，直到 1980 年代后期的一场诉讼（由 NLP 共同创造者理查德·班德勒（Richard Bandler）提起）。在庭外和解中，罗宾斯同意为罗宾斯在 NLP 认证的每个人向 NLP 协会支付 200 美元。和解后不久，罗宾斯停止了 NLP 技术的培训，而是创建了自己的方法，他称之为神经联想条件反射 (NAC)。

为什么 NLP 如此有争议？在心理治疗中，有许多所谓的大师创造了自己的治疗技术。其中一些所谓的专家以一种愤世嫉俗的观点创造了自己的方法——出售疗法以赚钱。这些自称为专家的其他人可能认为他们真的做得很好——即使没有任何科学证据支持他们的说法。

2006 年，一组研究人员进行了一项调查，要求 101 名心理健康专业人士对数十种所谓的心理疗法的可信度进行评分。研究人员由约翰诺克罗斯领导，他从罗德岛大学获得临床心理学博士学位。在进行调查时，他是费城斯克兰顿大学的心理学教授。

诺克罗斯和他的团队要求专家（主要由美国心理学会的研究员以及心理健康学术期刊的现任和前任编辑）以 1 的等级对各种假设的疗法进行评分（因为“完全没有信誉”） ) 到 5（对于“肯定名誉扫地”）。例如，有一种叫做天使疗法的东西，从业者用它来治疗精神和行为障碍。天使疗法的评分为 4.98 - 非常不可信。用于治疗精神或行为障碍的前世疗法评分为 4.92。

NLP 的评分为 3.87。事实上，它被评为比其他疗法更不可信，例如治疗阴茎嫉妒的心理疗法（其得分略低，为 3.52）。甚至用于治疗精神和行为障碍的针灸也获得了 3.49 的更有利（即不那么不可信）的评分。

悉尼大学研究员 Anthony Grant 指出，许多研究人员“认为 NLP 不是基于证据的（即几乎没有同行评审的证据表明 NLP 确实有效。然后另一方可能会回应说，从业者知道它有效，因为他们已经亲眼目睹了 NLP 客户的重大变化。”

据推测，即使是使用天使疗法和前世疗法的从业者也相信他们通过他们的方法亲眼目睹了重大变化。然而，有些人可能会争辩说，没有证据的单纯信念实际上可能更好地被视为妄想。

NLP 从业者接受了多少培训？许多商业上可用的程序表示，它们可以在大约 12 到 15 天内证明人们成为 NLP 的大师级从业者。但是，考虑到英国和美国的大多数咨询或临床心理学家需要三到五年的时间才能获得资格和认证。

NLP 的现代心理学观点是什么？研究人员和合格的心理学家大多谴责 NLP。在 2019 年发表在 International Coaching Psychology Review 上的一篇论文中，一组专家写道：“有许多 NLP 的批评者，他们将 NLP 视为一种伪科学、流行心理学甚至是邪教，没有任何证据证明其有效性。”

根据他们自己对 NLP 主题的 90 篇文章的调查，他们得出结论：“总而言之，没有实证研究为仅基于 NLP 工具和技术的辅导有效性提供证据。”

这很重要。他们没有发现只有少数科学研究支持 NLP。他们发现没有纸- 零，小人物，而不是一个。

举一个例子，考虑由赫特福德大学心理学教授理查德·怀斯曼领导的一系列调查。NLP 认为，人们的眼球运动可以表明他们的精神状态，甚至在他们撒谎的时候。然而，怀斯曼及其同事收集的数据使他们得出结论：“三项研究的结果未能支持 NLP 的主张。”

在最近的另一篇学术论文中，亨利商学院的研究人员乔纳森·帕斯莫尔 (Jonathan Passmore) 和塔蒂亚娜·罗森 (Tatiana Rowson) 回顾了 NLP 的科学并得出结论：“我们毫不犹豫地认为教练心理学家和那些对循证教练感兴趣的人忽略 NLP 是明智之举品牌支持存在明确证据基础的模型、方法和技术。”

一个由托马斯WITKOWSKI独立检讨使用较强的语言，批评NLP“完全从科学借款或表达式提到它，没有任何科学意义的。它的名字已经可以看出——神经语言编程——这是一种残酷的欺。在神经元层面，它没有提供任何解释，它与学术语言学或编程没有任何共同之处。” 在论文的结尾，他总结道：“NLP 代表伪科学垃圾，应该永远封存起来。”

如果不是 NLP，那还有什么？英国国民健康服务 (NHS) 指出，以认知行为疗法 (CBT) 为基础的自助书籍、应用程序和课程可能会有用。例如，NHS 网站推荐了一些可以免费访问的应用程序和在线工具。在书籍方面，NHS 网站建议：“检查一本书是否由具有丰富经验并在专业机构（例如英国心理学会）注册的顾问或治疗师撰写。”

当我们点开某个网站或新闻APP时，经常能看到这样的标题：“14亿人都不知道的真相，历史的血泪……”、“删前速看！XXX视频流出”等，但是点进页面时往往会发现，都是标题党！而时间和流量却在悄悄溜走。如果这时候有方法能够先阅读新闻，再提炼出关键内容，那么将大大节约时间并精准地找到我们需要的内容。而这就是图鸭君此次会介绍的技术—— “文本摘要自动生成”技术！文本摘要充斥着我们生活的方方面面，从新闻关键词的提炼到Google、百度等搜索引擎的结果优化，真正实现搜索中的所见即所得，“Smarter & Faster”。主流的文本摘要方式目前主流的文本摘要自动生成有两种方式，一种是抽取式（extractive），另一种是生成式（abstractive）。抽取式顾名思义，就是按照一定权重，从原文中寻找跟中心思想最接近的一条或几条句子。而生成式是计算机通读原文，在理解整篇文章意思的基础上，重新生成概要。抽取式摘要目前已经相对成熟，但抽取质量及内容流畅度均差强人意。伴随着深度学习的研究，生成式摘要对质量和流畅度都有很大的提升，但目前也涉及到原文本长度过长、抽取内容不佳等问题的限制。文本摘要的发展概况抽取式摘要是一种比较成熟的方案，其中Text rank排序算法以其简洁、高效的特点被工业界广泛运用。大体思想就是先去除文章中的一些停用词，之后对句子的相似度进行度量，计算每一句相对另一句的相似度得分，迭代传播，直到误差小于0.0001，再对上述方法得到的关键语句进行排序，即可获得摘要。抽取式摘要主要考虑单词词频，并没有过多的语义信息，像“猪八戒”、“孙悟空”这样的词汇都会被独立对待，无法建立文本段落中完整的语义信息。生成式文本摘要主要依靠深度神经网络结构实现，2014年由Goolge Brain团队提出的Sequence-to-Sequence序列，开启了NLP中端到端网络的火热研究。Sequence-to-Sequence又称为编、解码器（Encoder、Decoder）架构。其中Encoder、Decoder均由数层RNN／LSTM构成，Encoder负责把原文编码为一个向量C；Decode负责从向量C中提取提取信息，获取语义，生成文本摘要。但是由于“长距离依赖”问题的存在，RNN到最后一个时间步输入单词时，已经丢失了相当一部分信息。此时编码生成的语义向量C同样也丢失了大量信息，就可能导致生成摘要准确性不足。 Bahdanau等人在14年发表的论文《Neural Machine Translation by Jointly Learning to Align and Translate》中，第一次将Attention机制应用于NLP中。Attention机制是一种注意力（资源）分配机制，在某个特定时刻，总是特地关注跟它相关的内容，其他内容则进行选择性忽视。就像下图，在翻译“Knowledge”时，只会关注“知识”，这样的对齐能让文本翻译或者摘要生成更具针对性。 RNN／LSTM单元下每个词是按照顺序输入网络的，会记录文章的序列信息，所以大多数NLP任务，都是采用的RNN架构。但是这种架构限制了网络训练及摘要生成的速度，因为RNN必须一个个输入、一个个生成，无法进行并行计算。2016年Facebook AI Research（FAIR）发表了《A Convolutional Encoder Model for Neural Machine Translation》，对Encoder部分采用似乎不擅长处理序列信息的卷积网络（CNN）来实现，结果在翻译、摘要任务中，也达到了当年的最高水准； 2017年5月，还是FAIR，发布了《Convolutional Sequence to Sequence Learning》，第一次实现Encoder、Decoder均采用CNN单元，使网络在训练阶段能够并行计算，效率进一步提升。同时引入了Multi-step Attention，相比于之前只在最后一层生成翻译时往回看，多跳注意（Multi-step Attentio）的优化点在于Decoder阶段生成每一层的语义向量时都会往回看，进而提升了准确度。同时还有一些其他的trick：像引入单词的位置信息、残差网络、计算Attention时对高层语义信息和低层细节信息兼收并取等。最后在生成翻译和摘要时，速度相比之前最快的网络，提升了近9倍！同时在WMT-14英德、英法两项的单模型训练结果中，BLEU得分达到了25.16、40.46，英法翻译任务也是迄今为止得分最高的模型。时隔一个月，17年6月，Google团队发布了名为《Attention Is All You Need》的文章，即不用CNN和RNN单元，只用Self-Attention和Encoder-Decoder Attention，就完全实现了端到端的翻译任务，也是在WMT-14英德、英法翻译任务中，BLEU值达到了28.4和41.0的高分，因为同样可以并行计算，模型的训练及生成速度也有所提升。Self-Attention相比于之前的模型更加关注句子的内部结构，也就是word-pairs的信息，附图是是论文中Attention可视化的结果，可以发现仅在源文端，模型便学习到了“making more difficult”的word-pairs信息。同理对目标端，模型也会单独学习句子的内部结构信息。之后利用Encoder-Decoder Attention建立源文和目标词组、句子的对应关系。相比于FAIR 的卷积模型得到很高层才能看到句子的完整信息，Self-Attention在第一层便巧妙地建立了每个词和整个句子的联系，同时位置编码采用三角函数的相对位置法表示，理论上可以泛化到训练中未见过的更长长度句子的翻译中。目前Self-Attention仅用在了翻译任务中，但这样的思想，在文本摘要自动生成的任务中，也是可以参照的。总结：从传统的Text rank抽取式，到深度学习中采用RNN、CNN单元处理，再引入Attention、Self-Attention机器生成摘要的方式，这一步步的转化使得文本摘要生成的方式跟人类思维越来越像，先理解后提取概要。与此同时生成的摘要效果，也常常让我们惊艳。但文本摘要自动生成依然还有很多难题，如段落太长，那机器对于段落的理解时间就会更长，而过长的时间会导致机器对于段落信息的记忆损失；而深度学习非常依赖有标签的样本，标注工作也会是一笔非常大的开销等等，这些都是需要大家去解决与克服的问题。简而言之，文本摘要自动生成技术是一项非常具有前景但也是极具挑战性的技术。

twitter发表的nlp论文