关于推荐系统的毕业论文

此前整理过KDD21上工业界文章，本文主要整理和分类了Recsys 2021的Research Papers和Reproducibility papers。按照推荐系统的研究方向和使用的推荐技术来分类，方便大家快速检索自己感兴趣的文章。个人认为Recsys这个会议重点不在于”技术味多浓”或者”技术多先进”，而在于经常会涌现很多新的观点以及有意思的研究点，涵盖推荐系统的各个方面，例如，Recsys 2021涵盖的一些很有意思的研究点包括：

还有些研究点也是值得一读的，比如推荐系统中的冷启动，偏差与纠偏，序列推荐，可解释性，隐私保护等，这些研究很有意思和启发性，有助于开拓大家的研究思路**。

下面主要根据自己读题目或者摘要时的一些判断做的归类，按照推荐系统研究方向分类、推荐技术分类以及专门实验性质的可复现型文章分类，可能存在漏归和错归的情况，请大家多多指正。

信息茧房/回音室(echo chamber)/过滤气泡(filter bubble) ，这3个概念类似，在国内外有不同的说法。大致是指使用社交媒体以及带有算法推荐功能的资讯类APP，可能会导致我们只看得到自己感兴趣的、认同的内容，进而让大家都活在自己的小世界里，彼此之间难以认同和沟通。关于这部分的概念可参见知乎文章：。有四篇文章探讨了这样的问题。

此次大会在探索与利用上也有很多探讨，例如多臂老虎机、谷歌的新工作，即：用户侧的探索等。

涉及排序学习的纠偏、用户的偏差探索等。

Debiased Explainable Pairwise Ranking from Implicit Feedback

Khalil Damak, Sami Khenissi, and Olfa Nasraoui

Mitigating Confounding Bias in Recommendation via Information Bottleneck

Dugang Liu, Pengxiang Cheng, Hong Zhu, Zhenhua Dong, Xiuqiang He, Weike Pan, and Zhong Ming

User Bias in Beyond-Accuracy Measurement of Recommendation Algorithms

Ningxia Wang, and Li Chen

利用图学习、表征学习等做冷启动。

Cold Start Similar Artists Ranking with Gravity-Inspired Graph Autoencoders

Guillaume Salha-Galvan, Romain Hennequin, Benjamin Chapus, Viet-Anh Tran, and Michalis Vazirgiannis

Shared Neural Item Representations for Completely Cold Start Problem

Ramin Raziperchikolaei, Guannan Liang, and Young-joo Chung

涉及离线或在线评估方法，准确性和多样性等统一指标的设计等。

Evaluating Off-Policy Evaluation: Sensitivity and Robustness

Yuta Saito, Takuma Udagawa, Haruka Kiyohara, Kazuki Mogi, Yusuke Narita, and Kei Tateno

Fast Multi-Step Critiquing for VAE-based Recommender Systems

Diego Antognini and Boi Faltings

Online Evaluation Methods for the Causal Effect of Recommendations

Masahiro Sato

Towards Unified Metrics for Accuracy and Diversity for Recommender Systems

Javier Parapar and Filip Radlinski

涉及session维度的短序列推荐；使用NLP中常用的Transformers做序列推荐的鸿沟探讨和解决，这个工作本人还挺感兴趣的，后续会精读下！

结合联邦学习做隐私保护等。

Black-Box Attacks on Sequential Recommenders via Data-Free Model Extraction

Zhenrui Yue, Zhankui He, Huimin Zeng, and Julian McAuley

Large-scale Interactive Conversational Recommendation System

Ali Montazeralghaem, James Allan, and Philip S. Thomas

EX3: Explainable Attribute-aware Item-set Recommendations

Yikun Xian, Tong Zhao, Jin Li, Jim Chan, Andrey Kan, Jun Ma, Xin Luna Dong, Christos Faloutsos, George Karypis, S. Muthukrishnan, and Yongfeng Zhang

Towards Source-Aligned Variational Models for Cross-Domain Recommendation

Aghiles Salah, Thanh Binh Tran, and Hady Lauw

利用视觉信息做推荐。

Ambareesh Revanur, Vijay Kumar, and Deepthi Sharma

Huiyuan Chen, Yusan Lin, Fei Wang, and Hao Yang

探讨了美食场景下，多用户意图的推荐系统的交互设计。

“Serving Each User”: Supporting Different Eating Goals Through a Multi-List Recommender Interface

Alain Starke, Edis Asotic, and Christoph Trattner

涉及传统协同过滤、度量学习的迭代；新兴的图学习技术、联邦学习技术、强化学习技术等的探索。

Matrix Factorization for Collaborative Filtering Is Just Solving an Adjoint Latent Dirichlet Allocation Model After All

Florian Wilhelm

Negative Interactions for Improved Collaborative-Filtering: Don’t go Deeper, go Higher Harald Steck and Dawen Liang

ProtoCF: Prototypical Collaborative Filtering for Few-shot Item Recommendation

Aravind Sankar, Junting Wang, Adit Krishnan, and Hari Sundaram

知识图谱的应用以及图嵌入技术和上下文感知的表征技术的融合，这两个工作个人都挺感兴趣。

Antonio Ferrara, Vito Walter Anelli, Tommaso Di Noia, and Alberto Carlo Maria Mancino

Marco Polignano, Cataldo Musto, Marco de Gemmis, Pasquale Lops, and Giovanni Semeraro

涉及训练、优化、检索、实时流等。

Jeremie Rappaz, Julian McAuley, and Karl Aberer

Reproducibility papers可复现实验性质的文章，共3篇。分别探索了：序列推荐中的采样评估策略；对话推荐系统中生成式和检索式的方法对比；神经网络推荐系统和矩阵分解推荐系统的对比。

通过论文的整理和分类，笔者也发现了一些自己感兴趣的研究点，比如：推荐系统的回音室效应探讨文章；Transformers在序列推荐和NLP序列表征中的鸿沟和解决文章：Transformers4Rec；图嵌入表征和上下文感知表征的融合文章；NCF和MF的实验对比文章；

综述类: 1、Towards the Next Generation of Recommender Systems: A Survey of the State-of-the-Art and Possible Extensions。最经典的推荐算法综述 2、Collaborative Filtering Recommender Systems. JB Schafer 关于协同过滤最经典的综述 3、Hybrid Recommender Systems: Survey and Experiments 4、项亮的博士论文《动态推荐系统关键技术研究》 5、个性化推荐系统的研究进展.周涛等 6、Recommender systems L Lü, M Medo, CH Yeung, YC Zhang, ZK Zhang, T Zhou Physics Reports 519 (1), 1-49 （）个性化推荐系统评价方法综述.周涛等协同过滤： factorization techniques for recommender systems. Y Koren collaborative filtering to weave an information Tapestry. David Goldberg （协同过滤第一次被提出） Collaborative Filtering Recommendation Algorithms. Badrul Sarwar , George Karypis, Joseph Konstan .etl of Dimensionality Reduction in Recommender System – A Case Study. Badrul M. Sarwar, George Karypis, Joseph A. Konstan etl Memory-Based Collaborative Filtering. Kai Yu, Anton Schwaighofer, Volker Tresp, Xiaowei Xu,and Hans-Peter Kriegel systems:a probabilistic analysis. Ravi Kumar Prabhakar recommendations: item-to-item collaborative filtering. Greg Linden, Brent Smith, and Jeremy York of Item-Based Top- N Recommendation Algorithms. George Karypis Matrix Factorization. Ruslan Salakhutdinov Decompositions,Alternating Least Squares and other Tales. Pierre Comon, Xavier Luciani, André De Almeida 基于内容的推荐： Recommendation Systems. Michael J. Pazzani and Daniel Billsus 基于标签的推荐： Recommender Systems: A State-of-the-Art Survey. Zi-Ke Zhang(张子柯), Tao Zhou(周涛), and Yi-Cheng Zhang(张翼成) 推荐评估指标： 1、推荐系统评价指标综述. 朱郁筱，吕琳媛 2、Accurate is not always good：How Accuacy Metrics have hurt Recommender Systems 3、Evaluating Recommendation Systems. Guy Shani and Asela Gunawardana 4、Evaluating Collaborative Filtering Recommender Systems. JL Herlocker 推荐多样性和新颖性： 1. Improving recommendation lists through topic diversification. Cai-Nicolas Ziegler Sean M. McNee, Joseph Lausen Fusion-based Recommender System for Improving Serendipity Maximizing Aggregate Recommendation Diversity：A Graph-Theoretic Approach The Oblivion Problem：Exploiting forgotten items to improve Recommendation diversity A Framework for Recommending Collections Improving Recommendation Diversity. Keith Bradley and Barry Smyth 推荐系统中的隐私性保护： 1、Collaborative Filtering with Privacy. John Canny 2、Do You Trust Your Recommendations? An Exploration Of Security and Privacy Issues in Recommender Systems. Shyong K “Tony” Lam, Dan Frankowski, and John Ried. 3、Privacy-Enhanced Personalization. Alfred 4、Differentially Private Recommender Systems：Building Privacy into the Netflix Prize Contenders. Frank McSherry and Ilya Mironov Microsoft Research, Silicon Valley Campus 5、When being Weak is Brave: Privacy Issues in Recommender Systems. Naren Ramakrishnan, Benjamin J. Keller,and Batul J. Mirza 推荐冷启动问题： Boltzmann Machines for Cold Start Recommendations. Asela Preference Regression for Cold-start Recommendation. Seung-Taek Park, Wei Chu Cold-Start Problem in Recommendation Systems. Xuan Nhat and Metrics for Cold-Start Recommendations. Andrew I. Schein, Alexandrin P opescul, Lyle H. U ngar bandit(老虎机算法,可缓解冷启动问题): 1、Bandits and Recommender Systems. Jeremie Mary, Romaric Gaudel, Philippe Preux 2、Multi-Armed Bandit Algorithms and Empirical Evaluation 基于社交网络的推荐： 1. Social Recommender Systems. Ido Guy and David Carmel A Social Networ k-Based Recommender System(SNRS). Jianming He and Wesley W. Chu Measurement and Analysis of Online Social Networks. Referral Web：combining social networks and collaborative filtering 基于知识的推荐： 1、Knowledge-based recommender systems. Robin Burke 2、Case-Based Recommendation. Barry Smyth 3、Constraint-based Recommender Systems: Technologies and Research Issues. A. Felfernig. R. Burke 其他： Trust-aware Recommender Systems. Paolo Massa and Paolo Avesani

关于推荐系统的研究毕业论文

论文：题目：《Leveraging Historical Interaction Data for Improving Conversational Recommender System 》地址：这是我第一次将美团发表的论文写在这上面，该论文是人大跟美团这边合作在CIKM上面的一篇短论文，研究的是如何利用历史交互的数据来进行对话式的推荐。最近，对话推荐系统（CRS）已成为一个新兴且实用的研究主题。现有的大多数CRS方法都专注于仅从对话数据中为用户学习有效的偏好表示。然而，本论文从新的视角来利用历史交互数据来改善CRS。为此，这篇论文提出了一种新颖的预训练方法，以通过预训练方法集成基于物品的偏好序列（来自历史交互数据）和基于属性的偏好序列（来自对话数据）。随着电子商务平台中智能代理的快速发展，对话推荐系统（CRS）已成为寻求通过对话向用户提供高质量推荐的新兴研究主题。通常，CRS由对话模块和推荐模块组成。对话模块侧重于通过多回合互动获取用户的偏好，推荐模块侧重于如何利用推断出的偏好信息为用户推荐合适的商品。现有的大多数CRS都以“系统要求用户响应”模式设计的。在每轮对话中，CRS都会发出有关用户偏爱的问题，并且用户会使用个性化反馈对系统进行回复。通常，系统会根据商品的某些属性（例如，你最喜欢的电影类型是什么）来生成系统查询，并且用户反馈会反映用户对该属性的特定偏爱（例如，我喜欢动作电影）。主流方法是构造一种跟踪模块，该模块可以从这种多轮对话中推断出用户的基于属性的偏好。以此方式，可以将所推断的偏好呈现为所推断属性的序列（例如，电影CRS中的“流派＝动作→导演＝詹姆斯·卡梅隆”。有了这个序列后，我们就可以用一些方法来进行推荐来，比如可以采用知识图谱来进行推荐。但是，这些现有的CRS研究存在两个主要问题。首先，对话本身的信息非常有限。许多CRS得到了进一步优化，以减少系统与用户交互的回合数。因此，在基于属性的推断偏好中，可能会丢失一些有用的属性。其次，仅利用基于属性的偏好来进行推荐可能还不够。例如，即使在过滤了几个属性之后，候选项目集仍可能很大。现在要解决以上提到的两个问题，我们就需要把基于item的方式和基于属性的方式进行结合。其中，基于历史交互item的方式反映的是用户的长期兴趣，基于会话属性的方式反映的是用户当前的兴趣，也就是短期兴趣，这是一个典型的长短期兴趣结合的任务。 A：之前说了，在CRS系统中，一个用户进行多轮对话后，会有一个item属性的集合，A就是这个集合 = ,其中属于A，是item的属性，n是属性序列的长度 ,其中是用户在对话前第k步与之交互的item :我们进一步假设每个项目ik也与一组属性值相关联，用Aik表示，它是整个属性集A的子集。任务的定义：根据CRS模块，首先收集到基于属性的序列，然后利用点击序列进行推荐。关于这个任务的定义，深入理解应该是这样：我们是先有属性序列，然后主要根据点击序列进行推荐，属性序列的建模是子模块任务，序列推荐是主任务，序列推荐任务在属性序列更新后可以反复利用这个信息，只要属性序列更新。论文的base model是用Transformer做的，输入部分是embedding层，这部分除了有item id的embedding矩阵，还有属性的embedding矩阵，输入还有个P，这个就不说了，位置向量。中间的运算就是Transformer的过程了，self-attention 跟ffn，这里不懂transformer结构的可以看一下论文。输出部分是预测候选item i的概率：其中ei是i的原始embedding向量，W是映射矩阵，两个s是item和属性经过transformer结构出来的最后一个向量。熟悉bert的都知道mask language model，把item序列中的item 用mask替代，然后预测这些被mask掉的item。其中fik是item transformer结构出来的位置k出来的向量，SA是熟悉结构出来的Aik的位置出来的向量，W是映射矩阵，eik是原始的item embedding。为了更好的让item based的信息跟attribute based的信息进行融合，论文也采取了一种另类的mask方法，用随机负采样的属性来替代Aik，其中fik是被替换的那个item经过trm出来的向量，W是映射矩阵，faj是属性trm出来的向量，预测的概率是aj是否是被替换过。在LTR里面，如果采用的是pairwise的优化方式，那么负采样的技术就至为关键了，而且优化了正样本的概率大于负样本的能力，所以需要选取一种负采样的方法来给我们整个模型的优化带来提升。 MIP里面负采样的方式用的是 IR-GAN 和 ELECT这两篇论文所采用的方式。改论文选择了SASRec作为第一个阶段的pairwise ranking的模型，这个模型也是论文中用来sample 负样本的模型。负采样是这么做的：我们先用pairwise ranking的方式训练一个模型作为生成器，得到了候选item的概率分布，有了这个概率分布我们就可以拿来负采样了，因为排序高的items跟真实的很接近。至于为什么选择这个模型，论文里面说是因为这个论文在序列推荐任务中的表示特别好，也就是它作为ranking的模型效果还不错。请注意，尽管可以像标准GAN中那样更新生成器，但是我们只训练它的参数一次。根据经验，我们发现迭代更新带来的改进是有限的。整个训练分成两个阶段，第一个是预训练阶段，就是训练两个表示学习模型，第二个是微调阶段，学习的是rank loss：

毕业论文是高等教育自学考试本科专业应考者完成本科阶段学业的最后一个环节，它是应考者的总结性独立作业，目的在于总结学习专业的成果，培养综合运用所学知识解决实际问题的能力。从文体而言，它也是对某一专业领域的现实问题或理论问题进行科学研究探索的具有一定意义的论说文。完成毕业论文的撰写可以分两个步骤，即选择课题和研究课题。首先是选择课题。选题是论文撰写成败的关键。因为，选题是毕业论文撰写的第一步，它实际上就是确定“写什么”的问题，亦即确定科学研究的方向。如果“写什么”不明确，“怎么写”就无从谈起。教育部自学考试办公室有关对毕业论文选题的途径和要求是“为鼓励理论与工作实践结合，应考者可结合本单位或本人从事的工作提出论文题目，报主考学校审查同意后确立。也可由主考学校公布论文题目，由应考者选择。毕业论文的总体要求应与普通全日制高等学校相一致，做到通过论文写作和答辩考核，检验应考者综合运用专业知识的能力”。但不管考生是自己任意选择课题，还是在主考院校公布的指定课题中选择课题，都要坚持选择有科学价值和现实意义的、切实可行的课题。选好课题是毕业论文成功的一半。第一、要坚持选择有科学价值和现实意义的课题。科学研究的目的是为了更好地认识世界、改造世界，以推动社会的不断进步和发展。因此，毕业论文的选题，必须紧密结合社会主义物质文明和精神文明建设的需要，以促进科学事业发展和解决现实存在问题作为出发点和落脚点。选题要符合科学研究的正确方向，要具有新颖性，有创新、有理论价值和现实的指导意义或推动作用，一项毫无意义的研究，即使花很大的精力，表达再完善，也将没有丝毫价值。具体地说，考生可从以下三个方面来选题。首先，要从现实的弊端中选题，学习了专业知识，不能仅停留在书本上和理论上，还要下一番功夫，理论联系实际，用已掌握的专业知识，去寻找和解决工作实践中急待解决的问题。其次，要从寻找科学研究的空白处和边缘领域中选题，科学研究还有许多没有被开垦的处女地，还有许多缺陷和空白，这些都需要填补。应考者应有独特的眼光和超前的意识去思索，去发现，去研究。最后，要从寻找前人研究的不足处和错误处选题，在前人已提出来的研究课题中，许多虽已有初步的研究成果，但随着社会的不断发展，还有待于丰富、完整和发展，这种补充性或纠正性的研究课题，也是有科学价值和现实指导意义的。第二、要根据自己的能力选择切实可行的课题。毕业论文的写作是一种创造性劳动，不但要有考生个人的见解和主张，同时还需要具备一定的客观条件。由于考生个人的主观、客观条件都是各不相同的，因此在选题时，还应结合自己的特长、兴趣及所具备的客观条件来选题。具体地说，考生可从以下三个方面来综合考虑。首先，要有充足的资料来源。“巧妇难为无米之炊”，在缺少资料的情况下，是很难写出高质量的论文的。选择一个具有丰富资料来源的课题，对课题深入研究与开展很有帮助。其次，要有浓厚的研究兴趣，选择自己感兴趣的课题，可以激发自己研究的热情，调动自己的主动性和积极性，能够以专心、细心、恒心和耐心的积极心态去完成。最后，要能结合发挥自己的业务专长，每个考生无论能力水平高低，工作岗位如何，都有自己的业务专长，选择那些能结合自己工作、发挥自己业务专长的课题，对顺利完成课题的研究大有益处。

本文是2010年发表在RecSys上的文章。本文主要介绍的是YouTube的个性化推荐的相关内容。用户使用YouTube一般有三个原因： --看他们在其他地方找到的单一视频（直接导航）； --围绕某个主题（搜索和目标导向浏览）查看特定视频； --受他们感兴趣内容的吸引。推荐系统主要是针对第三点，目的是帮助用户发现他们感兴趣的高质量视频，并且推荐结果应该随时间和用户最近的行为更新。在YouTube的推荐应用中，面临以下挑战： --用户上传的视频的元信息非常少； --视频时长比较短（一般小于10分钟）； --用户行为短暂、多变而且噪声很多； --视频生命周期短。这是YouTube的推荐和普通视频网站推荐不同的地方，这些挑战也是现在很多短视频公司关注的问题。推荐系统算法应该保持时效性和新鲜性，另外，用户必须了解为什么向他们推荐视频，这样可以帮助用户根据自己的喜好改善推荐引擎。推荐的视频是通过用户的行为来生成的，用户的行为包括观看、收藏、喜欢等来作为种子视频，然后使用各种相关性和多样性的 signals 对视频集进行排序。推荐系统的工程设计方面，保持各个模块的独立性，并且还需要对故障具有恢复能力，并在出现部分故障时适度降级。这里有2种数据可以考虑： 1）是内容数据视频流、视频元信息（标题，标签等）； 2）用户行为数据，包括显性和隐性数据。前者是指用户评分、明确表示喜欢、不喜欢等行为，后者是浏览、观看等行为。原始数据中还含有非常多的噪声，很多不可控因素会影响原始数据的质量。作者将相关视频定义为用户在观看给定的种子视频 v 之后可能会观看的视频，使用关联规则挖掘技术来确定视频间的相关性。视频i和j的相关性定义为：将用户观看过的视频、喜欢过的视频、收藏过的视频等等作为种子集合，对它们进行N级的级联扩展，也就是YouTube选择召回的不是1步相关视频，而是n-步相关视频，即种子视频迭代n次后得到的相关视频集合，产生广阔和多样的候选结果。在生成一组候选视频后，需要对这些相关视频进行排序。用于排序的数据主要包括： --视频质量：包括观看次数、视频评分、评论、收视和上传时间等； --用户特征：考虑用户观看历史记录中种子视频的属性，例如观看次数和观看时间等； --多样性：要在被推荐的视频集合的类别中做一个平衡，以保持结果的多样性。这些数据最终被线性组合起来，得到ranking的评分。本文虽然是2010年发表的，近年来有很多内容升级复杂化了，但是作为初学者，本文的知识点和整体思路是非常值得学习的。当时的YouTube推荐系统的核心算法就是基于Item的协同过滤算法，也就是对于一个用户当前场景下和历史兴趣中喜欢的视频，找出它们相关的视频，并从这些视频中过滤掉已经看过的，剩下就是可以用户极有可能喜欢看的视频。本文是Google的YouTube团队在推荐系统上DNN方面的尝试，发表在16年9月的RecSys会议。本文第1节介绍了YouTube推荐系统主要面临的挑战。第2节介绍了一个简要的系统概述。第3节更详细地描述了候选集生成模型，包括如何对其进行训练并用于提供推荐服务；实验结果显示模型添加特征和DNN深度后可以显著提升预测效果。第4节详细说明了排序模型，包括使用加权逻辑回归技术以训练预测预期观察时间的模型；实验结果表明，增加隐层网络宽度和深度都能提升模型效果。最后，第5节做了总结。 -规模大：用户和视频的数量都很大，传统适合小规模的算法无法满足； -新鲜度：要求对新视频作出及时和合适的反馈； -噪音：YouTube上的历史用户行为由于稀疏性和各种不可观察的外部因素而不可预测。我们很少能获得基本真实的用户满意度，更多的是隐式反馈噪声信号。推荐系统的整体结构如图所示：该系统由两个神经网络组成：一个用于候选集的生成，一个用于排序。候选集生成网络将用户的Youtube活动历史记录作为输入，然后从海量视频集中筛选出一小部分（数百个）以高精度与用户相关的视频。排序网络负责基于更加精细的特征对候选集进行排序，最后将最高得分的视频呈现给用户（按它们的得分排名）。该模型把这个推荐问题转化成极端多分类问题：对于用户U和上下文C，把语料库V中的数百万个视频（分类）i，在时间t处做准确的分类，如下所示：其中u为用户U的embedding表示，vi 代表各个候选视频的embedding。embedding是指稀疏实体（单个视频，用户等）到实数密集向量的映射；DNN的目标就是在用户信息和上下文信息为输入条件下学习用户的embedding向量u，这对于用softmax分类器来区分视频是有用的。整个模型架构是包含三层全连接层，使用relu激活函数。把用户观看历史数据、搜索数据做一个embedding，加上age、gender等特征作为DNN的输入；输出分线上和离线训练两个部分。训练阶段使用softmax输出概率，在服务期间则直接使用接近最近邻搜索来进行生产候选的N个视频。 1）把用户观看过的视频id列表做embedding，并对所有历史观看视频ID的embedding做平均，得到观看embedding向量。 2）同时把用户搜索过的视频id列表也做如上的embedding，得到搜索embedding向量。 3）用户的人口统计学属性做embedding得到特征向量。 4）简单的二值和连续特征，例如用户的性别，登录状态和年龄作为归一化为[0,1]的实数值直接输入到网络中。 5）example age：机器学习系统总是利用历史的例子去预测未来，所以对过去总会有一个隐含的偏差。为了矫正偏差，YouTube把训练样本的年龄当作一个特征。 1.训练样本要用youtube上的所有视频观看记录，而不只是我们的推荐的视频的观看记录。 2.为每个用户生产固定数量的训练样本。 3.丢弃搜索信息的顺序，用无序的词袋表示搜索查询。 4.如下图，图(a)从历史观看记录中随机拿出来一个作为正样本来预测它，其余的历史观看记录作为上下文；这样其实泄露了未来的信息，并且忽略了任何非对称的消费模式。相反，图(b)是从用户的历史视频观看记录中随机拿出来一个作为正样本，然后只用这个视频之前的历史观看记录作为输入；这样的预测效果好得多。 – 深度为0：这时网络就是一个把连接起来的输入层转换一下，和softmax的256维输出对应起来 – 深度为1：第一层 256个节点，激活函数是ReLU （rectified linear units 修正线性单元） – 深度为2：第一层512个节点，第二层256个节点，激活函数都是ReLU – 深度为3：第一层1024个节点，第二层512个节点，第三层256个节点，激活函数都是ReLU – 深度为4：第一层2048个节点，第二层1024个节点，第三层512个节点，第四层256个节点，激活函数都是ReLU 实验结果如下图所示：可以看出，特征选取较多时，并且模型深度在四层时，可以得到较好的结果。排序阶段最重要的任务就是精准的预估用户对视频的喜好程度。在排序阶段面对的数据集比较小，因此会采用更多的特征来计算。作者在排序阶段所设计的DNN和上文的DNN的结构是类似的，但在训练阶段对视频的打分函数不再是softmax，而是采用的逻辑回归。如下图所示： 1）特征工程尽管神经网络能够减轻人工特征工程的负担，但是我们依然需要花费精力将用户及视频数据转化为有效的特征。其主要的挑战在于如何表示用户动作的时间序列以及这些动作如何与正被评分的视频展现相关。但是通过对用户和物品之间的交互行为，我们能提取出一些有用信息，比如：用户从这个频道里看过多少视频，用户上次观看这个主题的视频是什么时候等。 2）embedding 离散特征每个维度都有独立的embedding空间，实际并非为所有的id进行embedding，比如视频id，只需要按照点击排序，选择top N视频进行embedding，其余置为0向量；而当多值离散特征映射成embedding之后，像在候选集生成阶段一样，在输入网络之前需要做一下加权平均。另外一个值得注意的是，离散特征对应的ID一样的时候，他们的底层embedding也是共享的，其优势在于提升泛化能力、加速训练、减小内存占用等。 3）连续特征归一化对连续值类的特征进行归一化，作者设计一种积分函数将特征映射为一个服从[0,1]分布的变量；还可以对某些特征进行取根号、取对数和取平方的相关操作，使得网络有更强的表达能力。给定正负样本，正样本为有点击视频，负样本为无点击视频；用观看时长对正样本做了加权，负样本都用单位权重（即不加权）；采用的是基于交叉熵损失函数的逻辑回归模型训练的。上表显示了在保留数据集上用不同的隐层配置得到的结果，这些结果表明增加隐层的宽度提升了效果，增加深度也是一样。本文内容方面，介绍了YouTube基于深度学习的推荐系统，先用视频和用户的主要信息通过深度候选生成模型从百万级视频中找出数百个相关的视频，再用视频和用户的其他信息通过深度排序模型从数百个视频中找出几十个最有可能受用户欢迎的视频给用户。这样使得推荐系统对用户喜好的刻画能力大大增强，刻画的范围更加广泛。本文结构方面，从推荐系统的整体结构讲起，划分为候选集生成和排序两个阶段，然后对每个阶段详细地展开讲解。整体过程条理清晰，逻辑严密，值得我们学习。

论文查重系统推荐

目前市面出现了各种各样的论文查重软件，可以区分为初稿查重和定稿查重，根据自己不同的论文情况来进行选择。初稿论文查重软件有：paperfree、papertime等等；定稿论文查重软件有：知网、维普、万方等。一般学校对于初稿查重软件没什么要求，只是在定稿后要使用与学校要求一致的软件检测，这样才能保证重复率更加接近于学校的结果。同时大家在选择查重软件时，要注意以下几点：1、要选安全、可靠的的。不然你检测完以后，再去学校检测，发现已经在其他地方出现过你这篇论文了，太就太不应该了。2、选大品牌的。有的人直接在百度搜论文查重软件，找一些做竞价的查重工具，这些工具比较都是小品牌，没什么知名度，全靠竞价烧钱。3、可以咨询一下同学们用什么软件，看他们使用后的效果，用得好，也可以去尝试一下。

什么论文查重软件好？衡量一个查重软件好不好得看学校的要求而定，假设学校要求知网查重，那么知网就是最好最准的检测系统，其他查重系统都可以作为初稿检测，目前paper系列查重软件免费力度不同，推荐cnkitime学术不端论文查重系统，大学生版（专/本科毕业论文定稿）、研究生版（硕博毕业论文定稿）、期刊职称版（期刊投稿，职称评审）以上版本均可免费查重不限篇数。

论文查重粗略可以分成初稿查重，终稿查重。

国内大查重软件大概有：

知网查重系统，Paperbye查重软件，万方查重系统，维普查重系统；

还有国外的查重系，Turnitin，Grammaly语法检测，Plagiarisma系统等

初稿查重系统

硕博本科毕业论文，可以选择paperbye、万方，维普等。

定稿查重系统

如果是硕士博士毕业论文查重定稿了，多数选择是知网查重系统。

论文完成后我们就需要对论文进行查重，学校会提供1-2次免费知网查重的机会以此方便同学检测论文重复率。但是在还没有定稿之前尽量不要使用学校的查重，定稿之前我们可以选择其他的查重系统检测重复率同时进行修改，那么怎么去选择查重软件呢？第一、论文查重软件的选择很重要，如果是一些不靠谱的查重不仅浪费钱还会浪费掉宝贵的时间，查重结果可能不准确还会导致论文泄露。所以当我们选择的时候特别要注意不要只关注价格。第二、实在不知道选择我们可以问问学姐学长请他们帮忙推荐几个毕竟都有使用过的经验。我们最好是选择比较热门、官方认证过的论文查重系统，比如知网、维普、万方、paperfree论文查重系统等等，都是有正规营业执照安全性有保障。数据库里面收录的文献数据比较的全面，不同类型的查重都可以进行。第三、初稿我们可以选择免费的查重系统进行修改，一些查重系统还能在线进行修改实时进行查重，能让我们更好地了解到修改的效果。学校要求很严格，论文写作时也要注意尽量不抄袭自己写，重复率过高降导致无法毕业无法参加答辩。定稿建议使用学校规定的查重系统进行检测，其他系统只是做个参考且学校是不认可的最终我们论文还是要上交学校的。

首页

> 学术论文知识库

关于推荐系统的毕业论文