目前市面出现了各种各样的论文查重软件,可以区分为初稿查重和定稿查重,根据自己不同的论文情况来进行选择。初稿论文查重软件有:paperfree、papertime等等;定稿论文查重软件有:知网、维普、万方等。一般学校对于初稿查重软件没什么要求,只是在定稿后要使用与学校要求一致的软件检测,这样才能保证重复率更加接近于学校的结果。同时大家在选择查重软件时,要注意以下几点:1、要选安全、可靠的的。不然你检测完以后,再去学校检测,发现已经在其他地方出现过你这篇论文了,太就太不应该了。2、选大品牌的。有的人直接在百度搜论文查重软件,找一些做竞价的查重工具,这些工具比较都是小品牌,没什么知名度,全靠竞价烧钱。3、可以咨询一下同学们用什么软件,看他们使用后的效果,用得好,也可以去尝试一下。
什么论文查重软件好?衡量一个查重软件好不好得看学校的要求而定,假设学校要求知网查重,那么知网就是最好最准的检测系统,其他查重系统都可以作为初稿检测,目前paper系列查重软件免费力度不同,推荐cnkitime学术不端论文查重系统,大学生版(专/本科毕业论文定稿)、研究生版(硕博毕业论文定稿)、期刊职称版(期刊投稿,职称评审)以上版本均可免费查重不限篇数。
论文查重粗略可以分成初稿查重,终稿查重。
国内大查重软件大概有:
知网查重系统,Paperbye查重软件,万方查重系统,维普查重系统;
还有国外的查重系,Turnitin,Grammaly语法检测,Plagiarisma系统等
初稿查重系统
硕博本科毕业论文,可以选择paperbye、万方,维普等。
定稿查重系统
如果是硕士博士毕业论文查重定稿了,多数选择是知网查重系统。
论文完成后我们就需要对论文进行查重,学校会提供1-2次免费知网查重的机会以此方便同学检测论文重复率。但是在还没有定稿之前尽量不要使用学校的查重,定稿之前我们可以选择其他的查重系统检测重复率同时进行修改,那么怎么去选择查重软件呢?第一、论文查重软件的选择很重要,如果是一些不靠谱的查重不仅浪费钱还会浪费掉宝贵的时间,查重结果可能不准确还会导致论文泄露。所以当我们选择的时候特别要注意不要只关注价格。第二、实在不知道选择我们可以问问学姐学长请他们帮忙推荐几个毕竟都有使用过的经验。我们最好是选择比较热门、官方认证过的论文查重系统,比如知网、维普、万方、paperfree论文查重系统等等,都是有正规营业执照安全性有保障。数据库里面收录的文献数据比较的全面,不同类型的查重都可以进行。第三、初稿我们可以选择免费的查重系统进行修改,一些查重系统还能在线进行修改实时进行查重,能让我们更好地了解到修改的效果。学校要求很严格,论文写作时也要注意尽量不抄袭自己写,重复率过高降导致无法毕业无法参加答辩。定稿建议使用学校规定的查重系统进行检测,其他系统只是做个参考且学校是不认可的最终我们论文还是要上交学校的。
论文查重软件排行榜以下三个好。
1、知网论文查重软件数据库比较强大,并且可以分类对论文进行检测,有本科论文查重入口,硕博论文查重入口,职称论文查重入口,初稿论文查重入口等。
是目前高校使用最多的软件。对于本科毕业论文检测拥有独特的大学生联合对比数据库。检测结果基本上跟学校一致。
2、万方、维普是这几年兴起的论文查重软件,数据库没有知网齐全。版本也没有知网多,如果学校要求使用这两个查重,大家就可以去选择,如果没有要求选择这两个系统,大家就不要存在侥幸心理。
3、paperfree论文查重软件,是比较长久的论文查重软件,仅次于知网论文查重,在市场上得到了很多学校和毕业生的认可,也是很多学校要求使用的论文查重系统,查重速度快,查重结果准确,费用非常的低。
查重软件靠谱有以下几种:
1、paperpass:
这个论文查重系统是全球首个中文文献对比度的查重系统,而且经过多面的发展已经成为了最值得信赖、最可靠的论文查重系统,当然这个查重系统也是有相对应的查重软件的,只需要自己用手机号注册一个账号。
然后登陆进去之后就会看见一个“申请免费查重”的按钮,点击按钮申请之后,通过了就可以免费查重了,但是由于名额有限,所以每天只有前1000名可以享受免费查重的优惠。
2、知网:
知网是目前使用做广泛的论文查重系统,而且也是可以免费查重的,如果不是在自己学校图书馆使用知网查重的话,大家也可以使用知网这个查重软件,一般只要是新用户都会有一到两次的免费查重论文的机会的。
3、Papertime:
这个论文查重软件也是可以免费查重的,而且也是比较靠谱的,这个论文查重软件和知网等比较大牌的论文查重系统都是有着合作的。
但是最划算的还是关注papertime这个查重系统的公众号,只需要邀请微信好友助力就可以免费查重1000字,最高可以免费查重十万字,这是最划算的。
4、PaperYY:
这个软件不仅给出更精准的查重结果,还在PaperYY的检测报告中清楚的标出论文优化的方案。针对查重意见对重复的部分进行论文的降重,如针对“修改建议”进行修改,或者直接点击“自动降重”对该重复内容进行降重对于前期论文的查重、修改参考的性价比很高。
现在的论文查重软件太多 也有很多山寨吧现在主要的论文查重软件常用的有Pa-perRat-er、知网、维普、万方、PR等知网是用的学校大部分在用的 不针对个人开放 Pa-perRat-er是对个人开放的 Pa-perRat-er是仅次于知网查重结果的查重软件其查重检测结果要求比知网还要严格维普万方就差一些了毕竟每个查重软件的数据库不同收录的文献就不一样
没有好与不好,只有合不合适,我觉得Paper yy好用,从论文刚写进行首次查重,到中期修改查重,再到定稿查重,先用免费版,再用专业版,再用至尊版,省时省力省费用 。
1、知网硕士论文查重入口
2、万方硕士论文查重入口
3、维普硕士论文查重入口
我们在进行硕士论文查重的时候,要选择跟学校要求一致的论文查重系统,才能保证查重结果的准确性。
硕士毕业论文查重系统哪个靠谱?
1、看知名度
一般靠谱的论文查重系统都有一定的知名度,比如知网、维普、万方等,大部分学生都听说过,肯定是靠谱的。如果是新品牌的话,我们需要从其他方面判断。
2、看口碑
一般靠谱的论文查重系统都会有很多评论,我们可以根据这些评论去判断。
3、自己体验
论文查重费用其实不是很贵,一般是几元每千字,我们可以自己体验检测一下。
由于现在的高校,单位对论文的学术水平要求越来越高,对学术不端的行为也提出了相应的实施措施,因此论文的查重检测是一个不可缺失的环节,我们可以通过降低论文重复率来减少论文抄袭的可能性,这也是学术不端行为的重要参考。如果发现各类学术不端行为,学校将按照相关制度进行处罚,情况严重者,将不能参加论文答辩延迟毕业,在这样的严格要求下,毕业论文的学术不端行为得到了有效的降低,论文的质量也很大程度的提高了。
论文查重粗略可以分成初稿查重,终稿查重。
国内大查重软件大概有:
知网查重系统,Paperbye查重软件,万方查重系统,维普查重系统;
还有国外的查重系,Turnitin,Grammaly语法检测,Plagiarisma系统等
初稿查重系统
硕博本科毕业论文,可以选择paperbye、万方,维普等。
定稿查重系统
如果是硕士博士毕业论文查重定稿了,多数选择是知网查重系统。
目前市面出现了各种各样的论文查重软件,可以区分为初稿查重和定稿查重,根据自己不同的论文情况来进行选择。初稿论文查重软件有:paperfree、papertime等等;定稿论文查重软件有:知网、维普、万方等。一般学校对于初稿查重软件没什么要求,只是在定稿后要使用与学校要求一致的软件检测,这样才能保证重复率更加接近于学校的结果。同时大家在选择查重软件时,要注意以下几点:1、要选安全、可靠的的。不然你检测完以后,再去学校检测,发现已经在其他地方出现过你这篇论文了,太就太不应该了。2、选大品牌的。有的人直接在百度搜论文查重软件,找一些做竞价的查重工具,这些工具比较都是小品牌,没什么知名度,全靠竞价烧钱。3、可以咨询一下同学们用什么软件,看他们使用后的效果,用得好,也可以去尝试一下。
每个论文查重系统特点都不一样,没有哪个最好哪个严的。我习惯用的是万方查重软件,大学本科论文和研究生毕业论文用的都是万方,准确度不错,万方查重数据库强大,几分钟就能出结果,综合来讲价格也很实惠很适合学生党的使用。希望能给您提供帮助,可以给个大大的赞不。
毕业论文是高等教育自学考试本科专业应考者完成本科阶段学业的最后一个环节,它是应考者的总结性独立作业,目的在于总结学习专业的成果,培养综合运用所学知识解决实际问题的能力。从文体而言,它也是对某一专业领域的现实问题或理论问题进行科学研究探索的具有一定意义的论说文。完成毕业论文的撰写可以分两个步骤,即选择课题和研究课题。首先是选择课题。选题是论文撰写成败的关键。因为,选题是毕业论文撰写的第一步,它实际上就是确定“写什么”的问题,亦即确定科学研究的方向。如果“写什么”不明确,“怎么写”就无从谈起。教育部自学考试办公室有关对毕业论文选题的途径和要求是“为鼓励理论与工作实践结合,应考者可结合本单位或本人从事的工作提出论文题目,报主考学校审查同意后确立。也可由主考学校公布论文题目,由应考者选择。毕业论文的总体要求应与普通全日制高等学校相一致,做到通过论文写作和答辩考核,检验应考者综合运用专业知识的能力”。但不管考生是自己任意选择课题,还是在主考院校公布的指定课题中选择课题,都要坚持选择有科学价值和现实意义的、切实可行的课题。选好课题是毕业论文成功的一半。第一、要坚持选择有科学价值和现实意义的课题。科学研究的目的是为了更好地认识世界、改造世界,以推动社会的不断进步和发展。因此,毕业论文的选题,必须紧密结合社会主义物质文明和精神文明建设的需要,以促进科学事业发展和解决现实存在问题作为出发点和落脚点。选题要符合科学研究的正确方向,要具有新颖性,有创新、有理论价值和现实的指导意义或推动作用,一项毫无意义的研究,即使花很大的精力,表达再完善,也将没有丝毫价值。具体地说,考生可从以下三个方面来选题。首先,要从现实的弊端中选题,学习了专业知识,不能仅停留在书本上和理论上,还要下一番功夫,理论联系实际,用已掌握的专业知识,去寻找和解决工作实践中急待解决的问题。其次,要从寻找科学研究的空白处和边缘领域中选题,科学研究还有许多没有被开垦的处女地,还有许多缺陷和空白,这些都需要填补。应考者应有独特的眼光和超前的意识去思索,去发现,去研究。最后,要从寻找前人研究的不足处和错误处选题,在前人已提出来的研究课题中,许多虽已有初步的研究成果,但随着社会的不断发展,还有待于丰富、完整和发展,这种补充性或纠正性的研究课题,也是有科学价值和现实指导意义的。第二、要根据自己的能力选择切实可行的课题。毕业论文的写作是一种创造性劳动,不但要有考生个人的见解和主张,同时还需要具备一定的客观条件。由于考生个人的主观、客观条件都是各不相同的,因此在选题时,还应结合自己的特长、兴趣及所具备的客观条件来选题。具体地说,考生可从以下三个方面来综合考虑。首先,要有充足的资料来源。“巧妇难为无米之炊”,在缺少资料的情况下,是很难写出高质量的论文的。选择一个具有丰富资料来源的课题,对课题深入研究与开展很有帮助。其次,要有浓厚的研究兴趣,选择自己感兴趣的课题,可以激发自己研究的热情,调动自己的主动性和积极性,能够以专心、细心、恒心和耐心的积极心态去完成。最后,要能结合发挥自己的业务专长,每个考生无论能力水平高低,工作岗位如何,都有自己的业务专长,选择那些能结合自己工作、发挥自己业务专长的课题,对顺利完成课题的研究大有益处。
此前整理过KDD21上工业界文章,本文主要整理和分类了Recsys 2021的Research Papers和Reproducibility papers。按照推荐系统的 研究方向 和使用的 推荐技术 来分类,方便大家 快速检索自己感兴趣的文章 。个人认为Recsys这个会议重点不在于”技术味多浓”或者”技术多先进”,而在于经常会涌现很多 新的观点 以及 有意思的研究点 ,涵盖推荐系统的各个方面,例如,Recsys 2021涵盖的一些很有意思的研究点包括:
还有些研究点也是值得一读的,比如推荐系统中的 冷启动 , 偏差与纠偏 , 序列推荐 , 可解释性,隐私保护 等,这些研究很有意思和启发性 ,有助于开拓大家的 研究思路**。
下面主要根据自己读题目或者摘要时的一些判断做的归类,按照 推荐系统研究方向分类 、 推荐技术分类 以及 专门实验性质的可复现型文章分类 ,可能存在漏归和错归的情况,请大家多多指正。
信息茧房/回音室(echo chamber)/过滤气泡(filter bubble) ,这3个概念类似,在国内外有不同的说法。大致是指使用社交媒体以及带有 算法推荐功能 的资讯类APP,可能会导致我们 只看得到自己感兴趣的、认同的内容 ,进而让大家都活在自己的 小世界里 ,彼此之间 难以认同和沟通 。关于这部分的概念可参见知乎文章: 。有四篇文章探讨了这样的问题。
此次大会在探索与利用上也有很多探讨,例如多臂老虎机、谷歌的新工作,即:用户侧的探索等。
涉及排序学习的纠偏、用户的偏差探索等。
Debiased Explainable Pairwise Ranking from Implicit Feedback
Khalil Damak, Sami Khenissi, and Olfa Nasraoui
Mitigating Confounding Bias in Recommendation via Information Bottleneck
Dugang Liu, Pengxiang Cheng, Hong Zhu, Zhenhua Dong, Xiuqiang He, Weike Pan, and Zhong Ming
User Bias in Beyond-Accuracy Measurement of Recommendation Algorithms
Ningxia Wang, and Li Chen
利用图学习、表征学习等做冷启动。
Cold Start Similar Artists Ranking with Gravity-Inspired Graph Autoencoders
Guillaume Salha-Galvan, Romain Hennequin, Benjamin Chapus, Viet-Anh Tran, and Michalis Vazirgiannis
Shared Neural Item Representations for Completely Cold Start Problem
Ramin Raziperchikolaei, Guannan Liang, and Young-joo Chung
涉及离线或在线评估方法,准确性和多样性等统一指标的设计等。
Evaluating Off-Policy Evaluation: Sensitivity and Robustness
Yuta Saito, Takuma Udagawa, Haruka Kiyohara, Kazuki Mogi, Yusuke Narita, and Kei Tateno
Fast Multi-Step Critiquing for VAE-based Recommender Systems
Diego Antognini and Boi Faltings
Online Evaluation Methods for the Causal Effect of Recommendations
Masahiro Sato
Towards Unified Metrics for Accuracy and Diversity for Recommender Systems
Javier Parapar and Filip Radlinski
涉及session维度的短序列推荐;使用NLP中常用的Transformers做序列推荐的鸿沟探讨和解决,这个工作本人还挺感兴趣的,后续会精读下!
结合联邦学习做隐私保护等。
Black-Box Attacks on Sequential Recommenders via Data-Free Model Extraction
Zhenrui Yue, Zhankui He, Huimin Zeng, and Julian McAuley
Large-scale Interactive Conversational Recommendation System
Ali Montazeralghaem, James Allan, and Philip S. Thomas
EX3: Explainable Attribute-aware Item-set Recommendations
Yikun Xian, Tong Zhao, Jin Li, Jim Chan, Andrey Kan, Jun Ma, Xin Luna Dong, Christos Faloutsos, George Karypis, S. Muthukrishnan, and Yongfeng Zhang
Towards Source-Aligned Variational Models for Cross-Domain Recommendation
Aghiles Salah, Thanh Binh Tran, and Hady Lauw
利用视觉信息做推荐。
Ambareesh Revanur, Vijay Kumar, and Deepthi Sharma
Huiyuan Chen, Yusan Lin, Fei Wang, and Hao Yang
探讨了美食场景下,多用户意图的推荐系统的交互设计。
“Serving Each User”: Supporting Different Eating Goals Through a Multi-List Recommender Interface
Alain Starke, Edis Asotic, and Christoph Trattner
涉及传统协同过滤、度量学习的迭代;新兴的图学习技术、联邦学习技术、强化学习技术等的探索。
Matrix Factorization for Collaborative Filtering Is Just Solving an Adjoint Latent Dirichlet Allocation Model After All
Florian Wilhelm
Negative Interactions for Improved Collaborative-Filtering: Don’t go Deeper, go Higher Harald Steck and Dawen Liang
ProtoCF: Prototypical Collaborative Filtering for Few-shot Item Recommendation
Aravind Sankar, Junting Wang, Adit Krishnan, and Hari Sundaram
知识图谱的应用以及图嵌入技术和上下文感知的表征技术的融合,这两个工作个人都挺感兴趣。
Antonio Ferrara, Vito Walter Anelli, Tommaso Di Noia, and Alberto Carlo Maria Mancino
Marco Polignano, Cataldo Musto, Marco de Gemmis, Pasquale Lops, and Giovanni Semeraro
涉及训练、优化、检索、实时流等。
Jeremie Rappaz, Julian McAuley, and Karl Aberer
Reproducibility papers可复现实验性质的文章,共3篇。分别探索了:序列推荐中的 采样评估策略 ;对话推荐系统中 生成式和检索式的方法对比 ; 神经网络 推荐系统和 矩阵分解 推荐系统的对比。
通过论文的整理和分类,笔者也发现了一些自己感兴趣的研究点,比如:推荐系统的回音室效应探讨文章;Transformers在序列推荐和NLP序列表征中的鸿沟和解决文章:Transformers4Rec;图嵌入表征和上下文感知表征的融合文章;NCF和MF的实验对比文章;
论文:地址: 论文题目:《xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems》 为什么要介绍这篇论文呢,因为面试的时候面试官提到了这篇论文还要我推导公式,但是我自己忘了,太尬了,所以决定来复习下了。。。 在前面的文章里面,我们介绍过DeepFM,在这篇论文中,FM将不同特征进行了自动交叉,如果不用FM的话,就需要工作人员自己进行手工特征交叉任务。对于预测性的系统来说,特征工程起到了至关重要的作用。特征工程中,挖掘交叉特征是至关重要的。交叉特征指的是两个或多个原始特征之间的交叉组合。在广告系统中,CTR是一个重要的评价指标,而在ctr预估任务中,各种特征都是至关重要的,有时候多加一个特征都可以让整个广告的ctr提高一点。 但是在特征有限的系统中,该如何去挖掘那些潜在交叉特征呢? 挖掘交叉特征主要依靠人工提取,这种做法主要有以下三种缺点: 1)重要的特征都是与应用场景息息相关的,针对每一种应用场景,算法工程师们都需要首先花费大量时间和精力深入了解数据的规律之后才能设计、提取出高效的高阶交叉特征,因此人力成本高昂; 2)原始数据中往往包含大量稀疏的特征,例如用户和物品的ID,交叉特征的维度空间是原始特征维度的乘积,因此很容易带来维度灾难的问题; 3)人工提取的交叉特征无法泛化到未曾在训练样本中出现过的模式中。 基于以上的分析,我们就必须要设计一种能自动进行特征交叉任务的网络来替代手工制作的交叉特征,让模型的泛化能力更强。在deepfm,dcn中都有自动特征交叉的模块,值得一提的是,在这些模型中,特种的交叉是发生在bit级别的,也就是bit wise级别的特征交叉。什么是bit wise级别的特征交叉呢? 举个例子,比如特征1 = (a,b,c),特征2 = (d,e,f) 那么他们之间的bit wise的特征交叉就是f(w1*a*d, w2*b*e, w3*c*f)比如在DCN中: 可以看到在Cross Network中,特征向量的交叉是bit wise的交叉方式,就是每个level的x都和x0进行bit wise级别的交叉。 另一种特征交叉的方式有vector wise的交叉方式,这种交叉方式的表述为f(w(a*d, b*e,c*f)),可以看到这两个特征是先进行内积操作后才和权值矩阵进行运算的,所以是vector wise的交叉方式。 论文中还提到了两个定义: explicitly VS implicitly 显式的特征交互和隐式的特征交互。以两个特征为例xi和xj,在经过一系列变换后,我们可以表示成 wij * (xi * xj)的形式,就可以认为是显式特征交互,否则的话,是隐式的特征交互。 老规矩,先上模型: 先看图c,xdeepfm是通过一个CIN将得到的向量concat后送到DNN中做ctr预估,这篇论文的关键就是整个CIN了,CIN全称是Compressed Interaction Network,下面来详细介绍下CIN是怎么做的。 为了实现自动学习显式的高阶特征交互,同时使得交互发生在向量级上,文中首先提出了一种新的名为压缩交互网络(Compressed Interaction Network,简称CIN)的神经模型。在CIN中,隐向量是一个单元对象,因此我们将输入的原特征和神经网络中的隐层都分别组织成一个矩阵,记为X0和 Xk。其中,每个Xk都是从上一个的Xk-1推导而来的: ps:面试的时候这个公式没推导清楚,还是好好讲一下这个公式的计算过程吧。。 CIN的计算分为两个步骤,第一个是利用 和 来计算 我们看这个图: 我们要弄明白 的计算过程,就要先知道几个概念。 inner product:(a,b,c) . (1,2,3) = (1*a,2*b,3*c) outer product: (a,b,c) 。(1,2,3) =[ [ 1a,2a,3a] , [1b,2b,3b], [1c,2c,3c] ] 弄清楚这两个概念后就可以来看看这个的计算过程了。 首先,我们明确计算方向,我们是沿着D这个方向来计算外积的,所以计算出来的z的深度是D,这个是没有问题的。那么在沿着D上面的截面的计算方式就是我们上面说的outer product的方式来计算了。注意,计算D上每一个维度的切面的时候都是每个维度上单独计算的,举个例子: = [a,b,c], [1,2,3], [d,e,f] = [x,y,z], [4,5,6] 那么z的计算就为(先忽略w,后面再介绍w的使用) 我们沿着D这个维度,需要计算三个切面。 第一个切面:需要计算(a,1,d) 和(x,4)的外积: 计算的结果为:[[a*x,1*x,d*x] ,[a*4,1*4,d*4]] ,shape = 2*3 第二个切面:需要计算(b,2,e)和(y,5)的外积: 第三个切面同理,就不列出结果了。 三个切面计算玩,我们就得到了shape为3*2*3的 。 这个计算过程还可以用一张图形象的表示出来: 这里的计算跟上面是一样的,也可以计算每个d维向量的内积然后拼接成柱状体。对于每个切面,我们对这个切面进行加权求和得到一个值,权值矩阵W也成为卷积核的shape跟切面的shape大小一样,我们总共有D个切面,所以就有D个值,这样,我们就将一个三维向量转化成了一维向量: 在上面这张图中,我们可以清楚的知道,如果有 个卷积核w,我们就可以得到 个向量,也就是得到了下一个X: ,这个X的维度为 *D。 CIN的宏观框架可以总结为下图: 我们总共需要进行k个CIN过程的计算,得到k个一维向量。可以看出,它的特点是,最终学习出的特征交互的阶数是由网络的层数决定的,每一层隐层都通过一个池化操作连接到输出层,从而保证了输出单元可以见到不同阶数的特征交互模式。同时不难看出,CIN的结构与循环神经网络RNN是很类似的,即每一层的状态是由前一层隐层的值与一个额外的输入数据计算所得。不同的是,CIN中不同层的参数是不一样的,而在RNN中是相同的;RNN中每次额外的输入数据是不一样的,而CIN中额外的输入数据是固定的,始终是X0。 CIN计算交叉特征的方式是vector wise的, x1,h的计算方式为: x2,h的计算方式为: xk,h的计算方式: 所以是vector-wise的计算方式。这个结构其实跟DeepFM是一样的,左边是交叉特征的计算过程,右边是DNN部分。CTR计算方式为:损失函数为: 我们今天介绍的xDeepFM模型,这个模型跟我们之前学习的DeepFM还有DCN是一个类型的网络,都是交叉特征+DNN组成,在xDeepFM中主要是CIN的推导是重点,只要掌握了CIN的计算过程就知道了这篇论文的核心:vector-wise方式的特征交叉。
此前整理过KDD21上工业界文章,本文主要整理和分类了Recsys 2021的Research Papers和Reproducibility papers。按照推荐系统的 研究方向 和使用的 推荐技术 来分类,方便大家 快速检索自己感兴趣的文章 。个人认为Recsys这个会议重点不在于”技术味多浓”或者”技术多先进”,而在于经常会涌现很多 新的观点 以及 有意思的研究点 ,涵盖推荐系统的各个方面,例如,Recsys 2021涵盖的一些很有意思的研究点包括:
还有些研究点也是值得一读的,比如推荐系统中的 冷启动 , 偏差与纠偏 , 序列推荐 , 可解释性,隐私保护 等,这些研究很有意思和启发性 ,有助于开拓大家的 研究思路**。
下面主要根据自己读题目或者摘要时的一些判断做的归类,按照 推荐系统研究方向分类 、 推荐技术分类 以及 专门实验性质的可复现型文章分类 ,可能存在漏归和错归的情况,请大家多多指正。
信息茧房/回音室(echo chamber)/过滤气泡(filter bubble) ,这3个概念类似,在国内外有不同的说法。大致是指使用社交媒体以及带有 算法推荐功能 的资讯类APP,可能会导致我们 只看得到自己感兴趣的、认同的内容 ,进而让大家都活在自己的 小世界里 ,彼此之间 难以认同和沟通 。关于这部分的概念可参见知乎文章: 。有四篇文章探讨了这样的问题。
此次大会在探索与利用上也有很多探讨,例如多臂老虎机、谷歌的新工作,即:用户侧的探索等。
涉及排序学习的纠偏、用户的偏差探索等。
Debiased Explainable Pairwise Ranking from Implicit Feedback
Khalil Damak, Sami Khenissi, and Olfa Nasraoui
Mitigating Confounding Bias in Recommendation via Information Bottleneck
Dugang Liu, Pengxiang Cheng, Hong Zhu, Zhenhua Dong, Xiuqiang He, Weike Pan, and Zhong Ming
User Bias in Beyond-Accuracy Measurement of Recommendation Algorithms
Ningxia Wang, and Li Chen
利用图学习、表征学习等做冷启动。
Cold Start Similar Artists Ranking with Gravity-Inspired Graph Autoencoders
Guillaume Salha-Galvan, Romain Hennequin, Benjamin Chapus, Viet-Anh Tran, and Michalis Vazirgiannis
Shared Neural Item Representations for Completely Cold Start Problem
Ramin Raziperchikolaei, Guannan Liang, and Young-joo Chung
涉及离线或在线评估方法,准确性和多样性等统一指标的设计等。
Evaluating Off-Policy Evaluation: Sensitivity and Robustness
Yuta Saito, Takuma Udagawa, Haruka Kiyohara, Kazuki Mogi, Yusuke Narita, and Kei Tateno
Fast Multi-Step Critiquing for VAE-based Recommender Systems
Diego Antognini and Boi Faltings
Online Evaluation Methods for the Causal Effect of Recommendations
Masahiro Sato
Towards Unified Metrics for Accuracy and Diversity for Recommender Systems
Javier Parapar and Filip Radlinski
涉及session维度的短序列推荐;使用NLP中常用的Transformers做序列推荐的鸿沟探讨和解决,这个工作本人还挺感兴趣的,后续会精读下!
结合联邦学习做隐私保护等。
Black-Box Attacks on Sequential Recommenders via Data-Free Model Extraction
Zhenrui Yue, Zhankui He, Huimin Zeng, and Julian McAuley
Large-scale Interactive Conversational Recommendation System
Ali Montazeralghaem, James Allan, and Philip S. Thomas
EX3: Explainable Attribute-aware Item-set Recommendations
Yikun Xian, Tong Zhao, Jin Li, Jim Chan, Andrey Kan, Jun Ma, Xin Luna Dong, Christos Faloutsos, George Karypis, S. Muthukrishnan, and Yongfeng Zhang
Towards Source-Aligned Variational Models for Cross-Domain Recommendation
Aghiles Salah, Thanh Binh Tran, and Hady Lauw
利用视觉信息做推荐。
Ambareesh Revanur, Vijay Kumar, and Deepthi Sharma
Huiyuan Chen, Yusan Lin, Fei Wang, and Hao Yang
探讨了美食场景下,多用户意图的推荐系统的交互设计。
“Serving Each User”: Supporting Different Eating Goals Through a Multi-List Recommender Interface
Alain Starke, Edis Asotic, and Christoph Trattner
涉及传统协同过滤、度量学习的迭代;新兴的图学习技术、联邦学习技术、强化学习技术等的探索。
Matrix Factorization for Collaborative Filtering Is Just Solving an Adjoint Latent Dirichlet Allocation Model After All
Florian Wilhelm
Negative Interactions for Improved Collaborative-Filtering: Don’t go Deeper, go Higher Harald Steck and Dawen Liang
ProtoCF: Prototypical Collaborative Filtering for Few-shot Item Recommendation
Aravind Sankar, Junting Wang, Adit Krishnan, and Hari Sundaram
知识图谱的应用以及图嵌入技术和上下文感知的表征技术的融合,这两个工作个人都挺感兴趣。
Antonio Ferrara, Vito Walter Anelli, Tommaso Di Noia, and Alberto Carlo Maria Mancino
Marco Polignano, Cataldo Musto, Marco de Gemmis, Pasquale Lops, and Giovanni Semeraro
涉及训练、优化、检索、实时流等。
Jeremie Rappaz, Julian McAuley, and Karl Aberer
Reproducibility papers可复现实验性质的文章,共3篇。分别探索了:序列推荐中的 采样评估策略 ;对话推荐系统中 生成式和检索式的方法对比 ; 神经网络 推荐系统和 矩阵分解 推荐系统的对比。
通过论文的整理和分类,笔者也发现了一些自己感兴趣的研究点,比如:推荐系统的回音室效应探讨文章;Transformers在序列推荐和NLP序列表征中的鸿沟和解决文章:Transformers4Rec;图嵌入表征和上下文感知表征的融合文章;NCF和MF的实验对比文章;
论文: 论文题目:《Neural Graph Collaborative Filtering》 论文地址: 本论文是关于图结构的协同过滤算法,在原始的矩阵分解和基于深度学习的方法中,通常是通过映射描述用户(或物品)的现有特征(例如ID和属性)来获得用户(或物品)的嵌入。从而利用user和item的embedding进行协同召回。但是作者认为这种方法的固有缺点是:在user与item的interaction数据中潜伏的 协作信号(collaborative signal) 未在嵌入过程中进行编码。这样,所得的嵌入可能不足以捕获协同过滤效果。 让我们一起来看一下本论文是怎么利用数据中潜伏的协作信号的吧。 推荐算法被广泛的运用在各个领域中,在电商领域,社交媒体,广告等领域都发挥着至关重要的作用。推荐系统的核心内容就是根据用户以前的购买和点击行为来评估用户对一个物品的喜爱程度,从而针对每个用户进行个性化推荐。协同过滤算法认为历史行为相似的用户之间的兴趣是相同的,所以给用户推荐的是同类型用户的爱好,也就是UserCF,而ItemCF给用户推荐的是跟历史行为相近的物品。 传统的协同过滤方法要么是基于矩阵分解,要么是基于深度学习的,这两种方法都忽略了一个非常关键的信息---user和item交互的协作信号,该信号隐藏在user和item的交互过程中。原始的协同过滤方法忽略了这种信息,所以在进行user 和 item representation时就不足以较好的进行embedding。 本论文通过将用户项交互(更具体地说是二分图结构)集成到embedding过程中,开发了一个新的推荐框架神经图协同过滤(NGCF),该框架通过在其上传播embedding来利用user-item图结构。这种方法在用户项目图中进行高阶连通性的表达建模,从而以显式方式将协作信号有效地注入到embedding过程中。 在介绍模型之前先来讲解一下什么是useritem interaction以及什么是高阶的useritem interaction。 我们先看左边的图,这个图就是useritem interaction,u1是我们待推荐的用户,用双圆圈表示,他交互过的物品有i1,i2,i3。在看右边这个树形结构的图,这个图是u1的高阶interaction图,注意只有l > 1的才是u1的高阶连接。观察到,这么一条路径,u1 ← i2 ← u2,指示u1和u2之间的行为相似性,因为两个用户都已与i2进行了交互。而另一条更长的路径,u1←i2←u2←i4暗示u1可能会点击i4,因为他的相似用户u2之前已经购买过i4。另一方面,用户u1在l = 3这一层会更倾向于i4而不是i5,理由是i4到u1有两条路径而i5只有一条。 当然这种树结构是不可能通过构建真正的树节点来表示的,因为树模型比较复杂,而且结构很大,没法对每个用户构建一个树,这样工作量太大了。那么怎么设计模型结构可以达到跟这个high-order connectivity的效果呢,这个就要运用到神经网络了。通过设计一个embedding propagation layer来表示这种embedding 在每个层之间的传递。 还是拿上面那张图举例子,堆叠两层可捕获u1←i2←u2的行为相似性,堆叠三层可捕获u1←i2←u2←i4的潜在推荐以及信息流的强度(由层之间的可训练权重来评估),并确定i4和i5的推荐优先级。 这个跟传统的embedding是一样的,都是对原始的userID和itemID做embedding,跟传统embedding不同的地方是,在我们的NGCF框架中,我们通过在用户-项目交互图上传播embedding来优化embedding。 由于embedding优化步骤将协作信号显式注入到embedding中,因此可以为推荐提供更有效的embedding。 这一层是本文的核心内容,下面我们来进行详细的解读。 从直观上来看,用户交互过的item会给用户的偏好带来最直接的依据。类似地,交互过某个item的用户可以视为该item的特征,并可以用来衡量两个item的协同相似性。 我们以此为基础在连接的用户和项目之间执行embedding propogation,并通过两个主要操作来制定流程:消息构建和消息聚合。 Message Construction(消息构建) 对于连接的user-item对(u,i),我们定义从i到u的消息为: 其中ei是i的embedding,eu是u的embedding,pui是用于控制每次传播的衰减因子,函数f是消息构建函数,f的定义为: 其中W1和W2用来提取有用的embedding信息,可以看到W2控制的i和u直接的交互性,这使得消息取决于ei和eu之间的亲和力,比如,传递更多来自相似项的消息。 另一个重要的地方是Nu和Ni,pui = 1/ 。Nu和Ni表示用户u和item i的第一跳邻居。 从表示学习的角度来看,pui反映了历史item对用户偏好的贡献程度。 从消息传递的角度来看,考虑到正在传播的消息应随路径长度衰减,因此pui可以解释为折扣因子。 Message Aggregation 聚合方法如下 : 其中 表示在第一嵌入传播层之后获得的用户u的表示。激活函数采用的是leakyrelu,这个函数适合对pos和neg信号进行编码。 另一个重要的信息是 ,它的定义如下: 这个信息的主要作用是保留原始的特征信息。 至此,我们得到了 ,同样的方法,我们也能获得 ,这个都是first order connectivoty的信息。 根据前面的计算方式,我们如果将多个Embedding Propagation Layers进行堆叠,我们就可以得到high order connectivity信息了: 计算方式如下: 当我看到这里的时候,我的脑子里产生了一个大大的疑惑,我们在计算第l层的eu和ei时都需要第l-1层的信息,那么我们怎么知道ei和eu在第l层是否存在呢?也就是说出现u侧的总层数l大于i侧总层数的时候,我们如何根据第l-1层的ei来计算第l层的e呢?经过思考,我感觉应该是这样的,训练样本应该是一条path,也就是这个例子是u1 ← i2 ← u2 ← i4这条path,所以可以保证u1跟i4的层数l是一样的,所以不存在上面那个层数不匹配的问题。 ps:看到后面的实验结果才知道L是固定的所以每一层都不会缺失。 还有一个就是,不同层之间的W是不一样的,每一层都有着自己的参数,这个看公式就知道,理由就是我们在提取不同层信息的时候需要不同的W进行信息提取。 另一个疑惑是pui到底是不是每一个l层都一样?这里看公式好像就是指的是第一跳的Nu和Ni进行就计算的结果。 这部分内容是为了在进行batch训练的时候进行矩阵运算所推导的数学过程,其实跟之前我们讲的那个过程在数学上的计算是完全一样的,你想象一下,如果不用矩阵进行运算,在训练过程中要如何进行这么复杂的交互运算。 当进行了l层的embedding propagation后,我们就拥有了l个eu和l个ei,我们将他们进行concate操作: 这样,我们不仅可以通过嵌入传播层丰富初始嵌入,还可以通过调整L来控制传播范围。 最后,我们进行内积计算,以评估用户对目标商品的偏好: 采用的是pair-wise方式中的bpr loss: