综述类: 1、Towards the Next Generation of Recommender Systems: A Survey of the State-of-the-Art and Possible Extensions。最经典的推荐算法综述 2、Collaborative Filtering Recommender Systems. JB Schafer 关于协同过滤最经典的综述 3、Hybrid Recommender Systems: Survey and Experiments 4、项亮的博士论文《动态推荐系统关键技术研究》 5、个性化推荐系统的研究进展.周涛等 6、Recommender systems L Lü, M Medo, CH Yeung, YC Zhang, ZK Zhang, T Zhou Physics Reports 519 (1), 1-49 ( ) 个性化推荐系统评价方法综述.周涛等 协同过滤: factorization techniques for recommender systems. Y Koren collaborative filtering to weave an information Tapestry. David Goldberg (协同过滤第一次被提出) Collaborative Filtering Recommendation Algorithms. Badrul Sarwar , George Karypis, Joseph Konstan .etl of Dimensionality Reduction in Recommender System – A Case Study. Badrul M. Sarwar, George Karypis, Joseph A. Konstan etl Memory-Based Collaborative Filtering. Kai Yu, Anton Schwaighofer, Volker Tresp, Xiaowei Xu,and Hans-Peter Kriegel systems:a probabilistic analysis. Ravi Kumar Prabhakar recommendations: item-to-item collaborative filtering. Greg Linden, Brent Smith, and Jeremy York of Item-Based Top- N Recommendation Algorithms. George Karypis Matrix Factorization. Ruslan Salakhutdinov Decompositions,Alternating Least Squares and other Tales. Pierre Comon, Xavier Luciani, André De Almeida 基于内容的推荐: Recommendation Systems. Michael J. Pazzani and Daniel Billsus 基于标签的推荐: Recommender Systems: A State-of-the-Art Survey. Zi-Ke Zhang(张子柯), Tao Zhou(周 涛), and Yi-Cheng Zhang(张翼成) 推荐评估指标: 1、推荐系统评价指标综述. 朱郁筱,吕琳媛 2、Accurate is not always good:How Accuacy Metrics have hurt Recommender Systems 3、Evaluating Recommendation Systems. Guy Shani and Asela Gunawardana 4、Evaluating Collaborative Filtering Recommender Systems. JL Herlocker 推荐多样性和新颖性: 1. Improving recommendation lists through topic diversification. Cai-Nicolas Ziegler Sean M. McNee, Joseph Lausen Fusion-based Recommender System for Improving Serendipity Maximizing Aggregate Recommendation Diversity:A Graph-Theoretic Approach The Oblivion Problem:Exploiting forgotten items to improve Recommendation diversity A Framework for Recommending Collections Improving Recommendation Diversity. Keith Bradley and Barry Smyth 推荐系统中的隐私性保护: 1、Collaborative Filtering with Privacy. John Canny 2、Do You Trust Your Recommendations? An Exploration Of Security and Privacy Issues in Recommender Systems. Shyong K “Tony” Lam, Dan Frankowski, and John Ried. 3、Privacy-Enhanced Personalization. Alfred 4、Differentially Private Recommender Systems:Building Privacy into the Netflix Prize Contenders. Frank McSherry and Ilya Mironov Microsoft Research, Silicon Valley Campus 5、When being Weak is Brave: Privacy Issues in Recommender Systems. Naren Ramakrishnan, Benjamin J. Keller,and Batul J. Mirza 推荐冷启动问题: Boltzmann Machines for Cold Start Recommendations. Asela Preference Regression for Cold-start Recommendation. Seung-Taek Park, Wei Chu Cold-Start Problem in Recommendation Systems. Xuan Nhat and Metrics for Cold-Start Recommendations. Andrew I. Schein, Alexandrin P opescul, Lyle H. U ngar bandit(老虎机算法,可缓解冷启动问题): 1、Bandits and Recommender Systems. Jeremie Mary, Romaric Gaudel, Philippe Preux 2、Multi-Armed Bandit Algorithms and Empirical Evaluation 基于社交网络的推荐: 1. Social Recommender Systems. Ido Guy and David Carmel A Social Networ k-Based Recommender System(SNRS). Jianming He and Wesley W. Chu Measurement and Analysis of Online Social Networks. Referral Web:combining social networks and collaborative filtering 基于知识的推荐: 1、Knowledge-based recommender systems. Robin Burke 2、Case-Based Recommendation. Barry Smyth 3、Constraint-based Recommender Systems: Technologies and Research Issues. A. Felfernig. R. Burke 其他: Trust-aware Recommender Systems. Paolo Massa and Paolo Avesani
生物信息学毕业论文,如果你有范文的话,格式肯定就不用找了,但是选题就不行,必须要你导师认可了才行,我是在志文网写的,我写的是生物芯片技术中的应用方面的,生物信息学结合的,已经拿到了参考文献还有资料。
很多产品想要加入推荐系统模块,最简单的就是做内容相似推荐,虽然技术简单但是效果却很好,对于增加用户粘性、提升用户留存有较多的效果,甚至很多产品后来加入了很多推荐模块之后,还是发现导流效果最好的依然是内容的相似推荐。 比如看完了一片《Python怎样读取MySQL》之后,在相似推荐中看到了一片题目为《Python操作MySQL的效果优化》的文章,很自然的就像多深入了解一下,于是就点进去看一看,那么对于整个网站来说,就会降低跳出率,增加用户的留存,是一个很好的用户体验。 实现一个内容相似推荐的方案比较简单,大体上包含以下步骤: 1、获取内容数据,比如标题、关键字、分类、甚至全文本; 一般文档、数据等内容都存储于mysql,可以使用python/java等语言直接读取mysql导出到文件.txt格式,或者直接用shell的mysql -e sql > 的方式导出。 一般情况下,全文本内容太散,不会作为候选字段,但是有些视频之类的实体,因为标题和简介文字太少,如果有详情全文本的话,也可以加入候选数据字段。 2、对内容数据做中文分词; 如果是python语言,可以使用“结巴分词”,地址为: 或者可以直接使用百度云的中文分词,百度的NLP自然语言处理技术还是很厉害的。 3、提取内容数据的关键词; 当分词之后,分词结果中包含很多“的”、“也”等无意义的词语,这些词语不能称之为关键词,一般会通过TF/IDF的方法计算每个词语的权重,将一个文档的所有词语的TF/IDF权重倒序排列,取TOPN个作为关键词; 如果使用的是jieba分词,那么直接就自带了提取关键词的支持;当然也可以自己计算,TF就是计算一篇文章中每个词语出现的次数、IDF就是这个词语在所有文章中出现的次数,TF除以IDF就是权重值; 4、将关键词映射成数字向量; 我们最终的目标是计算文档之间的相似度,要计算相似度那就需要把内容映射成向量,第一步就是先把每个词语映射成向量,映射的方式有几种: 使用one hot方法映射成向量 自己训练word2vec密度向量; 使用业界的训练好的word2vec向量 一般情况下,自己的数据集比较小,效果会比业界的word2vec效果差一些,比如这里推荐腾讯开源的200维度全网word2vec向量,地址在: 5、计算文档粒度的数字向量; 得到每个词语的向量之后,通过加权平均的方式可以计算整个文档的向量; 权重可以使用每个词语的频率次数归一化,或者直接平均即可; 6、计算文档之间的相似度; 使用cosin算法就能够计算文档向量之间的相似度; cosin算法很简单,java、python自己实现就可以,也可用或者中的相似度计算模块直接调用实现。 计算完之后,对于每个文档,将它跟每个文档的相似度做倒序排列,比如TOP 30个作为推荐的结果集合。 7、将文档的相似度关系存入mysql/redis等缓存; 第6步骤会得到一个这样的结果:(文档ID、相似文档ID列表),将这样的数据直接存入mysql或者redis,key就是文档ID,value是相似文档ID列表即可。 8、当页面展示一个内容的时候,提取相似推荐进行展示; 当用户访问一个页面的时候,后端服务python/java从缓存redis或者mysql中根据展示的页面的文档ID,提取相似ID列表; 因为前几步骤是提前计算好的列表,这里也可能做一些过滤已下线的事情,然后根据ID提取对应的标题、简介等信息,组装成相似推荐列表返回给前端即可; 总结 以上就是离线计算相似推荐的步骤,其实还可以用在线的方式进行,把这个问题按照搜索的架构实现即可,新来一个文档就分词、计算关键词列表存储,然后每次访问的时候根据关键词列表查询相同关键词列表的文档也可以实现。 当相似内容推荐上线后,就能够不断积累一些用户点击、查看文档的行为数据,基于行为数据就能训练协同过滤的模型,实现内容不相似但是行为相似的协同过滤推荐。
生物信息学推荐系统设计关键词:推荐系统;生物信息学推荐系统(RecommenderSystem)[1]是个性化信息服务的主要技术之一,它实现的是“信息找人,按需服务”;通过对用户信息需要、兴趣爱好和访问历史等的收集分析,建立用户模型,并将用户模型应用于网上信息的过滤和排序,从而为用户提供感兴趣的资源和信息。生物信息学(Bioinformatics)[2,3]是由生物学、应用数学和计算机科学相互交叉所形成的一门新型学科;其实质是利用信息科学的方法和技术来解决生物学问题。20世纪末生物信息学迅速发展,在信息的数量和质量上都极大地丰富了生物科学的数据资源,而数据资源的急剧膨胀需要寻求一种科学而有力的工具来组织它们,基于生物信息学的二次数据库[4]能比较好地规范生物数据的分类与组织,但是用户无法从大量的生物数据中寻求自己感兴趣的部分(著名的生物信息学网站NCBI(美国国立生物技术信息中心),仅仅是小孢子虫(Microsporidia)的DNA序列就达3399种),因此在生物二次数据库上建立个性化推荐系统,能使用户快速找到自己感兴趣的生物信息。特别是在当前生物信息数据量急剧增长的情况下,生物信息学推荐系统将发挥强大的优势。1推荐系统的工作流程应用在不同领域的推荐系统,其体系结构也不完全相同。一般而言,推荐系统的工作流程[5]如图1所示。(1)信息获取。推荐系统工作的基础是用户信息。用户信息包括用户输入的关键词、项目的有关属性、用户对项目的文本评价或等级评价及用户的行为特征等,所有这些信息均可以作为形成推荐的依据。信息获取有两种类型[6],即显式获取(Explicit)和隐式获取(Implicit),由于用户的很多行为都能暗示用户的喜好,因此隐式获取信息的准确性比显式高一些。(2)信息处理。信息获取阶段所获得的用户信息,一般根据推荐技术的不同对信息进行相应的处理。用户信息的存储格式中用得最多的是基于数值的矩阵格式,最常用的是用m×n维的用户—项目矩阵R来表示,矩阵中的每个元素Rij=第i个用户对第j个项目的评价,可以当做数值处理,矩阵R被称为用户—项目矩阵。(3)个性化推荐。根据形成推荐的方法的不同可以分为三种,即基于规则的系统、基于内容过滤的系统和协同过滤系统。基于规则的推荐系统和基于内容过滤的推荐系统均只能为用户推荐过去喜欢的项目和相似的项目,并不能推荐用户潜在感兴趣的项目。而协同过滤系统能推荐出用户近邻所喜欢的项目,通过用户与近邻之间的“交流”,发现用户潜在的兴趣。因此本文所用的算法是基于协同过滤的推荐算法。(4)推荐结果。显示的任务是把推荐算法生成的推荐显示给用户,完成对用户的推荐。目前最常用的推荐可视化方法是Top-N列表[7],按照从大到小顺序把推荐分值最高的N个事物或者最权威的N条评价以列表的形式显示给用户。2生物信息学推荐系统的设计综合各种推荐技术的性能与优缺点,本文构造的生物信息学推荐系统的总体结构如图2所示。生物信息学推荐系统实现的主要功能是在用户登录生物信息学网站时,所留下的登录信息通过网站传递到推荐算法部分;推荐算法根据该用户的用户名从数据库提取出推荐列表,并返回到网站的用户界面;用户访问的记录返回到数据库,系统定时调用推荐算法,对数据库中用户访问信息的数据进行分析计算,形成推荐列表。本系统采用基于近邻的协同过滤推荐算法,其结构可以进一步细化为如图3所示。算法分为邻居形成和推荐形成两大部分,两部分可以独立进行。这是该推荐系统有别于其他系统的优势之一。由于信息获取后的用户—项目矩阵维数较大,使得系统的可扩展性降低。本系统采用SVD矩阵降维方法,减少用户—项目矩阵的维数,在计算用户相似度时大大降低了运算的次数,提高了推荐算法的效率。(1)信息获取。用户对项目的评价是基于用户对某一个项目(为表示简单,以下提及的项目均指网站上的生物物种)的点击次数来衡量的。当一个用户注册并填写好个人情况以后,系统会自动为该用户创建一个“信息矩阵”,该矩阵保存了所有项目的ID号以及相应的用户评价,保存的格式为:S+编号+用户评价,S用于标记项目,每个项目编号及其评价都以“S”相隔开;编号是唯一的,占5位;用户评价是用户点击该项目的次数,规定其范围是0~100,系统设定当增加到100时不再变化。这样做可防止形成矩阵时矩阵评价相差值过大而使推荐结果不准确。(2)信息处理。信息处理是将所有用户的信息矩阵转换为用户—项目矩阵,使用户信息矩阵数值化,假设系统中有M个用户和N个项目,信息处理的目的就是创建一个M×N的矩阵R,R[I][J]代表用户I对项目J的评价。(3)矩阵处理。协同过滤技术的用户—项目矩阵的数据表述方法所带来的稀疏性严重制约了推荐效果,而且在系统较大的情况下,它既不能精确地产生推荐集,又忽视了数据之间潜在的关系,发现不了用户潜在的兴趣,而且庞大的矩阵增加了计算的复杂度,因此有必要对该矩阵的表述方式做优化,进行矩阵处理。维数简化是一种较好的方法,本文提出的算法应用单值分解(SingularValueDecomposition,SVD)技术[8],对用户—项目矩阵进行维数简化。(4)相似度计算。得到降维以后的用户矩阵US,就可以寻找每个用户的近邻。近邻的确定是通过两个用户的相似度来度量的。本文采用Pearson相关度因子[9]求相似度。(5)计算用户邻居。该方法有两种[10],即基于中心的邻居(Center-BasedNeighbor)和集合邻居(AggregateNeighbor)。本系统采用了第一种方法,直接找出与用户相似度最高的前N个用户作为邻居,邻居个数N由系统设定,比如规定N=5。(6)推荐形成。推荐形成的前提是把当前用户的邻居ID号及其与当前用户的相似度保存到数据库中,而在前面的工作中已找出各用户的邻居以及与用户的相似度,推荐形成部分只需要对当前登录用户进行计算。推荐策略是:对当前用户已经访问过的项目不再进行推荐,推荐的范围是用户没有访问的项目,其目的是推荐用户潜在感兴趣的项目;考虑到系统的项目比较多,用户交互项目的数量很大,所以只筛选出推荐度最大的N个项目,形成Top-N推荐集,设定N=5。3生物信息学推荐系统的实现生物信息学推荐系统的实现可以用图4来表示。数据库部分主要存储用户信息和项目信息,用SQLServer2000实现。数据访问层实现了与用户交互必需的存储过程以及触发器,也使用SQLServer2000,主要完成以下功能:初始化新用户信息矩阵;插入新项目时更新所有用户的信息矩阵;用户点击项目时更新该用户对项目的评价;删除项目时更新所有用户的信息矩阵。用户访问层主要涉及网页与用户的交互和调用数据访问层的存储过程,在这里不做详细的介绍。推荐算法完成整个个性化推荐的任务,用Java实现。(1)数据连接类DataCon。该类完成与SQLServer2000数据库的连接,在连接之前必须要下载三个与SQLServer连接相关的包,即、和。(2)数据操作类DataControl。该类负责推荐算法与数据库的数据交换,静态成员Con调用()获得数据库连接,然后对数据库进行各种操作。把所有方法编写成静态,便于推荐算法中不创建对象就可以直接调用。(3)RecmmendSource与CurrentUserNeighbor。这两个类作为FCRecommand类的内部类,RecmmendSource用于保存当前用户的推荐列表,包括推荐项目号和推荐度;CurrentUserNeighbor用于保存邻居信息,包括邻居ID号、相似度及其访问信息。(4)协同过滤推荐算法FCRecommand。该类实现了整个推荐算法,主要分为邻居形成方法FCArithmetic和推荐形成方法GenerateRecommend。下面给出方法FCArithmetic的关键代码:Matrixuser_item=();//获取用户—项目矩阵user_item=(user_item);//调用SVD降维方法Vectorc_uservector=newVector();//当前用户向量Vectoro_uservector=newVector();//其他用户向量Vectorc_user_correlate_vector=newVector();//当前用户与其他用户之间相似度向量for(inti=0;ifor(intj=0;((i,j));//1.获得当前用户向量for(intk=0;();for(intl=0;((k,l));//2.获得其他用户的向量//3.计算当前用户与其他用户的相似度usercorrelativity=(c_uservector,o_uservector);(usercorrelativity);}//4.根据当前用户与其他用户的相似度,计算其邻居(i,c_user_correlate_vector);}根据邻居形成方法FCArithmetic,可以得到每个用户的邻居。作为测试用例,图6显示用户Jack与系统中一部分用户的相似度,可以看出它与自己的相似度必定最高;并且它与用户Sugx访问了相同的项目,它们之间的相似度也为1,具有极高的相似度。4结束语在传统推荐系统的基础上,结合当前生物信息学网站的特点,提出一个基于生物信息平台的推荐系统,解决了传统生物信息网站平台信息迷茫的缺点,为用户推荐其感兴趣物种的DNA或蛋白质序列。优点在于协同过滤的推荐算法能发现用户潜在的兴趣,能促进生物学家之间的交流;推荐算法的邻居形成与推荐形成两部分可以单独运行,减少了系统的开销。进一步的工作是分析生物数据的特点及生物数据之间的关系,增加用户和项目数量,更好地发挥推荐系统的优势。参考文献:[1]PAULR,[J].CommunicationsoftheACM,1997,40(3):56-58.[2]陈新.生物信息学简介[EB/OL].(2001)..[3]林毅申,林丕源.基于WebServices的生物信息解决方案[J].计算机应用研究,2005,22(6):157-158,164.[4]邢仲璟,林丕源,林毅申.基于Bioperl的生物二次数据库建立及应用[J].计算机系统应用,2004(11):58-60.
此前整理过KDD21上工业界文章,本文主要整理和分类了Recsys 2021的Research Papers和Reproducibility papers。按照推荐系统的 研究方向 和使用的 推荐技术 来分类,方便大家 快速检索自己感兴趣的文章 。个人认为Recsys这个会议重点不在于”技术味多浓”或者”技术多先进”,而在于经常会涌现很多 新的观点 以及 有意思的研究点 ,涵盖推荐系统的各个方面,例如,Recsys 2021涵盖的一些很有意思的研究点包括:
还有些研究点也是值得一读的,比如推荐系统中的 冷启动 , 偏差与纠偏 , 序列推荐 , 可解释性,隐私保护 等,这些研究很有意思和启发性 ,有助于开拓大家的 研究思路**。
下面主要根据自己读题目或者摘要时的一些判断做的归类,按照 推荐系统研究方向分类 、 推荐技术分类 以及 专门实验性质的可复现型文章分类 ,可能存在漏归和错归的情况,请大家多多指正。
信息茧房/回音室(echo chamber)/过滤气泡(filter bubble) ,这3个概念类似,在国内外有不同的说法。大致是指使用社交媒体以及带有 算法推荐功能 的资讯类APP,可能会导致我们 只看得到自己感兴趣的、认同的内容 ,进而让大家都活在自己的 小世界里 ,彼此之间 难以认同和沟通 。关于这部分的概念可参见知乎文章: 。有四篇文章探讨了这样的问题。
此次大会在探索与利用上也有很多探讨,例如多臂老虎机、谷歌的新工作,即:用户侧的探索等。
涉及排序学习的纠偏、用户的偏差探索等。
Debiased Explainable Pairwise Ranking from Implicit Feedback
Khalil Damak, Sami Khenissi, and Olfa Nasraoui
Mitigating Confounding Bias in Recommendation via Information Bottleneck
Dugang Liu, Pengxiang Cheng, Hong Zhu, Zhenhua Dong, Xiuqiang He, Weike Pan, and Zhong Ming
User Bias in Beyond-Accuracy Measurement of Recommendation Algorithms
Ningxia Wang, and Li Chen
利用图学习、表征学习等做冷启动。
Cold Start Similar Artists Ranking with Gravity-Inspired Graph Autoencoders
Guillaume Salha-Galvan, Romain Hennequin, Benjamin Chapus, Viet-Anh Tran, and Michalis Vazirgiannis
Shared Neural Item Representations for Completely Cold Start Problem
Ramin Raziperchikolaei, Guannan Liang, and Young-joo Chung
涉及离线或在线评估方法,准确性和多样性等统一指标的设计等。
Evaluating Off-Policy Evaluation: Sensitivity and Robustness
Yuta Saito, Takuma Udagawa, Haruka Kiyohara, Kazuki Mogi, Yusuke Narita, and Kei Tateno
Fast Multi-Step Critiquing for VAE-based Recommender Systems
Diego Antognini and Boi Faltings
Online Evaluation Methods for the Causal Effect of Recommendations
Masahiro Sato
Towards Unified Metrics for Accuracy and Diversity for Recommender Systems
Javier Parapar and Filip Radlinski
涉及session维度的短序列推荐;使用NLP中常用的Transformers做序列推荐的鸿沟探讨和解决,这个工作本人还挺感兴趣的,后续会精读下!
结合联邦学习做隐私保护等。
Black-Box Attacks on Sequential Recommenders via Data-Free Model Extraction
Zhenrui Yue, Zhankui He, Huimin Zeng, and Julian McAuley
Large-scale Interactive Conversational Recommendation System
Ali Montazeralghaem, James Allan, and Philip S. Thomas
EX3: Explainable Attribute-aware Item-set Recommendations
Yikun Xian, Tong Zhao, Jin Li, Jim Chan, Andrey Kan, Jun Ma, Xin Luna Dong, Christos Faloutsos, George Karypis, S. Muthukrishnan, and Yongfeng Zhang
Towards Source-Aligned Variational Models for Cross-Domain Recommendation
Aghiles Salah, Thanh Binh Tran, and Hady Lauw
利用视觉信息做推荐。
Ambareesh Revanur, Vijay Kumar, and Deepthi Sharma
Huiyuan Chen, Yusan Lin, Fei Wang, and Hao Yang
探讨了美食场景下,多用户意图的推荐系统的交互设计。
“Serving Each User”: Supporting Different Eating Goals Through a Multi-List Recommender Interface
Alain Starke, Edis Asotic, and Christoph Trattner
涉及传统协同过滤、度量学习的迭代;新兴的图学习技术、联邦学习技术、强化学习技术等的探索。
Matrix Factorization for Collaborative Filtering Is Just Solving an Adjoint Latent Dirichlet Allocation Model After All
Florian Wilhelm
Negative Interactions for Improved Collaborative-Filtering: Don’t go Deeper, go Higher Harald Steck and Dawen Liang
ProtoCF: Prototypical Collaborative Filtering for Few-shot Item Recommendation
Aravind Sankar, Junting Wang, Adit Krishnan, and Hari Sundaram
知识图谱的应用以及图嵌入技术和上下文感知的表征技术的融合,这两个工作个人都挺感兴趣。
Antonio Ferrara, Vito Walter Anelli, Tommaso Di Noia, and Alberto Carlo Maria Mancino
Marco Polignano, Cataldo Musto, Marco de Gemmis, Pasquale Lops, and Giovanni Semeraro
涉及训练、优化、检索、实时流等。
Jeremie Rappaz, Julian McAuley, and Karl Aberer
Reproducibility papers可复现实验性质的文章,共3篇。分别探索了:序列推荐中的 采样评估策略 ;对话推荐系统中 生成式和检索式的方法对比 ; 神经网络 推荐系统和 矩阵分解 推荐系统的对比。
通过论文的整理和分类,笔者也发现了一些自己感兴趣的研究点,比如:推荐系统的回音室效应探讨文章;Transformers在序列推荐和NLP序列表征中的鸿沟和解决文章:Transformers4Rec;图嵌入表征和上下文感知表征的融合文章;NCF和MF的实验对比文章;
综述类: 1、Towards the Next Generation of Recommender Systems: A Survey of the State-of-the-Art and Possible Extensions。最经典的推荐算法综述 2、Collaborative Filtering Recommender Systems. JB Schafer 关于协同过滤最经典的综述 3、Hybrid Recommender Systems: Survey and Experiments 4、项亮的博士论文《动态推荐系统关键技术研究》 5、个性化推荐系统的研究进展.周涛等 6、Recommender systems L Lü, M Medo, CH Yeung, YC Zhang, ZK Zhang, T Zhou Physics Reports 519 (1), 1-49 ( ) 个性化推荐系统评价方法综述.周涛等 协同过滤: factorization techniques for recommender systems. Y Koren collaborative filtering to weave an information Tapestry. David Goldberg (协同过滤第一次被提出) Collaborative Filtering Recommendation Algorithms. Badrul Sarwar , George Karypis, Joseph Konstan .etl of Dimensionality Reduction in Recommender System – A Case Study. Badrul M. Sarwar, George Karypis, Joseph A. Konstan etl Memory-Based Collaborative Filtering. Kai Yu, Anton Schwaighofer, Volker Tresp, Xiaowei Xu,and Hans-Peter Kriegel systems:a probabilistic analysis. Ravi Kumar Prabhakar recommendations: item-to-item collaborative filtering. Greg Linden, Brent Smith, and Jeremy York of Item-Based Top- N Recommendation Algorithms. George Karypis Matrix Factorization. Ruslan Salakhutdinov Decompositions,Alternating Least Squares and other Tales. Pierre Comon, Xavier Luciani, André De Almeida 基于内容的推荐: Recommendation Systems. Michael J. Pazzani and Daniel Billsus 基于标签的推荐: Recommender Systems: A State-of-the-Art Survey. Zi-Ke Zhang(张子柯), Tao Zhou(周 涛), and Yi-Cheng Zhang(张翼成) 推荐评估指标: 1、推荐系统评价指标综述. 朱郁筱,吕琳媛 2、Accurate is not always good:How Accuacy Metrics have hurt Recommender Systems 3、Evaluating Recommendation Systems. Guy Shani and Asela Gunawardana 4、Evaluating Collaborative Filtering Recommender Systems. JL Herlocker 推荐多样性和新颖性: 1. Improving recommendation lists through topic diversification. Cai-Nicolas Ziegler Sean M. McNee, Joseph Lausen Fusion-based Recommender System for Improving Serendipity Maximizing Aggregate Recommendation Diversity:A Graph-Theoretic Approach The Oblivion Problem:Exploiting forgotten items to improve Recommendation diversity A Framework for Recommending Collections Improving Recommendation Diversity. Keith Bradley and Barry Smyth 推荐系统中的隐私性保护: 1、Collaborative Filtering with Privacy. John Canny 2、Do You Trust Your Recommendations? An Exploration Of Security and Privacy Issues in Recommender Systems. Shyong K “Tony” Lam, Dan Frankowski, and John Ried. 3、Privacy-Enhanced Personalization. Alfred 4、Differentially Private Recommender Systems:Building Privacy into the Netflix Prize Contenders. Frank McSherry and Ilya Mironov Microsoft Research, Silicon Valley Campus 5、When being Weak is Brave: Privacy Issues in Recommender Systems. Naren Ramakrishnan, Benjamin J. Keller,and Batul J. Mirza 推荐冷启动问题: Boltzmann Machines for Cold Start Recommendations. Asela Preference Regression for Cold-start Recommendation. Seung-Taek Park, Wei Chu Cold-Start Problem in Recommendation Systems. Xuan Nhat and Metrics for Cold-Start Recommendations. Andrew I. Schein, Alexandrin P opescul, Lyle H. U ngar bandit(老虎机算法,可缓解冷启动问题): 1、Bandits and Recommender Systems. Jeremie Mary, Romaric Gaudel, Philippe Preux 2、Multi-Armed Bandit Algorithms and Empirical Evaluation 基于社交网络的推荐: 1. Social Recommender Systems. Ido Guy and David Carmel A Social Networ k-Based Recommender System(SNRS). Jianming He and Wesley W. Chu Measurement and Analysis of Online Social Networks. Referral Web:combining social networks and collaborative filtering 基于知识的推荐: 1、Knowledge-based recommender systems. Robin Burke 2、Case-Based Recommendation. Barry Smyth 3、Constraint-based Recommender Systems: Technologies and Research Issues. A. Felfernig. R. Burke 其他: Trust-aware Recommender Systems. Paolo Massa and Paolo Avesani
论文:地址: 论文题目:《xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems》 为什么要介绍这篇论文呢,因为面试的时候面试官提到了这篇论文还要我推导公式,但是我自己忘了,太尬了,所以决定来复习下了。。。 在前面的文章里面,我们介绍过DeepFM,在这篇论文中,FM将不同特征进行了自动交叉,如果不用FM的话,就需要工作人员自己进行手工特征交叉任务。对于预测性的系统来说,特征工程起到了至关重要的作用。特征工程中,挖掘交叉特征是至关重要的。交叉特征指的是两个或多个原始特征之间的交叉组合。在广告系统中,CTR是一个重要的评价指标,而在ctr预估任务中,各种特征都是至关重要的,有时候多加一个特征都可以让整个广告的ctr提高一点。 但是在特征有限的系统中,该如何去挖掘那些潜在交叉特征呢? 挖掘交叉特征主要依靠人工提取,这种做法主要有以下三种缺点: 1)重要的特征都是与应用场景息息相关的,针对每一种应用场景,算法工程师们都需要首先花费大量时间和精力深入了解数据的规律之后才能设计、提取出高效的高阶交叉特征,因此人力成本高昂; 2)原始数据中往往包含大量稀疏的特征,例如用户和物品的ID,交叉特征的维度空间是原始特征维度的乘积,因此很容易带来维度灾难的问题; 3)人工提取的交叉特征无法泛化到未曾在训练样本中出现过的模式中。 基于以上的分析,我们就必须要设计一种能自动进行特征交叉任务的网络来替代手工制作的交叉特征,让模型的泛化能力更强。在deepfm,dcn中都有自动特征交叉的模块,值得一提的是,在这些模型中,特种的交叉是发生在bit级别的,也就是bit wise级别的特征交叉。什么是bit wise级别的特征交叉呢? 举个例子,比如特征1 = (a,b,c),特征2 = (d,e,f) 那么他们之间的bit wise的特征交叉就是f(w1*a*d, w2*b*e, w3*c*f)比如在DCN中: 可以看到在Cross Network中,特征向量的交叉是bit wise的交叉方式,就是每个level的x都和x0进行bit wise级别的交叉。 另一种特征交叉的方式有vector wise的交叉方式,这种交叉方式的表述为f(w(a*d, b*e,c*f)),可以看到这两个特征是先进行内积操作后才和权值矩阵进行运算的,所以是vector wise的交叉方式。 论文中还提到了两个定义: explicitly VS implicitly 显式的特征交互和隐式的特征交互。以两个特征为例xi和xj,在经过一系列变换后,我们可以表示成 wij * (xi * xj)的形式,就可以认为是显式特征交互,否则的话,是隐式的特征交互。 老规矩,先上模型: 先看图c,xdeepfm是通过一个CIN将得到的向量concat后送到DNN中做ctr预估,这篇论文的关键就是整个CIN了,CIN全称是Compressed Interaction Network,下面来详细介绍下CIN是怎么做的。 为了实现自动学习显式的高阶特征交互,同时使得交互发生在向量级上,文中首先提出了一种新的名为压缩交互网络(Compressed Interaction Network,简称CIN)的神经模型。在CIN中,隐向量是一个单元对象,因此我们将输入的原特征和神经网络中的隐层都分别组织成一个矩阵,记为X0和 Xk。其中,每个Xk都是从上一个的Xk-1推导而来的: ps:面试的时候这个公式没推导清楚,还是好好讲一下这个公式的计算过程吧。。 CIN的计算分为两个步骤,第一个是利用 和 来计算 我们看这个图: 我们要弄明白 的计算过程,就要先知道几个概念。 inner product:(a,b,c) . (1,2,3) = (1*a,2*b,3*c) outer product: (a,b,c) 。(1,2,3) =[ [ 1a,2a,3a] , [1b,2b,3b], [1c,2c,3c] ] 弄清楚这两个概念后就可以来看看这个的计算过程了。 首先,我们明确计算方向,我们是沿着D这个方向来计算外积的,所以计算出来的z的深度是D,这个是没有问题的。那么在沿着D上面的截面的计算方式就是我们上面说的outer product的方式来计算了。注意,计算D上每一个维度的切面的时候都是每个维度上单独计算的,举个例子: = [a,b,c], [1,2,3], [d,e,f] = [x,y,z], [4,5,6] 那么z的计算就为(先忽略w,后面再介绍w的使用) 我们沿着D这个维度,需要计算三个切面。 第一个切面:需要计算(a,1,d) 和(x,4)的外积: 计算的结果为:[[a*x,1*x,d*x] ,[a*4,1*4,d*4]] ,shape = 2*3 第二个切面:需要计算(b,2,e)和(y,5)的外积: 第三个切面同理,就不列出结果了。 三个切面计算玩,我们就得到了shape为3*2*3的 。 这个计算过程还可以用一张图形象的表示出来: 这里的计算跟上面是一样的,也可以计算每个d维向量的内积然后拼接成柱状体。对于每个切面,我们对这个切面进行加权求和得到一个值,权值矩阵W也成为卷积核的shape跟切面的shape大小一样,我们总共有D个切面,所以就有D个值,这样,我们就将一个三维向量转化成了一维向量: 在上面这张图中,我们可以清楚的知道,如果有 个卷积核w,我们就可以得到 个向量,也就是得到了下一个X: ,这个X的维度为 *D。 CIN的宏观框架可以总结为下图: 我们总共需要进行k个CIN过程的计算,得到k个一维向量。可以看出,它的特点是,最终学习出的特征交互的阶数是由网络的层数决定的,每一层隐层都通过一个池化操作连接到输出层,从而保证了输出单元可以见到不同阶数的特征交互模式。同时不难看出,CIN的结构与循环神经网络RNN是很类似的,即每一层的状态是由前一层隐层的值与一个额外的输入数据计算所得。不同的是,CIN中不同层的参数是不一样的,而在RNN中是相同的;RNN中每次额外的输入数据是不一样的,而CIN中额外的输入数据是固定的,始终是X0。 CIN计算交叉特征的方式是vector wise的, x1,h的计算方式为: x2,h的计算方式为: xk,h的计算方式: 所以是vector-wise的计算方式。这个结构其实跟DeepFM是一样的,左边是交叉特征的计算过程,右边是DNN部分。CTR计算方式为:损失函数为: 我们今天介绍的xDeepFM模型,这个模型跟我们之前学习的DeepFM还有DCN是一个类型的网络,都是交叉特征+DNN组成,在xDeepFM中主要是CIN的推导是重点,只要掌握了CIN的计算过程就知道了这篇论文的核心:vector-wise方式的特征交叉。
此前整理过KDD21上工业界文章,本文主要整理和分类了Recsys 2021的Research Papers和Reproducibility papers。按照推荐系统的 研究方向 和使用的 推荐技术 来分类,方便大家 快速检索自己感兴趣的文章 。个人认为Recsys这个会议重点不在于”技术味多浓”或者”技术多先进”,而在于经常会涌现很多 新的观点 以及 有意思的研究点 ,涵盖推荐系统的各个方面,例如,Recsys 2021涵盖的一些很有意思的研究点包括:
还有些研究点也是值得一读的,比如推荐系统中的 冷启动 , 偏差与纠偏 , 序列推荐 , 可解释性,隐私保护 等,这些研究很有意思和启发性 ,有助于开拓大家的 研究思路**。
下面主要根据自己读题目或者摘要时的一些判断做的归类,按照 推荐系统研究方向分类 、 推荐技术分类 以及 专门实验性质的可复现型文章分类 ,可能存在漏归和错归的情况,请大家多多指正。
信息茧房/回音室(echo chamber)/过滤气泡(filter bubble) ,这3个概念类似,在国内外有不同的说法。大致是指使用社交媒体以及带有 算法推荐功能 的资讯类APP,可能会导致我们 只看得到自己感兴趣的、认同的内容 ,进而让大家都活在自己的 小世界里 ,彼此之间 难以认同和沟通 。关于这部分的概念可参见知乎文章: 。有四篇文章探讨了这样的问题。
此次大会在探索与利用上也有很多探讨,例如多臂老虎机、谷歌的新工作,即:用户侧的探索等。
涉及排序学习的纠偏、用户的偏差探索等。
Debiased Explainable Pairwise Ranking from Implicit Feedback
Khalil Damak, Sami Khenissi, and Olfa Nasraoui
Mitigating Confounding Bias in Recommendation via Information Bottleneck
Dugang Liu, Pengxiang Cheng, Hong Zhu, Zhenhua Dong, Xiuqiang He, Weike Pan, and Zhong Ming
User Bias in Beyond-Accuracy Measurement of Recommendation Algorithms
Ningxia Wang, and Li Chen
利用图学习、表征学习等做冷启动。
Cold Start Similar Artists Ranking with Gravity-Inspired Graph Autoencoders
Guillaume Salha-Galvan, Romain Hennequin, Benjamin Chapus, Viet-Anh Tran, and Michalis Vazirgiannis
Shared Neural Item Representations for Completely Cold Start Problem
Ramin Raziperchikolaei, Guannan Liang, and Young-joo Chung
涉及离线或在线评估方法,准确性和多样性等统一指标的设计等。
Evaluating Off-Policy Evaluation: Sensitivity and Robustness
Yuta Saito, Takuma Udagawa, Haruka Kiyohara, Kazuki Mogi, Yusuke Narita, and Kei Tateno
Fast Multi-Step Critiquing for VAE-based Recommender Systems
Diego Antognini and Boi Faltings
Online Evaluation Methods for the Causal Effect of Recommendations
Masahiro Sato
Towards Unified Metrics for Accuracy and Diversity for Recommender Systems
Javier Parapar and Filip Radlinski
涉及session维度的短序列推荐;使用NLP中常用的Transformers做序列推荐的鸿沟探讨和解决,这个工作本人还挺感兴趣的,后续会精读下!
结合联邦学习做隐私保护等。
Black-Box Attacks on Sequential Recommenders via Data-Free Model Extraction
Zhenrui Yue, Zhankui He, Huimin Zeng, and Julian McAuley
Large-scale Interactive Conversational Recommendation System
Ali Montazeralghaem, James Allan, and Philip S. Thomas
EX3: Explainable Attribute-aware Item-set Recommendations
Yikun Xian, Tong Zhao, Jin Li, Jim Chan, Andrey Kan, Jun Ma, Xin Luna Dong, Christos Faloutsos, George Karypis, S. Muthukrishnan, and Yongfeng Zhang
Towards Source-Aligned Variational Models for Cross-Domain Recommendation
Aghiles Salah, Thanh Binh Tran, and Hady Lauw
利用视觉信息做推荐。
Ambareesh Revanur, Vijay Kumar, and Deepthi Sharma
Huiyuan Chen, Yusan Lin, Fei Wang, and Hao Yang
探讨了美食场景下,多用户意图的推荐系统的交互设计。
“Serving Each User”: Supporting Different Eating Goals Through a Multi-List Recommender Interface
Alain Starke, Edis Asotic, and Christoph Trattner
涉及传统协同过滤、度量学习的迭代;新兴的图学习技术、联邦学习技术、强化学习技术等的探索。
Matrix Factorization for Collaborative Filtering Is Just Solving an Adjoint Latent Dirichlet Allocation Model After All
Florian Wilhelm
Negative Interactions for Improved Collaborative-Filtering: Don’t go Deeper, go Higher Harald Steck and Dawen Liang
ProtoCF: Prototypical Collaborative Filtering for Few-shot Item Recommendation
Aravind Sankar, Junting Wang, Adit Krishnan, and Hari Sundaram
知识图谱的应用以及图嵌入技术和上下文感知的表征技术的融合,这两个工作个人都挺感兴趣。
Antonio Ferrara, Vito Walter Anelli, Tommaso Di Noia, and Alberto Carlo Maria Mancino
Marco Polignano, Cataldo Musto, Marco de Gemmis, Pasquale Lops, and Giovanni Semeraro
涉及训练、优化、检索、实时流等。
Jeremie Rappaz, Julian McAuley, and Karl Aberer
Reproducibility papers可复现实验性质的文章,共3篇。分别探索了:序列推荐中的 采样评估策略 ;对话推荐系统中 生成式和检索式的方法对比 ; 神经网络 推荐系统和 矩阵分解 推荐系统的对比。
通过论文的整理和分类,笔者也发现了一些自己感兴趣的研究点,比如:推荐系统的回音室效应探讨文章;Transformers在序列推荐和NLP序列表征中的鸿沟和解决文章:Transformers4Rec;图嵌入表征和上下文感知表征的融合文章;NCF和MF的实验对比文章;
论文: 论文题目:《Neural Graph Collaborative Filtering》 论文地址: 本论文是关于图结构的协同过滤算法,在原始的矩阵分解和基于深度学习的方法中,通常是通过映射描述用户(或物品)的现有特征(例如ID和属性)来获得用户(或物品)的嵌入。从而利用user和item的embedding进行协同召回。但是作者认为这种方法的固有缺点是:在user与item的interaction数据中潜伏的 协作信号(collaborative signal) 未在嵌入过程中进行编码。这样,所得的嵌入可能不足以捕获协同过滤效果。 让我们一起来看一下本论文是怎么利用数据中潜伏的协作信号的吧。 推荐算法被广泛的运用在各个领域中,在电商领域,社交媒体,广告等领域都发挥着至关重要的作用。推荐系统的核心内容就是根据用户以前的购买和点击行为来评估用户对一个物品的喜爱程度,从而针对每个用户进行个性化推荐。协同过滤算法认为历史行为相似的用户之间的兴趣是相同的,所以给用户推荐的是同类型用户的爱好,也就是UserCF,而ItemCF给用户推荐的是跟历史行为相近的物品。 传统的协同过滤方法要么是基于矩阵分解,要么是基于深度学习的,这两种方法都忽略了一个非常关键的信息---user和item交互的协作信号,该信号隐藏在user和item的交互过程中。原始的协同过滤方法忽略了这种信息,所以在进行user 和 item representation时就不足以较好的进行embedding。 本论文通过将用户项交互(更具体地说是二分图结构)集成到embedding过程中,开发了一个新的推荐框架神经图协同过滤(NGCF),该框架通过在其上传播embedding来利用user-item图结构。这种方法在用户项目图中进行高阶连通性的表达建模,从而以显式方式将协作信号有效地注入到embedding过程中。 在介绍模型之前先来讲解一下什么是useritem interaction以及什么是高阶的useritem interaction。 我们先看左边的图,这个图就是useritem interaction,u1是我们待推荐的用户,用双圆圈表示,他交互过的物品有i1,i2,i3。在看右边这个树形结构的图,这个图是u1的高阶interaction图,注意只有l > 1的才是u1的高阶连接。观察到,这么一条路径,u1 ← i2 ← u2,指示u1和u2之间的行为相似性,因为两个用户都已与i2进行了交互。而另一条更长的路径,u1←i2←u2←i4暗示u1可能会点击i4,因为他的相似用户u2之前已经购买过i4。另一方面,用户u1在l = 3这一层会更倾向于i4而不是i5,理由是i4到u1有两条路径而i5只有一条。 当然这种树结构是不可能通过构建真正的树节点来表示的,因为树模型比较复杂,而且结构很大,没法对每个用户构建一个树,这样工作量太大了。那么怎么设计模型结构可以达到跟这个high-order connectivity的效果呢,这个就要运用到神经网络了。通过设计一个embedding propagation layer来表示这种embedding 在每个层之间的传递。 还是拿上面那张图举例子,堆叠两层可捕获u1←i2←u2的行为相似性,堆叠三层可捕获u1←i2←u2←i4的潜在推荐以及信息流的强度(由层之间的可训练权重来评估),并确定i4和i5的推荐优先级。 这个跟传统的embedding是一样的,都是对原始的userID和itemID做embedding,跟传统embedding不同的地方是,在我们的NGCF框架中,我们通过在用户-项目交互图上传播embedding来优化embedding。 由于embedding优化步骤将协作信号显式注入到embedding中,因此可以为推荐提供更有效的embedding。 这一层是本文的核心内容,下面我们来进行详细的解读。 从直观上来看,用户交互过的item会给用户的偏好带来最直接的依据。类似地,交互过某个item的用户可以视为该item的特征,并可以用来衡量两个item的协同相似性。 我们以此为基础在连接的用户和项目之间执行embedding propogation,并通过两个主要操作来制定流程:消息构建和消息聚合。 Message Construction(消息构建) 对于连接的user-item对(u,i),我们定义从i到u的消息为: 其中ei是i的embedding,eu是u的embedding,pui是用于控制每次传播的衰减因子,函数f是消息构建函数,f的定义为: 其中W1和W2用来提取有用的embedding信息,可以看到W2控制的i和u直接的交互性,这使得消息取决于ei和eu之间的亲和力,比如,传递更多来自相似项的消息。 另一个重要的地方是Nu和Ni,pui = 1/ 。Nu和Ni表示用户u和item i的第一跳邻居。 从表示学习的角度来看,pui反映了历史item对用户偏好的贡献程度。 从消息传递的角度来看,考虑到正在传播的消息应随路径长度衰减,因此pui可以解释为折扣因子。 Message Aggregation 聚合方法如下 : 其中 表示在第一嵌入传播层之后获得的用户u的表示。激活函数采用的是leakyrelu,这个函数适合对pos和neg信号进行编码。 另一个重要的信息是 ,它的定义如下: 这个信息的主要作用是保留原始的特征信息。 至此,我们得到了 ,同样的方法,我们也能获得 ,这个都是first order connectivoty的信息。 根据前面的计算方式,我们如果将多个Embedding Propagation Layers进行堆叠,我们就可以得到high order connectivity信息了: 计算方式如下: 当我看到这里的时候,我的脑子里产生了一个大大的疑惑,我们在计算第l层的eu和ei时都需要第l-1层的信息,那么我们怎么知道ei和eu在第l层是否存在呢?也就是说出现u侧的总层数l大于i侧总层数的时候,我们如何根据第l-1层的ei来计算第l层的e呢?经过思考,我感觉应该是这样的,训练样本应该是一条path,也就是这个例子是u1 ← i2 ← u2 ← i4这条path,所以可以保证u1跟i4的层数l是一样的,所以不存在上面那个层数不匹配的问题。 ps:看到后面的实验结果才知道L是固定的所以每一层都不会缺失。 还有一个就是,不同层之间的W是不一样的,每一层都有着自己的参数,这个看公式就知道,理由就是我们在提取不同层信息的时候需要不同的W进行信息提取。 另一个疑惑是pui到底是不是每一个l层都一样?这里看公式好像就是指的是第一跳的Nu和Ni进行就计算的结果。 这部分内容是为了在进行batch训练的时候进行矩阵运算所推导的数学过程,其实跟之前我们讲的那个过程在数学上的计算是完全一样的,你想象一下,如果不用矩阵进行运算,在训练过程中要如何进行这么复杂的交互运算。 当进行了l层的embedding propagation后,我们就拥有了l个eu和l个ei,我们将他们进行concate操作: 这样,我们不仅可以通过嵌入传播层丰富初始嵌入,还可以通过调整L来控制传播范围。 最后,我们进行内积计算,以评估用户对目标商品的偏好: 采用的是pair-wise方式中的bpr loss:
毕业论文是高等教育自学考试本科专业应考者完成本科阶段学业的最后一个环节,它是应考者的总结性独立作业,目的在于总结学习专业的成果,培养综合运用所学知识解决实际问题的能力。从文体而言,它也是对某一专业领域的现实问题或理论问题进行科学研究探索的具有一定意义的论说文。完成毕业论文的撰写可以分两个步骤,即选择课题和研究课题。首先是选择课题。选题是论文撰写成败的关键。因为,选题是毕业论文撰写的第一步,它实际上就是确定“写什么”的问题,亦即确定科学研究的方向。如果“写什么”不明确,“怎么写”就无从谈起。教育部自学考试办公室有关对毕业论文选题的途径和要求是“为鼓励理论与工作实践结合,应考者可结合本单位或本人从事的工作提出论文题目,报主考学校审查同意后确立。也可由主考学校公布论文题目,由应考者选择。毕业论文的总体要求应与普通全日制高等学校相一致,做到通过论文写作和答辩考核,检验应考者综合运用专业知识的能力”。但不管考生是自己任意选择课题,还是在主考院校公布的指定课题中选择课题,都要坚持选择有科学价值和现实意义的、切实可行的课题。选好课题是毕业论文成功的一半。第一、要坚持选择有科学价值和现实意义的课题。科学研究的目的是为了更好地认识世界、改造世界,以推动社会的不断进步和发展。因此,毕业论文的选题,必须紧密结合社会主义物质文明和精神文明建设的需要,以促进科学事业发展和解决现实存在问题作为出发点和落脚点。选题要符合科学研究的正确方向,要具有新颖性,有创新、有理论价值和现实的指导意义或推动作用,一项毫无意义的研究,即使花很大的精力,表达再完善,也将没有丝毫价值。具体地说,考生可从以下三个方面来选题。首先,要从现实的弊端中选题,学习了专业知识,不能仅停留在书本上和理论上,还要下一番功夫,理论联系实际,用已掌握的专业知识,去寻找和解决工作实践中急待解决的问题。其次,要从寻找科学研究的空白处和边缘领域中选题,科学研究还有许多没有被开垦的处女地,还有许多缺陷和空白,这些都需要填补。应考者应有独特的眼光和超前的意识去思索,去发现,去研究。最后,要从寻找前人研究的不足处和错误处选题,在前人已提出来的研究课题中,许多虽已有初步的研究成果,但随着社会的不断发展,还有待于丰富、完整和发展,这种补充性或纠正性的研究课题,也是有科学价值和现实指导意义的。第二、要根据自己的能力选择切实可行的课题。毕业论文的写作是一种创造性劳动,不但要有考生个人的见解和主张,同时还需要具备一定的客观条件。由于考生个人的主观、客观条件都是各不相同的,因此在选题时,还应结合自己的特长、兴趣及所具备的客观条件来选题。具体地说,考生可从以下三个方面来综合考虑。首先,要有充足的资料来源。“巧妇难为无米之炊”,在缺少资料的情况下,是很难写出高质量的论文的。选择一个具有丰富资料来源的课题,对课题深入研究与开展很有帮助。其次,要有浓厚的研究兴趣,选择自己感兴趣的课题,可以激发自己研究的热情,调动自己的主动性和积极性,能够以专心、细心、恒心和耐心的积极心态去完成。最后,要能结合发挥自己的业务专长,每个考生无论能力水平高低,工作岗位如何,都有自己的业务专长,选择那些能结合自己工作、发挥自己业务专长的课题,对顺利完成课题的研究大有益处。
此前整理过KDD21上工业界文章,本文主要整理和分类了Recsys 2021的Research Papers和Reproducibility papers。按照推荐系统的 研究方向 和使用的 推荐技术 来分类,方便大家 快速检索自己感兴趣的文章 。个人认为Recsys这个会议重点不在于”技术味多浓”或者”技术多先进”,而在于经常会涌现很多 新的观点 以及 有意思的研究点 ,涵盖推荐系统的各个方面,例如,Recsys 2021涵盖的一些很有意思的研究点包括:
还有些研究点也是值得一读的,比如推荐系统中的 冷启动 , 偏差与纠偏 , 序列推荐 , 可解释性,隐私保护 等,这些研究很有意思和启发性 ,有助于开拓大家的 研究思路**。
下面主要根据自己读题目或者摘要时的一些判断做的归类,按照 推荐系统研究方向分类 、 推荐技术分类 以及 专门实验性质的可复现型文章分类 ,可能存在漏归和错归的情况,请大家多多指正。
信息茧房/回音室(echo chamber)/过滤气泡(filter bubble) ,这3个概念类似,在国内外有不同的说法。大致是指使用社交媒体以及带有 算法推荐功能 的资讯类APP,可能会导致我们 只看得到自己感兴趣的、认同的内容 ,进而让大家都活在自己的 小世界里 ,彼此之间 难以认同和沟通 。关于这部分的概念可参见知乎文章: 。有四篇文章探讨了这样的问题。
此次大会在探索与利用上也有很多探讨,例如多臂老虎机、谷歌的新工作,即:用户侧的探索等。
涉及排序学习的纠偏、用户的偏差探索等。
Debiased Explainable Pairwise Ranking from Implicit Feedback
Khalil Damak, Sami Khenissi, and Olfa Nasraoui
Mitigating Confounding Bias in Recommendation via Information Bottleneck
Dugang Liu, Pengxiang Cheng, Hong Zhu, Zhenhua Dong, Xiuqiang He, Weike Pan, and Zhong Ming
User Bias in Beyond-Accuracy Measurement of Recommendation Algorithms
Ningxia Wang, and Li Chen
利用图学习、表征学习等做冷启动。
Cold Start Similar Artists Ranking with Gravity-Inspired Graph Autoencoders
Guillaume Salha-Galvan, Romain Hennequin, Benjamin Chapus, Viet-Anh Tran, and Michalis Vazirgiannis
Shared Neural Item Representations for Completely Cold Start Problem
Ramin Raziperchikolaei, Guannan Liang, and Young-joo Chung
涉及离线或在线评估方法,准确性和多样性等统一指标的设计等。
Evaluating Off-Policy Evaluation: Sensitivity and Robustness
Yuta Saito, Takuma Udagawa, Haruka Kiyohara, Kazuki Mogi, Yusuke Narita, and Kei Tateno
Fast Multi-Step Critiquing for VAE-based Recommender Systems
Diego Antognini and Boi Faltings
Online Evaluation Methods for the Causal Effect of Recommendations
Masahiro Sato
Towards Unified Metrics for Accuracy and Diversity for Recommender Systems
Javier Parapar and Filip Radlinski
涉及session维度的短序列推荐;使用NLP中常用的Transformers做序列推荐的鸿沟探讨和解决,这个工作本人还挺感兴趣的,后续会精读下!
结合联邦学习做隐私保护等。
Black-Box Attacks on Sequential Recommenders via Data-Free Model Extraction
Zhenrui Yue, Zhankui He, Huimin Zeng, and Julian McAuley
Large-scale Interactive Conversational Recommendation System
Ali Montazeralghaem, James Allan, and Philip S. Thomas
EX3: Explainable Attribute-aware Item-set Recommendations
Yikun Xian, Tong Zhao, Jin Li, Jim Chan, Andrey Kan, Jun Ma, Xin Luna Dong, Christos Faloutsos, George Karypis, S. Muthukrishnan, and Yongfeng Zhang
Towards Source-Aligned Variational Models for Cross-Domain Recommendation
Aghiles Salah, Thanh Binh Tran, and Hady Lauw
利用视觉信息做推荐。
Ambareesh Revanur, Vijay Kumar, and Deepthi Sharma
Huiyuan Chen, Yusan Lin, Fei Wang, and Hao Yang
探讨了美食场景下,多用户意图的推荐系统的交互设计。
“Serving Each User”: Supporting Different Eating Goals Through a Multi-List Recommender Interface
Alain Starke, Edis Asotic, and Christoph Trattner
涉及传统协同过滤、度量学习的迭代;新兴的图学习技术、联邦学习技术、强化学习技术等的探索。
Matrix Factorization for Collaborative Filtering Is Just Solving an Adjoint Latent Dirichlet Allocation Model After All
Florian Wilhelm
Negative Interactions for Improved Collaborative-Filtering: Don’t go Deeper, go Higher Harald Steck and Dawen Liang
ProtoCF: Prototypical Collaborative Filtering for Few-shot Item Recommendation
Aravind Sankar, Junting Wang, Adit Krishnan, and Hari Sundaram
知识图谱的应用以及图嵌入技术和上下文感知的表征技术的融合,这两个工作个人都挺感兴趣。
Antonio Ferrara, Vito Walter Anelli, Tommaso Di Noia, and Alberto Carlo Maria Mancino
Marco Polignano, Cataldo Musto, Marco de Gemmis, Pasquale Lops, and Giovanni Semeraro
涉及训练、优化、检索、实时流等。
Jeremie Rappaz, Julian McAuley, and Karl Aberer
Reproducibility papers可复现实验性质的文章,共3篇。分别探索了:序列推荐中的 采样评估策略 ;对话推荐系统中 生成式和检索式的方法对比 ; 神经网络 推荐系统和 矩阵分解 推荐系统的对比。
通过论文的整理和分类,笔者也发现了一些自己感兴趣的研究点,比如:推荐系统的回音室效应探讨文章;Transformers在序列推荐和NLP序列表征中的鸿沟和解决文章:Transformers4Rec;图嵌入表征和上下文感知表征的融合文章;NCF和MF的实验对比文章;
都挺好用的,准不准只是相对的,如果高校或单位要求用PaperYY,那么PaperYY查重结果就最准的,每个单位要求的查重系统不一样,各个查重系统收录数据和算法都有差别,没有绝对的准,PaperYY数据涵盖了大多数期刊、学位论文数据、互联网数据等,引用的相似内容多数情况下都可以检测出来,对于前期修改论文参考性价比高。后期再用知网。
PaperBye论文查重软件标准版完全免费,每日不限篇数和字数。
还有论文纠错,自动降重,一键排版,实时查重一边修改一边查重功能。
另外用旗舰版数据结合自建库功能可以查出所有抄袭内容。参考这个查重结果降重修改,基本抄袭的内容都会查出来,这样就不惧任何查重软件,一劳永逸。
具体查重方法步骤如下:
第一步:把写论文时参考过文献准备成文档,为自己建立数据库做准备;
第二步:点击左边菜单“自建库”进入自建库管理中把文档上传到paperbye自建库中;
第三步:提交论文查重,使用自建库功能时,勾选自建库功能。
这个就成功使用自建库功能了,用paperbye旗舰版数据结合自建库功能,查完后,就不惧任何查重系统的查重了,抄袭的内容都会被查出来,这样进行降重就一步到位了。
这两个之间肯定会有所偏差,但是YY在检测时,你可以单独勾选针对知网的选项,数据库指向更偏向于知网,pass则是以自己的数据库为准。但是要专门针对知网的话,最好还是直接在知网内部查,知网平台也有入口的。
PaperFree
PaperFree是中英文及多语种论文相似度检测系统,特色机器人降重、在线改重功能,可以实现自动降低文章相似比例,并且在同一界面上一边修改一边检测,即时反馈查重结果,使用户体验、查重效率翻倍。PaperFree为用户人性化地完美实现了“首次免费论文检测―高效在线改重―智能机器人降重―全面再次论文检测―顺利通过论文检测“的整个全过程。
PaperPass
PaperPass是全球首个中文文献相似度比对系统,已经发展成为一个中文原创性检查和预防剽窃的在线网站。一直致力于学术论文的检测。
PaperTime
PaperTime是在“教育大数据联盟平台”的基础上,优先获取教育数据资源,采用多级指纹对比技术及深度语义识别技术,实现“实时查重、在线修改、同步降重”一步到位。
cnkitime
cnkitime学术不端论文查重免费网站,大学生版(专/本科毕业论文定稿)、研究生版(硕博毕业论文定稿)、期刊职称版(期刊投稿,职称评审)以上版本均可免费查重不限篇数。
PaperDay
PaperDay系统支持中英文及多语种论文检测,整合了智能降重、论文排版、论文纠错为一体,大大提高论文写作效率,是检测文章原创性、课程论文、学术论文、毕业学位论文等学术不端行为自律查重工具。