阿里巴巴是目前全球最大的商务交流社群和网上交易市场。下面是我整理了,有兴趣的亲可以来阅读一下!
阿里巴巴集团发展战略研究
【摘要】本文通过对阿里巴巴集团进行SWOT分析的基础上制定了适合阿里巴巴集团的发展战略:阿里巴巴集团应该将“商通天下”确定为战略目标,以第三方电子商务平台为核心业务,整合资讯、支付、物流等多种支撑服务。
【关键词】SWOT;阿里巴巴集团;发展战略0.前言
阿里巴巴集团作为国内最大、全球领先的电子商务服务企业。从1999年创立至今短短十余年时间就形成现有规模,各项业务均排名行业第一,这些业绩的取得都源于阿里巴巴集团对发展战略的高度重视。但市场和环境是在不断变化的,“逆水行舟,不进则退”,阿里巴巴集团要想维护优势地位并实现长远发展,必须完善发展战略,实现战略升级。
1.阿里巴巴集团SWOT分析
1.1优势
1.1.1庞大的客户群
阿里巴巴集团经过多年经营,在国内外建立起竞争者无法比拟的庞大客户资源。客户型别以中小企业、网路消费者为主。2011年,阿里巴巴 B2B 平台会员数超过7500万,网上商铺数量超过1000万,付费会员数量超过100万;天猫已拥有4亿多买家,40000多家商户,70000多个品牌。
1.1.2完善的服务平台
阿里巴巴集团所拥有的电子商务服务能力国内最强、国际领先,形成对海量中小企业和网路消费者的强大吸引力。阿里巴巴集团到目前为止已经形成的整体平台架构包括网上企业交易平台***阿里巴巴网路有限公司***、网上零售平台***淘宝网和天猫***、支付平台***支付宝***、电子商务云端计算服务平台***阿里云端计算***等七部分。
1.1.3绝对的市场份额
2011年二季度,阿里巴巴 B2B 市场份额虽同比有所下降,但仍占61%;环球资源网则以4%的市场份额位列第二。2011年淘宝网几乎垄断了国内C2C电子商务交易市场的全部,达到九成的占有率;排名第二的是拍拍网。2011年一季度的国内B2C市场,天猫继续保持30%以上的市场占有率,其后为京东、卓越等B2C商家。
1.1.4综合性的服务
阿里巴巴通过整合资讯、支付、物流等多种服务,提供完整的电子商务服务。阿里巴巴还通过汇聚丰富的市场资讯,提供动态的资源优化配置服务,使中小企业能及时准确的了解市场变化,做出科学决策。
1.2劣势
1.2.1机构官僚化严重
伴随着阿里巴巴集团的规模扩张,机构逐渐膨胀,并直接导致内部官僚化,决策反应速度因此变慢。反应速度变慢、决策机制官僚化、创新机制不到位都深刻影响集团的良好发展。
1.2.2信用体系不健全
阿里巴巴B2B的欺诈事件暴露出阿里巴巴内部监管出现漏洞、内部协同机制不到位等深层次问题。另外,一些网上店家利用信用评价制度漏洞通过非正常手段提高信用评价的现象仍然大量存在。
1.2.3发展速度和质量失衡
阿里巴巴集团一直处于高速发展阶段,而一些长期潜藏的深层次问题却在近期不断爆发。阿里巴巴B2B的“欺诈门”事件和淘宝网的“淘宝围攻”事件的发生暴露出阿里巴巴集团对发展过程中质量建设的指导与规范仍不够完善。
1.2.4低门槛准入制的困扰
阿里巴巴近期的一系列丑闻表明,虽然低门槛准入制可以在很短的时间内积累庞大的人气和市场,但从长远看低门槛准入制带来的监管困难是巨大的,低门槛准入制对企业的成长并非都是健康的,产生的深远负面影响是在短期内容易被忽视的。
1.3机遇
1.3.1世界经济的复苏
世界经济形势的复苏特别是主要发达国家经济走出危机阴影,为阿里巴巴集团的发展创造了契机。全球经济形势虽然还存在较大的不确定性,但整体向好的势头开始出现,国际外部需求开始回升,中小企业外贸出口订单增加,对外贸易机会增多。
1.3.2国内产业结构的调整
我国“十二五”规划中明确提出,“积极发展电子商务,完善面向中小企业的电子商务服务,推动面向全社会的信用服务、网上支付、物流配送等支撑体系建设”,对阿里巴巴集团来说,可以凭借优越的政策环境,实现战略转型,实现更大发展。
1.3.3居民消费能力上升
我国居民消费热情高涨,日渐理性和成熟,自主辨别能力也越来越强。随着网际网路的不断普及,城乡居民消费能力不断提升,电子商务和网路购物即将进入高速发展周期,这给阿里巴巴集团的发展带来巨大市场和使用者资源。
1.3.4农村电子商务的发展
农村电子商务发展成为新的亮点,发展迅猛。农民网商通过网路销售农村土特山产品和深加工产品,实现了发家致富。农村创业的氛围更加浓郁,已经逐步形成自成一格的农村电子商务产业丛集。
1.4威胁
1.4.1行业规范的缺失
我国的电子商务服务行业还处在成长发展时期,虽然整体上规模不断扩大,结构不断完善,但相应的网上支付、交易规范等方面在国家法律和行业规范上依然存在真空。
1.4.2市场竞争的压力
我国电子商务市场前景十分广阔,越来越多的企业跃跃欲试,想要进入到这个市场,无论是选择开展直接电子商务业务、间接电子商务业务还是选择第三方电子商务服务业务,都在不断加剧市场竞争的激烈程度。
1.4.3物流配送的制约
物流是使电子商务活动得以完整实现的关键必要环节。虽然经过多年的发展,物流行业已经有了一定基础,但在物流配送速度和服务质量方面、物流企业的资讯化水平和管理能力方面仍有待提升。
1.4.4服务能力的限制
依托电子商务平台成长起来的电子商务企业,面对消费者对产品、服务越来越高的要求,同质化竞争越来越激烈;同时,业务及企业规模增长对管理能力和水平的挑战,以及成本的提升等,都将给阿里巴巴集团的可持续发展带来挑战。
2.阿里巴巴集团发展战略
阿里巴巴集团应该将“商通天下”确定为战略目标。对于阿里巴巴集团来说,仍然要立足于以满足商务需求为目的的电子商务行业,定位于电子商务服务产业,全力打造电子商务服务产业链,以第三方电子商务平台为核心业务,整合资讯、支付、物流等多种支撑服务,全面建立起一个世界最大的电子商务生态系统。
2.1平台业务创新战略
第一,阿里巴巴B2B应加快以会员为导向的收费模式向与服务效果挂钩的收费模式转变的速度,面对的首要难题就是市场流量的变化,所以必须面向国内贸易市场的需求开拓客户群。
第二,以淘宝开放平台***简称TOP***为核心深度整合平台资源,打通B2B、B2C和C2C平台界限,形成B2B2C的全方位电子商务平台。
2.2支付业务开放战略
2011年5月央行发放首批支付牌照,部分消除了第三方支付行业发展的不确定性,但也将导致第三方支付行业面临新的格局变化。作为阿里巴巴集团电子商务平台指定第三方支付机构,支付宝应围绕更多金融领域***基金保险等***进行拓展,并在核心业务领域深耕,广大为中小企业和网路消费者乃至其他客户提供综合性的电子商务金融服务。
2.3物流业务联盟战略
阿里巴巴集团可以将物流业务应定位为开放的社会化物流服务平台战略即“第四方物流平台”战略,所有电子商务参与主体***物流企业、中小企业、网路消费者、电子商务平台等***都***或免费使用阿里巴巴提供的公共物流服务,从而形成强大的物流联盟。阿里巴巴物流平台是整合第三方物流资源的“第四方物流平台”,供应链解决方案是其主要服务产品。
2.4云端计算业务领先战略
阿里云端计算要以“建设以资料为中心的国内领先的电子商务云端计算服务平台”为目标。阿里云端计算要能够提供完整的电子商务云端计算服务,进一步深化电子商务资料采集、处理和应用,为电子商务生态系统配备强有力的技术基础。为此,阿里巴巴集团需要做好“云”与“端”的布局,提高阿里云的商业价值,创新阿里云的发展模式,明确自身定位和聚焦业务。
【参考文献】
[1]IDC,阿里巴巴集团研究中心.加速资讯化程序—电子商务和阿里巴巴商业生态的社会影响[R],2012.
[2]余雨航,唐峰.阿里巴巴成功因素分析[J].中国科技纵横,2010,***22***.
点选下页还有更多>>>
创造了淘宝,还有支付宝等支付平台,使人们实现了网购,实现了在网上支付等功能。
最近两年,达摩院最突出的成就就是AI技术,仅两年时间,阿里AI团队便在国际顶级学术会议上共发表近400篇顶级论文,在国际顶级技术赛事上斩获40余项世界第一。
目前为止没有令人赞叹的比较好的成就,只是有一些边边角角的帮助。比如说5G开发啊,还有一些其他的类似于航天航空的部分研究。其他的没有什么特别能拿得出手的。
中国电子商务业的盈利战略 中国在NASDAQ上市的SOHU、网易、新浪的股票能在最近不到一年的时间内涨幅惊人,这要归功于对未来业绩良好期望而促进在NASDAQ“盘小是金”股价的攀升,业绩回归的本质在于网络的盈利模式与传统经济的渗透与结合,本文揭示了网络经济的运作本质与规律来寻求获得更多的网络与传统经济的沟通结合点,而该结合点意味着新的利润增长点,网络盈利模式存在的本质原因在于改变了沟通的方式,总结起来有以下三种沟通方式: 1) 改变传统状态下的人与人的沟通方式,网络平台的不同催生不同的沟通关系,而不同的沟通关系意味着不同的盈利利润增长点,腾讯QQ、易趣、同学录(CHINAREN)、网易的同城约会、彩信杂志、MTV音乐、在线互动游戏其实都是网络主要基于改变人与人沟通方式的平台,上述相应的沟通平台其实都在运营着不同的人与人之间的关系,QQ提供了人与人除了直接见面、电话(即时沟通)以及电子邮件、留言(跨时沟通)以外更含蓄的人与人沟通的方式,提供了似乎更为神秘、更为隐私、更放肆、更经济的人与人沟通空间,“看不见、摸不着”变为一种某些人喜欢的“必须”的沟通需求方式、一种时尚以及腾讯的竞争优势。易趣(EACHNET)实际是在运营人与人的拍卖沟通关系,这种关系的基点在于改造传统意义上的商品拍卖关系,围绕这种独特的盈利利润价值链,易趣要注意的问题是必须要进一步整合好信用中介、物流、沟通目录平台、提成佣金系统的促成交易与利润增长点的环节,否则,一切交易都将成为网上的过家家游戏而不能产生真正意义上的拍卖盈利模式,同学录在网络上的细分市场平台选择了同学班级,改变了传统同学之间的毕业后沟通方式,同城约会的盈利模式在运营着类似交友或恋爱见面的沟通关系,其因为大大拓展了人与人结识新朋友的自由机会而获得价值,网易的在线互动游戏提供了人与人远程互相游戏的沟通关系而获得价值,网络沟通的平台的性质取决于沟通关系的挖掘与界定,这种“挖掘”出来的关系其实本身是不用挖掘的,因为它一直存在你的身边,就好象如果没有网络,你一样要打电话而非透过“QQ”和朋友聊天、互相凑在一起而非通过“在线游戏网络”打牌、找中介而不是“易趣”卖你不想要的商品以及通过婚姻中介而非通过“同城约会”寻找心仪的对象,人与人沟通的关系实际上是永远存在的,只不过网络将这种关系从时间与空间上重新界定罢了,网络运营企业的唯一的任务是围绕这种关系构建必要的关键竞争优势而获得新的利润增长点。 2) 改变传统意义上的人与企业之间的沟通关系,网上的“沃尔玛” EBEY是提供网上无疆界的超级市场而获得价值,改变了超级市场与顾客基于商品购买的沟通关系,使得顾客不分时间限制与空间移动而能够满足购物需求。携程旅行网(CTRIP)、ELONG凭借与旅馆业形成的非对称的价格谈判势力为个人提供了便宜方便的旅馆预订服务乃至旅游产业价值链上的机票预定、旅游咨询的增值服务,改变了传统意义上的个人与旅馆之间单纯的预定沟通关系,独特的运营模式与携程品牌的崛起促使它有机会进一步整合旅游传统行业价值链,以提供便宜的预定交易价格以及便捷的交易方式而降低顾客交易成本为核心能力而实现旅游产业交易一体化捆绑利润。当当网上书店取代了传统的书店与人的购买沟通方式从而成为新的购书时尚集聚地,购书渠道的变革而得以削减的零售价格以及购买流程的便利性成为新的购书驱动因素从而为顾客创造了价值,试阅机会的提供、网上书评的互动、分类规模检索成为当当网站维持新的沟通关系需要加强的竞争优势环节。门户网站SINA的热点新闻的发布改变了传统意义上的个人了解新闻的沟通关系,网络搜索引擎百度、GOOGLE、YAHOO改变了人们传统上去图书馆查黄页检索资料的沟通关系,降低了个人的搜索成本以及企业的“被发现”成本而创造价值,游戏巨擎任天堂设立网络玩家游戏反馈版块直接与游戏玩家建立基于在线咨询交流的沟通平台而获得互动的玩家忠诚度的竞争优势。前程无忧网(51JOB)改变了传统的招聘企业与人才的沟通方式,品牌推广、招聘、人才的测评、猎头服务、人力资源技能培训与传播、HR体系外包成为前程无忧维持新的互动沟通关系而需要打造竞争优势环节,新的沟通方式因能降低招聘与被招聘方的沟通成本而获得利润价值。招商银行导入的一卡通、一网通银行盈利模式实际上改变了银行与个人传统的存款沟通方式,较于其他大型国有银行而言,招商银行的传统存款渠道沟通方式处于劣势,招商银行的策略是将竞争范围转移到新的沟通平台,利用沟通平台的变革促使招商银行迅速获得初期的竞争优势,招商银行下一步的挑战在乎于如何应对其他在传统沟通平台依然占有绝对优势但在新的沟通平台上奋起直追的强大竞争对手,上市融资的成功使其不用过分担心用于扩张的资本资源问题,最重要的是,招商银行是否已经重新审视战略从而获得新的竞争优势。联想的“关联应用”技术试图变革多方面的基于IT产业的涉及个人、企业与社会信息之间的沟通方式,其主要的竞争对手显然会是标准而并不是单个企业,与具有类似技术的国际标准平台DHWG(数字家庭工作组)的竞争过程中,竞争游戏规则的制定者实际上却是价值链下游的IT、家电厂商与消费者而不是制定标准者本身,竞争的胜负有时并非取决于对技术应用前景趋势的判断而在乎于市场究竟用谁的技术。种种的沟通关系其实一直存在于我们身边,只不过沟通的方式因网络技术发生变化,利润获取点也会根据不同的沟通关系而有所不同: 一、 通过服务、商品的直接提供而产生利润,EBEY、当当网站、携程旅行网、网上咨询服务收费、网上广告收益属于此类,但利润的收取来源可能来自顾客(如当当网站、招商银行的网上个人转帐系统、短信传递、彩信杂志、交友点数),也可能来自满足顾客需求的企业或在网上做广告的企业(如ELONG向预定旅馆收取佣金与SINA向网站登广告的企业收费、GOOGLE对加入的搜索企业收费、51JOB向招聘企业收费) 二、 是基于整体网站价值链的利润移动而获得核心业务的利润,网易的新闻版块提供免费浏览服务但却因此吸引更多的眼球来消费有偿在线游戏、同城约会点数积分、短信传递、铃声下栽等盈利利润项目,搜狐的电子邮箱实行免费策略但却锁定了大量用户以获得广告收益以及短信传递收益,而163.NET的电子邮箱是收费的,原因是搜狐与163.NET盈利利润点选择策略是不一样的。 三、 是建立服务的竞争优势组成部分从而获得全面的系统利润,如任天堂的在线咨询游戏服务、售后服务网上投诉、微软的在线软件帮助、UPS全球快递的在线运输状态查询。 3) 改变传统意义上的企业与企业沟通的方式,主要分为两种,一是不同企业的沟通关系,这种沟通关系催生了阿里巴巴、美商网、环球资源的盈利模式,主要运营企业供应与采购之间的沟通关系,该类网络企业存在的价值就象插座集线器一样,提供联接供应链的两端的沟通平台,该类企业的成功取决于盈利战略执行效果,即围绕这种关系企业需要致力于构筑在产品目录数据库、全球品牌宣传、基于跨国采购的技术与经营咨询、帮助客户成功而不仅仅卖产品、价值链两端客户的培训、平台运营策略的各个环节的竞争优势,而这些环节是基于沟通关系的性质来决定的。第二种沟通关系是基于企业内部的沟通,这种沟通方式则催生了SAP、金碟、用友,思科网络、ORACLE的盈利模式,形成一个基于企业内部运营的庞大的网络联接体系,并逐渐开始外延至外部市场或供应链的整合,未来的盈利模式的机会我想会出现在企业内部沟通与企业外部的沟通的整合过程中。 传统电子商务充斥着B—TO-C、B-TO-B的标签符号称谓,人为的笼罩着令人生畏的商业背景词汇而令人难以接近,实际上,网络电子商务的本质就在于沟通的方式的改变,而沟通的关系其实一直存在的,沟通的关系一直存在于传统的经济中,当我们仅仅关注如何吸引眼球的魔力而忽略真正的盈利点在哪里时,“阳春白雪般体面的烧钱”无异于在兴奋的创造悲剧,当NASDAQ的股价跌到快要摘牌的时候,才开始反省早已存在自己身边的沟通关系原来是可以用网络的沟通方式来运营的,去现场体验吧,与兴奋的网络生存者一起生活几天比CEO们满头雾水的研究调研报告效果强,有时大量的调研报告无非在证明人果然有两只耳朵。电子商务的盈利战略必须要和传统经济寻求结合点,这种结合点意味着新的盈利利润点。新的网络经济因为沟通方式的变革而称为新的网络经济,而界定沟通的关系则要在传统的经济下实现,沟通的方式与关系的确定为需要构筑的竞争优势的环节提供总的战略指导方向。 沟通的类型决定了所采取的核心战略盈利模式,未来的竞争趋势驱动某些活跃的网络企业已经有迹象开始向其他的沟通象限移动,腾讯正在试图进入企业级的QQ即时沟通细分市场,而环球资源早已不仅仅是一个产品买卖中介平台,环球资源通过出版专业的信息加工分析期刊、传播先进的管理技术以及举办企业出口运营培训来进入其他沟通象限从而帮助客户成功而获得持续的价值,结果是把竞争对手远远的甩在后面。一些门户网站正在逐步整合优化其旗下的子品牌频道组合而进入不同的沟通象限而获得全面的盈利增长,网易试图在网络在线游戏子频道领域的沟通象限实现强有力的竞争优势,网易全面导入无线生活战略从而充分与移动终端进行业务、技术、客户、品牌的协同,透过彩信杂志进入杂志沟通细分领域、透过与全球MTV音乐电视台合作进入音乐沟通细分领域、透过126大容量免费邮箱争夺竞争对手的邮箱固定客户以拓展其他沟通盈利领域、透过精英招聘进入招聘细分沟通领域,SINA在网页广告发布的企业与个人沟通象限想获得竞争优势,SOHU在女性频道细分个人沟通象限独树一帜,而上述的所有的传统沟通细分领域都一直存在的,却正在逐渐地被网络沟通平台所整合。门户网站同时又在丧失一些阵地,YAHOO曾想征服EBEY、亚马逊的企业与个人、个人与个人基于商品交换的沟通领地,但最终以失败告终,在这个竞争又协同的过程中,当网络企业内部无法制造支持整体盈利策略的核心资源时,网站开始介入产业的整合来获取,并购的动机背后实际上是在整合渠道、技术、客户、品牌、资金甚至是国家政府政策牌照。在日益激烈的网络盈利模式竞争中,几乎所有的网络企业都想获得持续地盈利增长,在面对网络企业盈利战略的审视过程中,高级经理们依然存有很多困惑,有三条简单的原则是高层决策层有必要引起高度重视的: 1、 首先最重要的是莫过于制定一个清晰的基于沟通象限组合的业务发展战略,确定企业的核心盈利利润点究竟在哪里,CEO们要清晰的了解支撑网络核心盈利支持的驱动因素,研究是来自政策以及外部环境,还是来自客户忠诚度。与竞争对手相比,企业的业绩核心驱动因素壁垒高不高,能否持续获得增长。当很多网络平台也有资格发送短信时,说明该领域的竞争壁垒在下降,而假如大部分的收入又来自于该业务时,也就到了CEO要重新审视战略的时候。如果企业盈利的驱动因素仅仅是环境或政策所带来的红利,这种状态就好比搭顺风车,然而很遗憾车永远不是你的。 2、 确定支撑网络持续盈利的主要驱动因素,分析未来的发展趋势,研究政策法律的发展趋势、客户的偏好变化以及竞争格局的变化,提前整合资源以培植新的核心支撑因素来获得未来的业绩持续增长,当所有的沟通关系都只在移动终端上实现时候,则意味着沟通的平台以及沟通的方式将发生重大的变革,也就到了CEO要重新审视战略的时候。当移动终端出现了彩屏化,技术的革新使得客户的沟通偏好(如“个人对企业”沟通关系产业杂志)在移动终端实现成为可能,就要尽快进入该细分沟通领域以获得消费群的心智模式品牌第一的位置,最终获得该领域竞争格局的优势。要避免“青蛙煮水”悲剧就要关注环境的变化,现在只是未来的过去,如今流行的网络沟通平台在未来都将被看成是传统的沟通方式。 3、 确定基于沟通的关系的网络化的沟通方式,审视有必要增强的特定环节的竞争优势是否有利于增强沟通关系导向的客户价值,我们应该继续增强哪些战略性的竞争环节或哪些应该是我们应该停止资源投入而放弃的,审视我们的核心竞争力是否足以支持特定环节的竞争优势的建立,继而进行内部培植规划或外部整合收购的运营计划以支持战略的实现。 仅供参考,请自借鉴 希望对您有帮助
这种问题你就直接打客服电话多方便, 服务时间:9:00-18:00 (周一 ~ 周五)
1,阿里巴巴本身就是个例子: 阿里巴巴是全球B2B电子商务的著名品牌,是目前全球最大的商务交流社区和网上交易市场。他曾两次被哈佛大学商学院选为MBA案例,在美国学术界掀起研究热潮,两次被美国权威财经杂志《福布斯》选为全球最佳B2B站点之一,多次被相关机构评全球最受欢迎的B2B网站、中国商务类优秀网站、中国百家优秀网站、中国最佳贸易网,被国内外媒体、硅谷和国外风险投资家誉为与Yahoo, Amazon, eBay,AOL比肩的五大互联网商务流派代表之一。其创始人、首席执行官马云也被著名的"世界经济论坛"选为"未来领袖"、被美国亚洲商业协会选为"商业领袖",并曾多次应邀为全球著名高等学府麻省理工学院、沃顿商学院、哈佛大学讲学,是50年来第一位成为《福布斯》封面人物的中国企业家。 也许是取决于“良好的定位,稳固的结构,优秀的服务”,阿里巴巴如今巳成为全球首家拥有210万商人的电子商务网站,成为全球商人网络推广的首选网站,被商人们评为"最受欢迎的B2B网站",杰出的成绩使阿里巴巴受到各界人士的关注。WTO首任总干事萨瑟兰出任阿里巴巴顾问,美国商务部、日本经济产业省、欧洲中小企业联合会等政府和民间机构均向本地企业推荐阿里巴巴。 "倾听客户的声音,满足客户的需求"也许是阿里巴巴生存与发展的根基,根据相关的调查显示:阿里巴巴的网上会员近五成是通过口碑相传得知阿里巴巴并使用阿里巴巴;各行业会员通过阿里巴巴商务平台双方达成合作者占总会员比率近五成。 在产品与服务方面,阿里巴巴公司为中国优秀的出口型生产企业提供在全球市场的"中国供应商"专业推广服务。中国供应商是依托世界级的网上贸易社区,顺应国际采购商网上商务运作的趋势,推荐中国优秀的出口商品供应商,获取更多更有价值的国际订单。截至2003年5月底加盟企业达到近3000家。目前已经有70%的被推荐企业已在网上成交,众多类别市场名额已满。2002年3月开始为全球注册会员提供进入诚信商务社区的通行证-"诚信通"服务。阿里巴巴积极倡导诚信电子商务,与邓白氏、ACP、华夏、新华信等国际国内著名的企业资信调查机构合作推出电子商务信用服务,帮助企业建立网上诚信档案,通过认证、评价、记录、检索、反馈等信用体系,提高网上交易的效率和成功的机会。每月赢收以双位数增长。 阿里巴巴以50万元人民币创业资本起步,吸纳了国际资本2500万美元,经过3年的发展,于2001年底实现当月盈利,2002年实现每月收入双位数的增长,实现全年盈利,从而保证对客户的持久服务能力。 下面是对阿里巴巴公司商业的模式进行分析。 阿里巴巴的营运模式是遵循一个循序渐进的过程。首先抓住基础的,然后在实施过程中不断捕捉新出现的收入机会。从最基础的替企业架设站点,到随之而来的网站推广,以及对在线贸易资信的辅助服务,交易本身的订单管理,不断延伸。出色赢利模式符合:赢利的强有力,可持续,可拓展。 1、架设企业站点 很少有企业把它理解为是一项重要的业务,理由在于这是一个高度离散的行业。你可以很从容的获得一个或者几个制作企业站点的机会,但不等于能够获得很多。这里存在收入收集上的困难。有一些公司主营这项业务,它们往往将业务定格在高端客户。阿里巴巴是一个很大的商业社区站点,这就是说它有与许多潜在顾客频繁接触的机会。更重要的是它能顺利的把潜在机会转化为现实收入。阿里巴巴的目标受众每年都要参加许多类似广交会之类的展销会议,这时候阿里巴巴的工作人员就出现了,有一些低成本的推广活动。线上与线下的营业推广相结合,实践证明能有效的收集商业机会。中小企业存在很大的伸缩性,这是说业务流程和业务规模都在迅速的发生变化。有时候它或许会找邻居帮助设计一个主页,这在当时可能已经足够了,但是很快它就有了更高的需求,这就超过了邻居的能力。阿里巴巴则有能力提供从低端到高端所有的站点解决方案。它能在企业的成长过程中获得全部收益。更大的优势在于制作商品交易市场型的站点。阿里巴巴只是替商品交易市场做一个外观主页,然后将其链接在自己的分类目录下。交易市场有了一个站点,实际上这和阿里巴巴的站点是同一个站点,这就提高了被检索的机会。网页设计毕竟是一项倾向于劳动密集型的业务。网站设计其实和开发应用程序没有什么不同,这是说存在国际转包的内在需求,这和印度班加罗尔的故事相同。这也解释阿里巴巴为什么把它的人手更多集中在劳动力成本相对低廉的杭州。国际转包的实现除了需要品牌,还要有对应的机构设置。无疑,阿里巴巴一直就是往这一方向走。 2、站点推广 对于网站的媒体定为一直十分模糊,它应当是广播式的,还是特定用户检索式的?其他从事于企业站点设计的公司存在一个很大的问题,没有对应的推广能力。而网站设计一旦完成,推广是自然需求。网站实际上是另一种媒体,广告收入对大多数网站都很重要。无论一些针对企业的服务是否被称之为广告。广播式的模式容易让人理解,但是逻辑上我们更倾向于检索式的。原因很简单,网站首页的空间是有限的,换句话说注意力本身是一种稀缺资源。一些站点的合适位置已经充满了形式各异的广告,我们忍不住困惑,增长的潜力在那里?如果我们定义为检索式的,这同时就表明了有几乎无限可供销售的广告位置。这好像就是最初网站在股市受到追捧的原因。跟大多数人的认识相反,中小企业存在很强烈的营销愿望。这一愿望没有更多转化为现实的理由是:首先通常营销的费用超过了中小企业可承受的范围。其次以前并不存在相应很好的方式。在阿里巴巴今天的收入中,站点推广的收入占了一半还多。“中国供应商”和“网上有名”。 “中国供应商”面对的是出口型的企业,“网上有名”则针对内销或工厂的出口主要以买断形式进行的那一种。其中的价格依据是,如果某家企业愿意以3万人民币的价格租赁两周的广交会展销摊位,那么它为似乎也会愿意以同样的价格购置一年的在线展销时段。今年这一价格已经上升到4万。对于一个新生事物,某种意义上阿里巴巴要证明服务的有效性。阿里巴巴有一个系统服务的思维。除了在网站上的页面设置,还可以通过“商情快递”邮件杂志,检索上的优先派序。至少它能证明付费的顾客要比免费的客户有更多的机会。有人愿意以6万人民币的价格,以便获得更多的服务内容。 3、诚信通 网络可能是虚拟的,但贸易本身必须是真实的。信用分析是企业的日常工作。这很好解释,网友们在拍卖网站上的交易并不是每一次都那么如意。易趣的统计表明在同通过身份认证但只有少数交易经历的所谓一星级顾客交易中,有6%最终受到了投诉。都一样,企业间交易存在相似的压力,所不同的是企业对此有更高的敏感性。在线贸易一方面体现了采购行为更充份的竞争性,另一方面企业对网络信息本身充满了质疑。“诚信通”作为一项服务不难理解。可以在“诚信通”上出示第三方对其的评估,企业在阿里巴巴的交易记录也有据可循。问题是这项服务本身是否会非常成功。阿里巴巴显然是希望所有的注册会员都使用这项付费的服务,最起码新注册的用户是如此。这个问题的确非常有趣。如果这一预想符合了现实,大多数的企业都购买了“诚信通”,那么意味剩下少数也会购买,即便不购买也不再重要。每个“诚信通”的价格都很便宜,但对网站而言几乎不存在成本。这就是说阿里巴巴的运营业绩将会非常的成功。另一种可能是只有少数企业购买了,这就存在用户流失的问题。类似于阿里巴巴模式的网站今天多如牛毛。阿里巴巴的认识是,首先他们在前期的努力已经吸纳了国际贸易中最活跃的顾客群。另一方面在线交易本身必须实现其严肃性。“如果某一商人在支付最基本的费用上都存在问题,那么他根本就没有资格从事生意本身。”我想这一逻辑应该被认为是正确的。 4、贸易通 贸易通是阿里巴巴网站新推出的一项服务,它的功能主要有以下几项:和百万商人安全、可靠地进行即时在线沟通、互动;结识、管理自己的商业伙伴,开展一对一的在线营销;强大的商务搜索引擎,搜尽天下商机;"服务热线"为诚信通会员即时解答网络贸易疑问,方便享受高质量的在线客户服务。其界面有点类似于常用的聊天工具QQ,非常友好且使用简单。不过,有关“贸易通”的收费一直没有行动起来,但这却是最初也是最重要的愿望。阿里巴巴的定义是从企业的每一次日常交易中抽取佣金,这在前期被舆论认为是不可能的,原因在于B2B贸易存在重复交易,企业通常不会一次就更换一家供应商。这样企业很容易绕开任何中介。这又是一个没有思维,就迅速下判断的例子。当然并不是这样的。“贸易通”可以理解为是一种订单管理软件。我想很多IT评论人都忽略了阿里巴巴这一项服务,实际上它对阿里巴巴未来的潜在影响最大,绝对不能看成电子邮件的豪华版。这里有一个观念上的不同,产品重要的是需求,而不是技术表述。“贸易通”则解决了这所有的问题。而且操作中存在很强的可行性,可以通过短消息捆绑按次计费。这一服务所面临的价格敏感性很小,而且存在一个很大的数量。“贸易通”则延伸了企业软件托管的思路。2, 阿里巴巴电子商务网站Linux应用案例 解决之道阿里巴巴在2003年年初开始启动是数据库升迁项目。3月底引进基于Linux平台的Oracle9i集群数据库(Oracle9iRAC),4月初开始安装,到4月底便成功上线。新的数据库集群是以Dell 6650为硬件服务器、存储服务器采用Dell/EMC CX200存储阵列、以Red Hat Linux Advanced Server 2.1为操作系统、数据库采用Oracle9i集群数据库,采用三层架构,部署两个节点的集群系统。在从原有系统向新系统迁移数据时,按数据的不同特征进行,不仅能够快速迁移数据,并且大大减少了由于系统迁移而可能造成的停机时间。阿里巴巴数据库项目主管鲁国良先生说:“我们原有系统采用的数据库也是Oracle数据库,只不过它是基于Linux的单机数据库,因此,在数据迁移过程中,几乎没有遇到大问题。由于Oracle9iRAC在节点间信息交换的性能有了很大的改进,使得我们在从原来的单机系统升级到集群系统时,几乎不需要更改应用,新系统得到快速部署,一个月之内就能够上线。”应用效益鲁先生说:“通过采用2个节点的集群系统,我们能够很好地避免在升级Linux系统时可能出现的停机现象。Linux仍在迅速发展之中,其内核技术更新快,为了及时获得Linux更先进的功能,我们需要及时升级Linux内核技术。由于Exodus中的数据库集群采用的是2个节点的集群系统,我们可以先对集群中的一个节点升级其Linux内核,然后再升级另一个节点,在此过程中,系统完全能够正常运行。借助基于Linux的Oracle9i集群数据库(Oracle9iRAC)的强大功能,系统的管理工作变得简单得多,并且能够有效弥补Linux操作系统的一些不足,在降低应用成本的同时,获得强大的性能。”在性能与成本之间获得很好的平衡,全面满足网站的应用需求。采用基于Linux的Oracle9i集群数据库(Oracle9iRAC)作为Exodus的数据库平台,阿里巴巴既能够充分利用Linux平台的低成本优势,同时能够获得Oracle9i数据库强大的性能优势,获得对网站发展至关重要的系统性能、安全性、可靠性和可扩展性。性能提高60%。以基于Linux的Oracle9i集群数据库为动力的“Exodus”投入使用后,成功地把阿里巴巴网站性能提高了60%。系统在投入使用后不久,中国部分地区遭受“非典”袭击,为了尽可能避免相互接触,企业纷纷转向网上交易,作为中国最主要的商业网站之一,阿里巴巴成为广大企业进行交易的平台,日交易从“非典”前的4千~5千笔迅速攀升到6月初的9千~1万2千笔。“Exodus”的及时投入使用,为阿里巴巴从容应对快速增长的交易量提供了强大的动力,帮助阿里巴巴及时把握住新的发展机遇。系统管理简单化。借助Oracle9iRAC先进的Data Guard技术,阿里巴巴能够简化数据库的管理工作。Oracle9i Data Guard能够维护关键数据的实时拷贝,从而能够防止由于各种原因引起的数据丢失。工作区之间强大的转接和转回能力,使得硬件和操作系统的维护更为容易,同时又降低了宕机时间。比如,在过去,当主数据库和备用数据库的网络出现异常时,往往需要采用手工方式复制Archive Log,并应用到备用系统,工作量相当大,现在,这些工作都能够自动完成。大大减少宕机时间。借助基于Linux的Oracle9i集群数据库(Oracle9iRAC)的高可用性,阿里巴巴无论是升级Linux内核还是升级应用,都不需要关闭系统,有效减少了计划内停机时间。同时,集群系统中两个节点互为备份,大幅度减少了意外停机的时间。减少测试环境和实际应用环境的差异,提高系统部署的效率。现在,Linux已成为成长型企业的首选应用开发和测试平台,比如在Linux系统上运行开发数据库,而在其它系统上运行产品数据库,结果是在开发、测试、产品应用平台之间存在着差异。这种差异往往会影响到系统部署时的投入。阿里巴巴通过采用基于Linux的Oracle9i集群数据库(Oracle9iRAC)作为产品数据库,有效地缩小了这些差异,使很多测试工作变得真正有意义,直接用于产品应用平台,从而提高系统的部署效率。为什么选择ORACLE在谈及选择基于Linux的Oracle9i集群数据库的原因时,鲁先生说:“Oracle9i集群数据库在性能、安全性、24x7高可用性、稳定性方面都很好地满足了我们的应用需求,特别是它强大的易扩展性,尤其适合阿里巴巴快速发展的特点。另一方面,Oracle公司对Linux的积极态度和支持力度以及在Linux平台上不断实现的性能突破,坚定了我们采用Linux的信心,使我们既能够满足电子商务网站对性能和安全性的高要求,同时也能够很好地解决了成本控制的问题,这对我们成长型企业来说至关重要。基于Linux的Oracle9i集群数据库使我们能够以较低的成本在Linux平台上获得企业级的性能、可靠性和可扩展性,在Linux平台上运行网站的关键应用系统。其强大的集群能力,使我们能够在以后交易量上升到一定程度需要增加系统容量时,只需简单地增加节点,完全不需要更改应用,我们获得了一个真正按需部署的系统。”未来计划我们将继续关注Oracle在Linux方面的合作以及技术的发展。随着阿里巴巴业务的不断发展,我们将充分利用“Exodus”系统成功应用基于Linux的Oracle9i集群数据库的经验,改善其它应用系统,逐步把这些系统迁移到Oracle平台上。
2017年 10 月 11 日,阿里巴巴达摩院正式成立,马云的一句 “ 活得要比阿里巴巴长”,让外界对它的未来发展,有了更 “意味深长” 的期待。
在近三年多的时间里,达摩院在人工智能学术科研与应用上齐头并进,无论在国际学术顶会以及各类竞赛上,还是在推动学术成果的商业化落地上,都交出了亮眼的成绩单,这也反过来吸引着人工智能领域的顶尖研究者们都汇聚于此。
对于这些顶尖研究者们目前正在开展的研究工作,想必大家都充满了探知欲!
7月9日(晚)19:30-21:00 ,AI科技评论就将联合阿里达摩院,外加阿里集团在学术科研上同样“坚挺”的存在——阿里安全,给大家呈上一场 “ACL 2020 系列论文解读·阿里巴巴专场” 直播!
届时,来自阿里达摩院机器智能技术团队和阿里安全安全智能团队的 6 位高级算法专家、算法工程师以及研究型实习生们,将分别聚焦于多任务学习、少样本文本分类、 任务型对话、神经机器翻译、知识蒸馏、跨域分词标注等NLP 细分领域,为大家带来一场论文解读盛宴!
本次分享的嘉宾具体都有谁呢?下面一一揭晓:****分享主题: SpanMlt:一种基于跨度的用于属性词和观点词配对抽取的多任务学习框架 ****分享嘉宾:黄龙涛
分享内容:
属性词和观点词抽取,是细粒度的基于属性的情感分析(ABSA)的两个关键问题。属性-观点词对( aspect-opinion pairs)可以为消费者和观点挖掘系统提供相关产品或服务的全局配置文件。但是,传统方法无法在没有给定属性词和观点词的情况下,直接输出属性-观点词对。尽管研究者最近提出了一些共提取方法来联合提取属性词和观点词,但是并不能配对抽取两者。为此,本文提出了一种端到端方法来解决属性词和观点词的配对抽取(PAOTE)任务。此外,本文从联合词和关系抽取的角度而非此前大多数工作中执行的序列标注方法的角度,来处理该问题。我们提出了一个基于共享跨度的多任务学习框架,其中在跨度边界的监督下提取词。同时,使用跨度表示法来联合识别配对关系。大量实验表明,我们的模型始终优于 SOTA 方法。
分享内容:
现有的工作往往使用元学习(meta learning)的方法,通过在一系列meta-task中切换来获得少样本学习的能力,但是在task间的切换会带来遗忘的问题,因此考虑使用记忆机制来辅助meta learning的训练。在本工作中,我们将监督学习得到的分类参数作为meta learning的全局记忆,并提出了动态记忆路由算法,基于dynamic routing的方式将全局记忆信息融入到meta task的训练和预测阶段。此外,动态记忆路由算法还可以使用query信息来增强归纳类别表示的能力,对口语场景下的语言多样性表达有更好的泛化性能。在中英文场景少样本分类任务数据集上,均取得了STOA的结果。
分享主题:多领域对话动作和回复联合生成****分享嘉宾:田俊峰
分享内容: 在任务型对话中,产生流畅且信息丰富的回复至关重要。现有pipeline方法通常先预测多个对话动作,然后使用它们的全局表示来辅助回复生成。这种方法有两个缺陷:第一,在预测对话动作时,多领域的固有结构被忽略了;其次,在生成回复时没有考虑到对话动作和回复之间的语义联系。为了解决这些问题,我们提出了一种同时生成对话动作和回复的神经联合生成模型。与以往的方法不同,我们的对话动作生成模块可以保留多领域对话动作的层次结构,同时我们的回复生成模块可以动态地关注到相关的对话动作。在训练时,我们采用不确定性损失函数来自适应地调整两个任务的权重。在大规模MultiWOZ数据集上进行了评估,实验结果表明,我们的模型在自动评估和人工评估上都比SOTA模型有很好的提升。****分享主题:神经机器翻译的多尺度协同深度模型******分享嘉宾:魏相鹏**
近年来,神经机器翻译(NMT)方法凭借其出色的翻译性能在大量应用场景中取代了基于统计的机器翻译方法。目前,制约NMT模型性能的因素主要包括模型的特征表达能力和数据规模。因此,我们提出一种基于多尺度协作(MSC)机制的深度神经机器翻译模型,以提高模型对底层(具象化)和高层(抽象化)特征的建模能力。
实验证明,(1) 多尺度协作机制有助于构建极深的NMT模型的同时带来性能上的提升,(2) 基于MSC机制的深度NMT模型能够更好地翻译语义结构复杂的自然语言句子。
****分享主题:多语种序列标注的结构级知识蒸馏******分享嘉宾:王新宇**
多语言序列标注是一项使用单一统一模型预测多语言标签序列的任务。与依赖于多个单语模型相比,使用多语言模型具有模型规模小、在线服务容易和对低资源语言通用的优点。然而,由于模型容量的限制,目前的多语种模型仍然远远低于单独的单语模型。本文提出将多个单语言模型(teachers)的结构知识提取到统一的多语言模型(student)中,以缩小单语言模型与统一的多语言模型之间的差距。我们提出了两种基于结构层次信息的知识挖掘方法:
****分享主题:跨域中文分词的远程标注与对抗耦合训练******分享嘉宾:丁宁**
完全监督神经方法在中文分词(CWS)的任务上取得了重大进展。但是,如果由于域间的分布差异和集外词(OOV)问题导致域迁移,则监督模型的性能始终一直大幅下降。为了实时缓解此问题,本文将跨域中文分词的远程标注和对抗性训练直观地结合在一起。
7月9日,6位来自阿里的分享嘉宾,与大家不见不散!
ACL 2020原定于2020年7月5日至10日在美国华盛顿西雅图举行,因新冠肺炎疫情改为线上会议。为促进学术交流,方便国内师生提早了解自然语言处理(NLP)前沿研究,AI 科技评论将推出「ACL 实验室系列论文解读」内容,同时欢迎更多实验室参与分享,敬请期待!
论文: 论文题目:《Search-based User Interest Modeling with Lifelong Sequential Behavior Data for Click-Through Rate Prediction》 地址: 这是阿里妈妈发表在2020SIGIR上面的又一篇佳作,让我们来阅读一下这篇论文吧。 在CTR/CVR预估领域中,用户历史行为对CTR/CVR预估的建模是很有指导意义的,用户的历史行为序列中潜藏着用户丰富的”兴趣点“,用户的每一次行为都是某个方面兴趣的一种反应。比如我喜欢各种口红产品、喜欢洗面奶、但是又对某个牌子不是特别感兴趣,基于这些兴趣的驱动,我可能浏览、点击过很多相关领域的内容或商品,那这些历史行为是否对我未来行为的预测有帮助呢,答案是肯定的。正是基于上述这种主观的行为模式,我们才需要对用户的历史行为进行建模,用户行为队列越长,包含的用户兴趣也就越丰富,但是同样也会带来更大的挑战,其实用户的兴趣是发散的多元的,如何从发散多元的用户兴趣中找到真正对当前任务有帮助的兴趣是十分重要的。 在介绍这篇论文之前建议先去看一下阿里的另一篇论文MIMN,也是基于用户长序列进行CTR预估的论文,但是MIMN存在着几个问题,一个是因为,当用户行为序列的长度进一步增加(例如,增加10倍或比十倍更多)时,MIMN无法精确捕获给定特定候选项的用户兴趣。另一个是因为,MIMN不能很好的解决延时和存储这两个瓶颈上的棘手问题,也就是说部署到线上到时候如何才能做到延时跟其他轻量模型相近。 在淘宝中,用户的浏览序列长度可能达到上千甚至上万个,怎么高效且有效的利用这种长序列信息呢?阿里妈妈提出了SIM模型来进一步从用户丰富的长期历史行为队列中挖掘用户有价值的兴趣点,并且提供一种长行为序列线上服务化的可行性方案,接下来就来看看这篇论文吧。 模型总览: SIM分为两个阶段,这两个阶段都有自己的核心部分,文章中将长序列用户行为特征的建模分为了两个模块,即Genral Search Unit(GSU)和Exact Search Unit(ESU),这两部分就是两个阶段的核心模块了。先简单的介绍下这两个模块的作用吧。GSU如图所示,简单理解就是从几百上千的用户长序列中挑选出TopK个跟候选Item最相似的K个Item,类比与推荐系统中的召回模块,先降低长序列物品的长度,在进行后续任务。另一个是ESU,这个模块的作用是对刚刚GSU抽取出来对K个物品进行序列建模,得到一个能代表用户长序列兴趣对向量,并利用这个向量进行后面对排序。 GSU的主要任务是从长度为T的序列中抽取出K个跟候选item相似的item,GSU有两种方式来选取TopK个物品,分别是hard-search 和soft-search。前面也提到了GSU类比于推荐系统中的召回阶段,而在多路召回中,一般也有基于Embedding的召回和基于策略规则的召回,其中hard-search就是基于规则的召回,soft-search就是基于Embedding的召回,下面来详细讲一下这两种方法。 这种方法比较直观而且实施起来比较简单,就是我们从候选行为序列中按照给定规则筛选出与当前目标任务相关的候选集,举个例子,我在淘宝上历史浏览过很不同种类的商品(比如电子产品、口红、男鞋等等),当候选广告是iphone12时,hard-search方法会从我历史行为队列中筛选出电子产品相关的行为进行建模,用于PCTR预估,而口红、男鞋大概率就不会对这次预估产生影响,通过上面这个例子大家应该能明白这种基于规则和策略的思路。论文中指出hard-search方法使用的是商品类别作为筛选的标准。 这种方法是基于Embedding的抽取方式,从上面的模型图的左侧可以看到整个soft-search的结构。这个部分也是一个子模型,模型的输入是候选Item和长序列,目标是CTR预估,用这种方式来学习候选Item和长序列Item的embedding信息。有了Embedding后,就可以将候选广告embedding和历史行为中的embedding算一个内积相似度,利用近似最近邻检索方法(论文中用的是ALSH)来得到topK相关的候选行为序列。 在这个子model中,DNN的输入是候选item 和Ur的concat,其中Ur:注意,如果用户行为增长到一定程度,则不可能将整个用户行为直接输入模型。 在这种情况下,可以从长序列用户行为中随机采样子序列集,这些行为仍需遵循原始序列的相同分布。 这种方法的缺点就是计算开销比较大,不如基于规则的hard-search方便,优点就是效果应该会更好一些。但是论文中也提到了两种方法在效果上的差异不是特别的大,所以最后基于性能和效果的折中,采用了hard-search这种比较简单的方式。 从模型整体上来看,这部分主要是利用从GSU抽取出来的K个Item得到一个能代表用户长期兴趣的向量,并配合其他特征送的DNN里面做整体的CTR预估任务。 论文中对这K个来自GSU对item是用self-attention进行序列建模的: 其中 为: concat中第一个是原始的embedding,第二个是关于时间的embedding。 根据self-attention的方式,我们又得到了一个向量h(K)。 这里,第二个子model也进行了ctr预估,特征是模型图上面画出来 input,还有个dien,dien前面的文章以及介绍过了,就不再赘述。 最后的loss是: 其中α和β是控制损耗权重的超参数。 在我们的实验中,如果GSU使用软搜索模型,则将α和β都设置为1。具有硬搜索模型的GSU是非参数的,并且α设置为0。 广告推荐系统对线上的计算耗时要求还是比较严格的,因为要保证用户最基本的用户体验。随着用户行为序列的进一步增长,采用传统的方式直接对长序列用户行为进行计算耗时和内存占用会增长的特别快,所以需要有针对性的对线上系统进行一定的升级和改造。文章提到在hard-search和soft-search的选择中,是基于大量的离线实验结果最终决定采用hard-search这种方便快捷有效的方式,同时信息损失也在可以接受的范围内。 一般的线上部署的系统架构图是这样: 为了让SIM能更好的给用户带来低延时的体验,阿里构建了SIM的Online Seving结构: 可以看到对于用户的行为序列,论文采用的是对每个用户采用的是两层索引的结构:key-key-value,第一个key是user_id,第二个key是category ids,value是用户行为序列中属于对应类别的item。用这种方式可以很快的通过这个索引树找到属于统一category的物品。线上A/B Test实验效果: 用户的历史行为对于整个CTR/CVR预估任务越来越重要了,如果不考虑时间和存储,那么把所有的序列输入到模型中作为长期兴趣关键点是可以精确的定位出用户的长期兴趣的,但是由于性能的原因就不得不考虑用特殊的方法对这个长序列进行一次筛选,筛选的K个物品都是跟候选Item相似的物品,能做到裁剪的效果还不会带来CTR预估的损失。在进行筛选过程中还分为了两种方法,但是为了部署到线上,就要考虑性能最好的hard-search方式进行TopK筛选任务,这种方式跟Embedding筛选的效果是差不多的,但是速度比Embedding快,所以采用这种方式。 未来应该还会有更多针对序列推荐的论文,单纯的对长序列阶段还带来一定的兴趣偏差,所以如何有效挖掘用户更丰富行为特征背后的商业价值是需要好好思考的。
企业员工发表论文对企业好处太多了。可以为企业增光添彩,树立形象,加大对企业的宣传力度。
你认为有价值就去做还有就是记住做人出发点出发点对就坚持对大家都有益的坚持去做相信会得到支持
论文: 论文题目:《Search-based User Interest Modeling with Lifelong Sequential Behavior Data for Click-Through Rate Prediction》 地址: 这是阿里妈妈发表在2020SIGIR上面的又一篇佳作,让我们来阅读一下这篇论文吧。 在CTR/CVR预估领域中,用户历史行为对CTR/CVR预估的建模是很有指导意义的,用户的历史行为序列中潜藏着用户丰富的”兴趣点“,用户的每一次行为都是某个方面兴趣的一种反应。比如我喜欢各种口红产品、喜欢洗面奶、但是又对某个牌子不是特别感兴趣,基于这些兴趣的驱动,我可能浏览、点击过很多相关领域的内容或商品,那这些历史行为是否对我未来行为的预测有帮助呢,答案是肯定的。正是基于上述这种主观的行为模式,我们才需要对用户的历史行为进行建模,用户行为队列越长,包含的用户兴趣也就越丰富,但是同样也会带来更大的挑战,其实用户的兴趣是发散的多元的,如何从发散多元的用户兴趣中找到真正对当前任务有帮助的兴趣是十分重要的。 在介绍这篇论文之前建议先去看一下阿里的另一篇论文MIMN,也是基于用户长序列进行CTR预估的论文,但是MIMN存在着几个问题,一个是因为,当用户行为序列的长度进一步增加(例如,增加10倍或比十倍更多)时,MIMN无法精确捕获给定特定候选项的用户兴趣。另一个是因为,MIMN不能很好的解决延时和存储这两个瓶颈上的棘手问题,也就是说部署到线上到时候如何才能做到延时跟其他轻量模型相近。 在淘宝中,用户的浏览序列长度可能达到上千甚至上万个,怎么高效且有效的利用这种长序列信息呢?阿里妈妈提出了SIM模型来进一步从用户丰富的长期历史行为队列中挖掘用户有价值的兴趣点,并且提供一种长行为序列线上服务化的可行性方案,接下来就来看看这篇论文吧。 模型总览: SIM分为两个阶段,这两个阶段都有自己的核心部分,文章中将长序列用户行为特征的建模分为了两个模块,即Genral Search Unit(GSU)和Exact Search Unit(ESU),这两部分就是两个阶段的核心模块了。先简单的介绍下这两个模块的作用吧。GSU如图所示,简单理解就是从几百上千的用户长序列中挑选出TopK个跟候选Item最相似的K个Item,类比与推荐系统中的召回模块,先降低长序列物品的长度,在进行后续任务。另一个是ESU,这个模块的作用是对刚刚GSU抽取出来对K个物品进行序列建模,得到一个能代表用户长序列兴趣对向量,并利用这个向量进行后面对排序。 GSU的主要任务是从长度为T的序列中抽取出K个跟候选item相似的item,GSU有两种方式来选取TopK个物品,分别是hard-search 和soft-search。前面也提到了GSU类比于推荐系统中的召回阶段,而在多路召回中,一般也有基于Embedding的召回和基于策略规则的召回,其中hard-search就是基于规则的召回,soft-search就是基于Embedding的召回,下面来详细讲一下这两种方法。 这种方法比较直观而且实施起来比较简单,就是我们从候选行为序列中按照给定规则筛选出与当前目标任务相关的候选集,举个例子,我在淘宝上历史浏览过很不同种类的商品(比如电子产品、口红、男鞋等等),当候选广告是iphone12时,hard-search方法会从我历史行为队列中筛选出电子产品相关的行为进行建模,用于PCTR预估,而口红、男鞋大概率就不会对这次预估产生影响,通过上面这个例子大家应该能明白这种基于规则和策略的思路。论文中指出hard-search方法使用的是商品类别作为筛选的标准。 这种方法是基于Embedding的抽取方式,从上面的模型图的左侧可以看到整个soft-search的结构。这个部分也是一个子模型,模型的输入是候选Item和长序列,目标是CTR预估,用这种方式来学习候选Item和长序列Item的embedding信息。有了Embedding后,就可以将候选广告embedding和历史行为中的embedding算一个内积相似度,利用近似最近邻检索方法(论文中用的是ALSH)来得到topK相关的候选行为序列。 在这个子model中,DNN的输入是候选item 和Ur的concat,其中Ur:注意,如果用户行为增长到一定程度,则不可能将整个用户行为直接输入模型。 在这种情况下,可以从长序列用户行为中随机采样子序列集,这些行为仍需遵循原始序列的相同分布。 这种方法的缺点就是计算开销比较大,不如基于规则的hard-search方便,优点就是效果应该会更好一些。但是论文中也提到了两种方法在效果上的差异不是特别的大,所以最后基于性能和效果的折中,采用了hard-search这种比较简单的方式。 从模型整体上来看,这部分主要是利用从GSU抽取出来的K个Item得到一个能代表用户长期兴趣的向量,并配合其他特征送的DNN里面做整体的CTR预估任务。 论文中对这K个来自GSU对item是用self-attention进行序列建模的: 其中 为: concat中第一个是原始的embedding,第二个是关于时间的embedding。 根据self-attention的方式,我们又得到了一个向量h(K)。 这里,第二个子model也进行了ctr预估,特征是模型图上面画出来 input,还有个dien,dien前面的文章以及介绍过了,就不再赘述。 最后的loss是: 其中α和β是控制损耗权重的超参数。 在我们的实验中,如果GSU使用软搜索模型,则将α和β都设置为1。具有硬搜索模型的GSU是非参数的,并且α设置为0。 广告推荐系统对线上的计算耗时要求还是比较严格的,因为要保证用户最基本的用户体验。随着用户行为序列的进一步增长,采用传统的方式直接对长序列用户行为进行计算耗时和内存占用会增长的特别快,所以需要有针对性的对线上系统进行一定的升级和改造。文章提到在hard-search和soft-search的选择中,是基于大量的离线实验结果最终决定采用hard-search这种方便快捷有效的方式,同时信息损失也在可以接受的范围内。 一般的线上部署的系统架构图是这样: 为了让SIM能更好的给用户带来低延时的体验,阿里构建了SIM的Online Seving结构: 可以看到对于用户的行为序列,论文采用的是对每个用户采用的是两层索引的结构:key-key-value,第一个key是user_id,第二个key是category ids,value是用户行为序列中属于对应类别的item。用这种方式可以很快的通过这个索引树找到属于统一category的物品。线上A/B Test实验效果: 用户的历史行为对于整个CTR/CVR预估任务越来越重要了,如果不考虑时间和存储,那么把所有的序列输入到模型中作为长期兴趣关键点是可以精确的定位出用户的长期兴趣的,但是由于性能的原因就不得不考虑用特殊的方法对这个长序列进行一次筛选,筛选的K个物品都是跟候选Item相似的物品,能做到裁剪的效果还不会带来CTR预估的损失。在进行筛选过程中还分为了两种方法,但是为了部署到线上,就要考虑性能最好的hard-search方式进行TopK筛选任务,这种方式跟Embedding筛选的效果是差不多的,但是速度比Embedding快,所以采用这种方式。 未来应该还会有更多针对序列推荐的论文,单纯的对长序列阶段还带来一定的兴趣偏差,所以如何有效挖掘用户更丰富行为特征背后的商业价值是需要好好思考的。