该栏目主要是推送上财商学院教师国内外学术前沿动态、科研成果的信息平台。商学院以“双一流”学科建设为科研导向打造学院核心优势;商学院教师践行“厚德博学,经济匡时”的校训,不断提升科研实力和教学成果,在各自领域做出优秀的原创性科研成果,打造商学院财经特色品牌,为促进中国社会经济的发展提供理论支持。
编者按
本期推介成果为上财商学院谢天副教授及其合作者Steven F. Lehrer完成,2021年3月12日发表在《Management Science》的论文“The Bigger Picture: Combining Econometrics with Analytics Improves Forecasts of Movie Success”。
· 论文摘要 ·
使用机器学习结合社交媒体大数据来提高预测精度,在学术界和业界都有较高的关注度。为了评估该项技术的实用性,本文使用电影行业数据,将常规计量经济学方法与预测分析文献中的常见机器学习工具进行了详细的对比。在此基础上,我们还提出了一种全新的混合学习算法。该方法将常规计量经济学算法与机器学习算法相结合,进而可以更加精确地捕捉数据异质性,以达到提高预测精度的目的。我们的实证结果验证了社交媒体数据的重要性以及混合学习算法的价值。具体来说,虽然机器学习算法中的最小二乘支持向量回归和树类算法明显优于传统计量经济学方法,但我们提出的混合学习算法能够在其基础上进一步提高预测精度。此外,蒙特卡洛实验表明,我们提出的混合学习算法的相对优势主要建立在数据的异质性上。而无论社交媒体数据测度方法的迥异区别还是各种电影特征对票房的不同影响都会产生显著的异质性。
作者介绍 INTRODUCTION
谢天,曾获加拿大皇后大学博士学位。上海财经大学商学院世经国贸系副教授。主要研究方向为组合预测和模型平均,大数据分析等。主持和参与多项国家自然科学基金项目。研究成果在Management Science, Review of Economics and Statistics, Journal of Financial Econometrics等一流期刊发表。
BONUS SCENE
一个小彩蛋
Management Science编辑部以及我的合作者Steven F. Lehrer在推特上都有对本文做宣传。我私下里把他们发的Tweets以及所有回复的内容一起做了一个简单的字符分析,并把结果通过如下字图展示。字体越大说明提及频率越高。貌似在介绍本文的时候,人们较为看重数据处理,而且关心(机器)学习方法与计量经济学的全新结合。这较为直观地反映了目前我所在的研究(小)领域内,人们看重的关键点和可能的未来发展方向。一些表达情绪的关键词汇也被筛选出来。当然也没忘提及了下我的名字(右下角…好小…)。
我还用本文使用的情绪分析工具,研究了一下合作者所有相关Tweets的综合情绪。结果显示,和中性的0相比,Tweets情绪高达。说明Steve发推时的情绪高涨自豪。
01
引言
很多人推测,电影制片厂在不久的将来会认识到,决定一部电影成功与否的因素中,预测分析与制片人、导演和(或)电影明星一样重要。目前文献中,预测分析结合社交媒体大数据的做法比较流行,且主要用在电影行业的需求预测上。提高预测精度的意义重大,因为它们能够降低投资者对票房不确定性的顾虑从而增加资本投资;还可以帮助市场营销团队量身打造最有效的营销活动。
前人的研究中,如 Bollen, Mao 和 Zheng (2011), Goh, Heng 和 Lin (2013) 及 Lehrer 和 Xie (2017) 等,展示了社交媒体在不同预测情境下的重要性。然而,这些文献中都没有考虑目前流行的机器学习算法,如回归树,随机森林,提升方法和支持向量回归等。这些机器算法一般不会限制统计模型的具体结构,并且通过加入传统计量方法忽略的非线性预测量的交互项来提升预测精度。尽管这些算法在建模时有一定优势,通过递归分区构建超平面或者树形结构时,它们一般都要求在整个解释变量空间内,齐方差假设成立。
数据的异方差性可能来自于被忽略的参数异质性,会影响许多预测方法的预测能力。比如,异方差会改变支持向量的位置,还会改变数据分区的方式,从而影响回归树的结构等。本文提出了一种新的预测分析理念,与以往文献中的计量方法和机器学习算法都不同,为提升电影业预测精度提供了指导性帮助。因此,本文对以改善预测精度等实证表现为主的数据科学领域的发展也做出了一定贡献。改领域目前在经济学科和管理学科都受到了重视,著名文献包括但不限于:Vasilios, Thephilos 和 Periklis (2015) 检验了预测每日和每月汇率时,机器学习方法的精度;Wager 和 Athey (2018) 提出了随机森林的变形方法,估计随机效应;Ban, Karoui 和 Lim (2018) 用机器学习算法做投资组合优化,等等。
本文提出的混合策略,考虑了最小二乘支持向量回归和递归分区方法中数据的异方差性导致的异质性问题。为了说明这一点,用回归树预测时, 我们通常用一个局部常量模型,假设单个终端叶片间结果同质。本文的混合方法允许模型有不确定性,并且在每个终端叶子分组中进行模型平均。因此,我们的混合方法考虑了每个叶子分组内,解释变量和被解释变量之间存在异质性的概率。最近的一篇文献,Pratola, Chipman, Geroge 和 Mc- Culloch (2020) 考虑在贝叶斯模型的框架之下,在现有机器学习文献中加入异方差。在支持向量回归方法中,我们也允许模型不确定性,对准则函数做出调整,使之建立在异方差误差项之上。本文通过模拟实验以及电影票房相关的实证例子阐述了,混合策略及递归分区方法或者最小二乘支持向量回归的具体应用环境,和相比较于Pratola, Chipman, Geroge 和 Mc- Culloch (2020)等方法的比较优势,进而感兴趣的使用者提供了指导。
本文还对其他实证方法对电影收入的预测精度做了检验。我们选择样本时并没有特定的标准依据,样本包括三年内北美所有在影院上映或售卖的电影。我们发现,该数据表现出很强的异方差性,追溯其原因很可能是来自不同分布的人群对不同类型电影的兴趣差异性。本文的实证结果首先为学者选择预测方法时的权衡提供了新的启示。样本容量较小时,我们发现最小二乘支持向量回归优于其他机器学习方法。总体来看,递归分区方法(包括回归树,引导聚合和随机森林)与计量方法相比,预测精度提升30%-40%,那些计量方法都采用了模型选择标准或模型平均方法。计量估计量和惩罚方法间接考虑了异方差数据,统计学习方法与这些方法相比,预测精度有很大的提升,进一步说明了线性参数计量模型的局限性。然而,这些线性模型目前仍然很受欢迎。如Manski (2004)所说:“统计学家取得进步的原因是把目标集中在易处理的估计量上,比如线性无偏或渐近正态的估计量。”
其次,本文的发现利用本文提出的混合策略,在允许模型不确定性存在时,预测精度约有10%的进一步提高。许多种类的机器学习算法的预测精度都有所提升:(i) 替代支持向量回归的核函数;(ii) 在树形结构(包括随机森林,引导聚合,M5’,最小二乘支持向量回归)下用超参数和局部目标函数来分割数据的算法等等。模拟实验能够帮助我们理解为什么实证分析中预测精度会出现大幅的提升。我们发现参数存在显著异质性导致数据异方差时, 本文的混合策略极为有效。参数异质性的原因可能是跳跃或门槛效应,或者是在潜在关系中忽视了参数的异质性。这种情况下,混合策略能在一定程度上解释叶片间结果的异质性。
最后,本文发现加入社交媒体数据,即使在异方差的数据环境下,仍然对提高预测精度有巨大的帮助。我们考虑了多种计量检验,都验证了社交媒体数据的重要性。我们提出的混合策略甚至可以对变量的重要性进行量化排序。计算结果说明,预测电影票房或单位销售收入时,最重要的10个变量中,有7个隶属于社交媒体数据。
接下来,我们将对本文采用的模拟实验结果以及实证分析进行具体的描述。
02
模拟实验结果对比
为了展示混合策略相较传统方法的优势,我们考虑以下非线性模型。其中,图1(a)(b) 两部分分别展示了训练数据的散点图和曲面图,数据生成过程如下:
yi = sin(X1i) + cos(X2i) + ei,
其中 X1i ∈ [1, 10], X2i ∈ [1, 10], ei是均值为0、方差为的高斯噪声。
图1 (c) -(f) 分别表示用 RT, MART, SVRLS,和 MASVRLS方法得到的训练数据的预测值 y.由于RT预测假设叶片间同质,图1(c) 中的曲面图与阶梯函数类似。相反,MART预测假设叶片间也是异质的,图1(d) 中的曲面图与基本数据中联合分布的变化更接近。图1(e) SVRLS 的预测图与 MART 类似,但褶皱更明显。而MASVRLS 方法预测的曲面图最为平缓,具体可参见图1(f).
图1(g)-(j) 分别展示了 RT, MART, SVRLS,和 MASVRLS算法的预测误差。通过比较这四个图形的高度,我们发现,MART 和 MASVRLS 方法得到的绝对误差值的分别小于RT和SVRLS 的一半。而且,整个 X1 和 X2 的区间内,(h) 和 (i) 高度都减半了。这验证了我们对于放松模型具体结构可以提高预测精度的假设,也说明了捕捉叶片或支持向量之间的参数异质性从而提高预测精度的重要性。
图1、混合策略与其他传统方法在模拟数据下的表现差异展示▼
03
实证研究
我们收集了2010年10月1日至2013年6月30日期间北美上映的所有电影的相关数据。在 IHS 电影咨询部门的帮助下,我们用一系列指标衡量每部电影的特征,包括电影类型,美国电影协会给出的电影内容评级(G, PG, PG13 和 R),除广告费用以外的预算,以及电影上映六周前电影制片厂预测的上映周数和上映影院数。在本文的分析中,我们主要用首映周末票房(n = 178) 和首映时 DVD 和蓝光光碟的总销量(n = 173) 考量一部电影的初始需求量。
为了从大量推特信息中 (平均每天亿条) 萃取出有用的关于“支付意愿”的信息,本文考虑两种衡量标准。第一,基于 Hannak 等人 (2012) 的算法,计算某一部电影的“情绪”。这种算法包括电影标题和关键词的文本分析:找出含有电影名称或关键词的推特,再计算作者发布的文字和图片中的情绪得分。与某一部电影有关的所有推特中,每个词语有不同的情绪得分,这部电影的情绪指数就是情绪得分的均值。第二,我们计算了每部电影有关的不加权的推特总数。在本文的分析中,我们分别考虑推特数量(volume)和推特情绪(sentiment),因为情绪能表现电影的质量,但数量可以展现人们对电影的兴趣(流量)。
为了检验在传统计量方法或机器学习方法中加入社交媒体数据的重要性,我们参照 Hansen 和 Racine (2012) 的做法,做了下述试验,以衡量包含不同协变量的模型中不同估计量的相对预测效率。我们比较的估计方法可以分为以下几类:(i) 传统计量方法;(ii) 模型筛选方法;(iii) 模型平均发 ;(iv) 机器学习方法;以及(v) 本文新提出的混合方法。该方法结合了计量工具和机器学习算法,能够更好地捕捉数据的异质性。
试验把原始数据 (样本量为 n ) 分成训练集 (nT ) 和评估集(nE = n −nT ).我们可以从训练集中得到每种方法的参数估计量,这些参数估计量接着被用来预测评价集的结果,从而可以计算均方误测方差 (MSFE) 和平均绝对预测误差 (MAFE),对每类预测方法做出评价。以最小二成法(OLS)为例,MSFE和MAFE的具体算法如下:
其中 (yE, xE) 是评价集,nE 是训练集中观测值的数量, βˆT 是基于训练集的对应模型的估计系数,ιE 是一个 nE × 1、元素都为1的向量。总的来说, 我们用不同大小的评估集 (nE = 10, 20, 30, 40) 重复进行了10,001次试验。
图2和图3分别是公开票房和单位销售额的预测误差试验的结果。图2和图3最上面的一幅图表示的是 MSFE 的中位数,最下面的一幅图表示的是MAFE 的中位数。每个小图中都有四条曲线,分别对应不同大小的评估集, 每个点代表对应评估集下,x轴上标出的估计量的预测结果。估计量一般按照预测精度的改善程度排序,除了本文新提出的混合策略的估计量在传统的机器学习方法估计量的附近。重新排列帮助我们直观地看到每一个混合方法中加入模型不确定性带来的边际收益。需要注意的一点是,RF 和MARF 后的数值代表随机抽取的用来决定每个节点处是否分裂的解释变量的个数。
本文提出的 MASVRLS 方法在每幅图的最右边,因为不管用 MSFE 还是 MAFE 衡量,MASVRLS 的预测结果都是最优的。紧靠着 MASVRLS 左边的是 SVRLS 方法,得到了次优的结果。加入模型平均使得 SVRLS 和 MASVRLS 的预测表现提升10%。即便如此,nE 取值很小时,试验考察的机器学习方法都绝对优于 HRCp,计量估计量和惩罚方法。统计学习文献中常用的方法,如引导聚合、随机森林方法也优于基准模型。而且,我们发现把模型平均加入到引导聚合方法后,大约有10%的收益,与向 SVRLS 方法加入模型不确定性后的收益相同。
图2、公开票房预测结果对比
图3、单位销售额预测结果对比
比较图2和图3的结果,我们发现混合策略中加入支持向量回归比树形回归能获得更大的收益,且公开票房的预测结果优于零售单位销售额的预测结果。然而,电影零售单位销售额的预测精度提高的百分点更大,因为电影零售单位销售额的样本容量更小。我们还发现,当我们使用更大的样本来预测DVD和蓝光光碟销售额时,HBART相较于树形回归的优越性更为明显。常规的随机森林方法和加入模型平均后的随机森林估计,在所有方法中表现平平。需要注意的是,当测试集nE 变大,所有方法的预测表现都会变差,这一结果也符合预期。
04
结论
电影行业充满不确定性。De Vany 和Walls (2004) 报告称,1984-1996年上映的2,000部电影中,只有22% 的电影盈利或不赚不赔。由于社交媒体能反映出一部电影上映前公众的兴趣,而且社交媒体还能够测度潜在观众对广告营销的反应,电影业对于用社交媒体数据做预测十分振奋。新的数据来源不仅能够提高潜在提升预测精度,还能运用递归分区方法或者为数据挖掘开发的SVR算法。运用电影业的数据,我们发现这些算法与维度缩减或传统计量方法相比,预测精度有了显著提高。
尽管机器学习方法提供了实际性的帮助,我们认为异方差数据可能会阻碍许多算法的预测表现。因此,我们提出了一种混合策略,即把模型平均应用到每个支持向量或叶片中。本文的实证研究说明,不管是哪种机器学习算法,运用混合策略后预测精度都有显著改善。而且,混合策略中加入支持向量回归比树形回归能获得更大的收益,且公开票房的预测结果优于零售单位销售额的预测结果。然而,电影零售单位销售额的预测精度提高的百分点更大,因为电影零售单位销售额的样本容量更小。另外,在传统计量方法、惩罚方法或模型筛选方法中加入异方差能够提高预测精度,本文的分析对这点提出了怀疑。
机器学习领域学者们面临的一大挑战是Wolpert 和Macready (1997) 提出的“无免费午餐”定理。这是一个不可能定理,即不可能存在一个全局最优策略。最优策略不但取决于样本容量和预测的目标变量,还取决于特定问题的结构,而分析者事前通常不知道问题的结构。然而,由于现实世界中数据的异方差性很普遍,在树类算法或最小二乘支持向量回归的基础之上,我们提出的混合学习算法具有重要意义,还能够与 Pratola, Chipman, Geroge 和 McCulloch (2020) 提出的 HBART 策略相互补充。
为了推动后续有关社交媒体对电影业盈利的影响的文献,我们可以考虑使用加总程度更低的推特数量和情绪得分作为解释变量。比如,我们可以测度推特不同子集的情绪,子集的分类标准可以是粉丝数量,人口特征, 或推特是否有正面(负面)导向,等等。通过把社交情绪分解成小部分,我们可以知道,推特中表达出的哪种类型的情绪与观看电影的决策相关。未来的研究方向是:理解混合学习算法的统计特征,开发出一个能够在一个有多个协变量的模型中捕捉到异方差来源的检验方法,以及为他人提供策略选择方面的建议。另外,我们还需要开发出一套评价预测模型的标准,评价标准不仅仅是估计量的偏差和效率,还应该考虑预测方法的计算复杂性,这些都将会对管理决策提供很大的帮助。
SUFE COB
责编 | 张宜杰 审编 | 谢天 沈梦雪