随机森林是一种集成算法(Ensemble Learning),它属于Bagging类型,通过组合多个弱分类器,最终结果通过投票或取均值,使得整体模型的结果具有较高的精确度和泛化性能。其可以取得不错成绩,主要归功于 "随机"和“森林” ,一个使它具有抗过拟合能力,一个使它更加精准。
Bagging 是一种在原始数据集上通过有放回抽样重新选出k个新数据集来训练分类器的集成技术。它使用训练出来的分类器的集合来对新样本进行分类,然后用多数投票或者对输出求均值的方法统计所有分类器的分类结果,结果最高的类别即为最终标签。此类算法可以有效降低bias,并能够降低variance。
【 自助法 】它通过自助法(bootstrap)重采样技术,从训练集里面采集固定个数的样本,但是每采集一个样本后,都将样本放回。也就是说,之前采集到的样本在放回后有可能继续被采集到。
【OOB】 在Bagging的每轮随机采样中,训练集中大约有36.5%的数据没有被采样集采集中。 对于这部分没有采集到的数据,我们常常称之为袋外数据(Out of Bag, 简称OOB) 。这些数据没有参与训练集模型的拟合,因此可以用来检测模型的泛化能力。
【随机性】 对于我们的Bagging算法,一般会对样本使用boostrap进行随机采集,每棵树采集相同的样本数量,一般小于原始样本量。这样得到的采样集每次的内容都不同 ,通过这样的自助法生成K个分类树组成随机森林,做到样本随机性 。
【输出】 Bagging的集合策略也比较简单,对于分类问题,通常使用简单投票法,得到最多票数的类别或者类别之一为最终的模型输出。对于回归问题,通常使用简单平均法,对T个弱学习器得到的回归结果进行算术平均得到的最终的模型输出。
【弱分类器】 首先,RF使用了CART决策树作为弱学习器。换句话说,其实我们只是将实验CART决策树作为弱学习器的Bagging方法称为随机森林。
【随机性】 同时,在生成每棵树的时候, 每个树选取的特征都不仅仅是随机选出的少数特征,一般默认取特征总数m的开方。 而一般的CART树则会选取全部的特征进行建模。因此 ,不但特征是随机的,也保证了特征随机性 。
【样本量】 相对于一般的Bagging算法,RF会选择采集和训练集样本数N一样个数的样本。、
【特点】 由于随机性,对于降低模型的方差很有作用,故随机森林一般不需要额外剪枝,即可以取得较好的泛化能力和抗拟合能力(Low Variance)。当然对于训练集的拟合程度就会差一点,也就是模型的偏倚会大一些(High Bias),仅仅是相对的。
在关于随机森林的原始论文中,显示随机森林错误率取决于两件事:
森林中任何两棵树之间的相关性。增加相关性会增加森林错误率。
森林中每棵树的力量(具有低错误率的树是强分类器)。增加单棵数据的强度(分类更精确)会降低森林错误率。
随机森林的弱分类器使用的是CART树,CART决策树又称为分类回归树。当数据集的因变量为连续型数值时,该树算法就是一个回归树,可以用叶节点观察的均值作为预测值;当数据集的因变量为离散型数值时,该树算算法就是一个分类树,可以很好地解决分类问题。但是需要注意的是,该算法是一个二叉树,即每一个叶节点只能引申出两个分支,所以当某个非叶节点是多水平(2个以上)的离散变量时,该变量就有可能被多次使用。同时,若某个非叶节点是连续变量时,决策树也将把他当做离散变量来处理(即在有限的可能值中做划分)。
特征选择目前比较流行的方法是信息增益、增益率、基尼系数和卡方检验。这里主要介绍基于基尼系数(Gini)的特征选择,因为随机森林采用的CART决策树就是基于基尼系数选择特征的。
基尼系数的选择的标准就是每个子节点达到最高的纯度,即落在子节点中的所有观察都属于同一分类,此时基尼系数最小,纯度最高,不确定度最小。对于一般的决策树,加入总共有K类,样本属于第K类的概率:pk,则该概率分布的基尼指数为:
基尼指数越大,说明不确定性就越大;基尼系数越小,不确定性越小,数据分割越彻底,越干净。
对于CART树而言,由于是二叉树,可以通过下面的表示:
在我们遍历每个特征的每个分割点时,当使用特征A=a,将D划分为两部分,即D1(满足A=a的样本集合),D2(不满足A=a的样本集合)。则在特征A=a的条件下D的基尼指数为:
Gini(D):表示集合D的不确定性。
Gini(A,D):表示经过A=a分割后的集合D的不确定性。
随机森林中的每棵CART决策树都是通过不断遍历这棵树的特征子集的所有可能的分割点,寻找Gini系数最小的特征的分割点,将数据集分成两个子集,直至满足停止条件为止。
首先,正如Bagging介绍中提到的,每个树选择使用的特征时,都是从全部m个特征值随机产生的,本身就已经降低了过拟合的风险和趋势。模型不会被特定的特征值或特征组合所决定,随机性的增加,将控制模型的拟合能力不会无限提高。
第二,与决策树不同,RF对决策树的简历做了改进。对于普通的决策树,我们会在节点上所有的m个样本特征中选择一个最优的特征来做决策树的左右子树划分。但是RF的每个树,其实选用的特征是一部分,在这些少量特征中,选择一个最优的特征来做决策树的左右子树划分,将随机性的效果扩大,进一步增强了模型的泛化能力。
假设每棵树选取msub个特征,msub越小,此时模型对于训练集的拟合程度会变差,偏倚增加,但是会泛化能力更强,模型方差减小。msub越大则相反。在实际使用中,一般会将msub的取值作为一个参数,通过开启OOB验证或使用交叉验证,不断调整参数以获取一个合适的msub的值。
优点:
(1)由于采用了集成算法,本身精度比大多数单个算法要好。
(2)在测试集上表现良好,由于两个随机性的引入,使得随机森林不容易陷入过拟合( 样本随机,特征随机 )
(3)在工业上,由于两个随机性的引入,使得随机森林具有一定的抗噪声能力,对比其他算法具有一定优势。
(4)由于树的组合,使得随机森林可以处理非线性数据,本身属于非线性分类(拟合)模型。
(5) 它能够处理很高维度(feature很多)的数据 ,并且不用做特征选择,对数据集的适应能力强:既能处理离散型数据,也能处理连续型数据,数据集无需规范化。
(6)训练速度快,可以运用在大规模数据集上。
(7)由于袋外数据(OOB),可以在模型生成过程中取得真实误差的无偏估计,且不损失训练数据量。
(8)在训练过程中,能够检测到feature间的互相影响, 且可以得出feature的重要性 ,具有一定参考意义。
(9)由于每棵树可以独立、同时生成,容易做成并行化方法。
(10)由于实现简单、 精度高、抗过拟合能力强 ,当面对非线性数据时,适于作为基准模型。
缺点:
(1)随机森林在解决回归问题时,并没有像它在分类中表现的那么好,这是因为它并不能给出一个连续的输出。当进行回归时,随机森林不能够作出超越训练集数据范围的预测,这可能导致在某些特定噪声的数据进行建模时出现过拟合。(PS:随机森林已经被证明在某些噪音较大的分类或者回归问题上会过拟合)
(2)对于许多统计建模者来说,随机森林给人感觉就像一个黑盒子,你无法控制模型内部的运行。只能在不同的参数和随机种子之间进行尝试。
(3)可能有很多相似的决策树,掩盖了真实的结果。
(4)对于小数据或者低维数据(特征较少的数据),可能不能产生很好的分类。( 处理高维数据,处理特征遗失数据,处理不平衡数据是随机森林的长处 )。
(5)执行数据虽然比boosting等快,但是比单棵决策树慢多了。
(1) 不要求是线性特征,比如逻辑回归很难处理类别型特征 ,而树模型,是一些决策树的集合,可以很容易的处理这些情况。
(2) 由于算法构建的过程,这些算法很容易处理高维的数据,大量的训练数据的场景 。
极端随机树是随机森林的一个变种,原理几乎和RF一模一样,仅有区别有:
(1)对于每个决策树的训练集,RF采用的是随机采样bootstrap来选择采样集作为每个决策树的训练集,而extra trees一般不采用随机采样,即每个决策树采用原始训练集。
(2)在选定了划分特征后,RF的决策树会基于基尼系数,均方差之类的原则,选择一个最优的特征值划分点,这和传统的决策树相同。但是极端随机树比较的激进,他会随机的选择一个特征值来划分决策树。
摘 要
人体识别是计算机视觉领域的一大类热点问题,其研究内容涵盖了人体的监测与跟踪、手势识别、动作识别、人脸识别、性别识别和行为与事件识别等,有着非常广泛的应用价值。随机森林以它自身固有的特点和优良的分类效果在众多的机器学习算法中脱颖而出。随机森林算法的实质是一种树预测器的组合,其中每一棵树都依赖于一个随机向量,森林中的所有的向量都是独立同分布的。本文简单介绍了随机森林的原理,并对近几年来随机森林在姿势识别和人脸识别中的应用进行讨论。
1.人体识别概述
人体识别是计算机视觉领域的一大类热点问题,其研究内容涵盖了人体的监测与跟踪、手势识别、动作识别、人脸识别、性别识别和行为与事件识别等。其研究方法几乎囊括了所有的模式识别问题的理论与技术,例如统计理论,变换理论,上下文相关性,分类与聚类,机器学习,模板匹配,滤波等。人体识别有着非常广泛的应用价值。
绝大多数人脸识别算法和人脸表情分析算法在提取人脸特征之前,需要根据人脸关键点的位置(如眼角,嘴角)进行人脸的几何归一化处理。即使在已知人脸粗略位置的情况下,人脸关键点精确定位仍然是一个很困难的问题,这主要由外界干扰和人脸本身的形变造成。
当前比较流行的算法有:基于启发式规则的方法、主成分分析(PCA)、独立元分析(ICA)、基于K-L 变换、弹性图匹配等。
2.随机森林综述
随机森林顾名思义,使用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的死后,就让森林的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一类能被选择最多,就预测这个样本为那一类。
随机森林是一种统计学习理论,其随机有两个方面:首先是在训练的每一轮中,都是对原始样本集有放回的抽取固定数目的样本点,形成k个互不相同的样本集。第二点是:对于每一个决策树的建立是从总的属性中随机抽取一定量的属性作分裂属性集,这样对于k个树分类器均是不相同的。由随机生成的k个决策树组成了随机森林。
对于每一个决策树来讲,其分裂属性是不断的选取具有最大信息增益的属性进行排列。整个随机森林建立后,最终的分类标准采用投票机制得到可能性最高的结果。
下图是随机森林构建的过程:
图1 随机森林构建过程
3.随机森林在人体识别中的应用
3.1 随机森林应用于姿势识别
以[1]一文来讨论,论文中所涉及到的人体识别过程主要分为两步,首先是,身体部位标记:对于从单张景深图像中对人体进行分段,并标记出关键节点。之后进行身体关节定位,将标记的各个人体部分重新映射到三维空间中,对关键节点形成高可靠的空间定位。
图2 深度图像-身体部位标记-关节投影
文的最主要贡献在于将姿势识别的问题转化成了物体识别的问题,通过对身体不同部位的空间位置的确定来实现,做到了低计算消耗和高精确度。在身体部位标记的过程中,将问题转化成了对每个像素的分类问题,对于每个像素点,从景深的角度来确定该点的局域梯度特征。该特征是点特征与梯度特征的良好结合。
举个例子,对于不同点的相同属性值的判别,如下图,图a中的两个测量点的像素偏移间均具有较大的景深差,而图b中的景深差则明显很小。由此看出,不同位置像素点的特征值是有明显差别的,这就是分类的基础。
图3 景深图像特质示例
文中对于决策树的分裂属性的选择来说。由于某两个像素点、某些图像特征选取的随意性,将形成大量的备选划分形式,选择对于所有抽样像素对于不同的分裂属性划分前后的信息熵增益进行比较,选取最大的一组ψ=(θ, τ)作为当前分裂节点。(信息增益与该图像块最终是否正确地分类相关,即图像块归属于正确的关键特征点区域的概率。)
图4 决策时分类说明
决策树的建立后,某个叶子节点归属于特定关键特征点区域的概率可以根据训练图像最终分类的情况统计得到,这就是随机森林在实际检测特征点时的最重要依据。
在人体关节分类中,我们由形成的决策森林,来对每一个像素点的具体关节属性进行判断,并进行颜色分类。随机森林这种基于大量样本统计的方法能够对由于光照、变性等造成的影响,实时地解决关键特征点定位的问题。
如图所示,是对于景深图像处理后的结果展示。
图5 姿势识别处理结果
应该这样说,这篇文章在算法的层面对随机森林没有太大的贡献。在划分函数的形式上很简单。这个团队值得称道的地方是通过计算机图形学造出了大量的不同体型不同姿势的各种人体图像,用作训练数据,这也是成为2011年CVPR Best Paper的重要原因。正是因为论文的成果运用于Kinect,在工业界有着巨大的作用,落实到了商用的硬件平台上,推动了随机森林在计算机视觉、多媒体处理上的热潮。
3.2 随机森林应用于人脸识别
基于回归森林的脸部特征检测通过分析脸部图像块来定位人脸的关键特征点,在此基础上条件回归森林方法考虑了全局的脸部性质。对于[2]进行分析,这篇论文是2012年CVPR上的论文,本文考虑的是脸部朝向作为全局性质。其主要描述的问题是如何利用条件随机森林,来确定面部10个关键特征点的位置。与之前不同的是,在随机森林的基础上,加入了面部朝向的条件约束。
图6 脸部10个特征点
对于面部特征标记的问题转化成了对大量图像块的分类问题。类似于人体识别中的局域梯度特征识别。本文中,对于每一个图像块来说,从灰度值、光照补偿、相位变换等图像特征,以及该图像块中心与各个特征点的距离来判断图像块的位置特征。在决策树的分裂属性确定过程,依然使用“最大信息熵增益”原则。
图7 条件随机森林算法说明
文中提出了更进一步基于条件随机森林的分类方法,即通过设定脸部朝向的约束对决策树分类,在特征检测阶段能够根据脸部朝向选择与之相关的决策树进行回归,提高准确率和降低消耗。此论文还对条件随机森林,即如何通过脸部朝向对决策进行分类进行了说明,但这与随机森林算法没有太大关系,这里就不再继续讨论了。随机森林这种基于大量样本统计的方法能够对由于光照、变性等造成的影响,实时地解决关键特征点定位的问题。
另一篇文章[3]对于脸部特征标记,提出了精确度更高、成本更低的方法。即,基于结构化输出的随机森林的特征标记方式。文中将面部划分为20个特征点,对于各个特征点来说,不仅有独立的图像块分类标记,还加入了例如,点4,对于其他嘴唇特征点3,18,19的依赖关系的判断。这样的方法使特征点标记准确率大大增加。
该方法依然是使用随机森林的方法,有所不同的是引入了如式中所示的与依赖节点之间的关系。对于决策树的建立依然是依赖信息熵增益原则来决定,叶子节点不仅能得到特征的独立划分还会得到该特征对依赖特征的贡献,最终特征节点的判断会综合原始投票及空间约束。
图8 脸部特征标记
图9 决策树依赖关系
例如当对下图中人脸特征点进行分类时,使用简单的随机森林方法,经过判断会将各个点进行标注,可以看到 红色的点,标注出的鼻子特征。如果利用依赖节点进行判断,鼻子的点会被局限在其他鼻子特征点的周围,进行叠加后,得到了这个结果。显然,对于此节点的判断,利用结构输出的方式,准确度更高了。
图10 结构化输出结果
4.随机森林总结
大量的理论和实证研究都证明了RF具有很高的预测准确率,对异常值和噪声具有很好的容忍度,且不容易出现过拟合。可以说,RF是一种自然的非线性建模工具,是目前数据挖掘算法最热门的前沿研究领域之一。具体来说,它有以下优点:
1.通过对许多分类器进行组合,它可以产生高准确度的分类器;
2.它可以处理大量的输入变量;
3.它可以在决定类别时,评估变量的重要性;
4.在建造森林时,它可以在内部对于一般化后的误差产生不偏差的估计;
5.它包含一个好方法可以估计遗失的资料,并且,如果有很大一部分的资料遗失,仍可以维持准确度。
6.它提供一个实验方法,可以去侦测变量之间的相互作用;
7.学习过程是很快速的;
8.对异常值和噪声具有很好的容忍度,且不容易出现过拟合;
随机森林的缺点:
1.对于有不同级别的属性的数据,级别划分较多的属性会对随机森林产生更大的影响,所以随机森林在这种数据上产出的属性权值是不可信的;
2.单棵决策树的预测效果很差:由于随机选择属性,使得单棵决策树的预测效果很差。
参考文献:
[1] Shotton, J.; Fitzgibbon, A.; Cook, M.; Sharp, T.; Finocchio, M.; Moore, R.; Kipman, A.; Blake, A., “Real-time human pose recognition in parts from single depth images,”Computer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on , vol., no., pp.1297,1304, 20-25 June 2011
[2] Dantone M, Gall J, Fanelli G, et al. Real-time facial feature detection using conditional regression forests[C]//Computer Vision and Pattern Recognition (CVPR), 2012 IEEE Conference on. IEEE, 2012: 2578-2585.
[3] Heng Yang, Ioannis Patras, “Face Parts Localization Using Structured-output Regression Forests”, ACCV2012, Dajeon, Korea.
本文转自:,仅供学习交流
在随机森林介绍中提到了随机森林一个重要特征:能够计算单个特征变量的重要性。并且这一特征在很多方面能够得到应用,例如在银行贷款业务中能否正确的评估一个企业的信用度,关系到是否能够有效地回收贷款。但是信用评估模型的数据特征有很多,其中不乏有很多噪音,所以需要计算出每一个特征的重要性并对这些特征进行一个排序,进而可以从所有特征中选择出重要性靠前的特征。
一:特征重要性
在随机森林中某个特征X的重要性的计算方法如下:
1:对于随机森林中的每一颗决策树,使用相应的OOB(袋外数据)数据来计算它的袋外数据误差,记为errOOB1.
2: 随机地对袋外数据OOB所有样本的特征X加入噪声干扰(就可以随机的改变样本在特征X处的值),再次计算它的袋外数据误差,记为errOOB2.
3:假设随机森林中有Ntree棵树,那么对于特征X的重要性=∑(errOOB2-errOOB1)/Ntree,之所以可以用这个表达式来作为相应特征的重要性的度量值是因为:若给某个特征随机加入噪声之后,袋外的准确率大幅度降低,则说明这个特征对于样本的分类结果影响很大,也就是说它的重要程度比较高。
二:特征选择
在论文 Variable Selection using Random Forests中详细的论述了基于随机森林的特征选择方法,这里我们进行一些回顾。
首先特征选择的目标有两个:
1:找到与应变量高度相关的特征变量。
2:选择出数目较少的特征变量并且能够充分的预测应变量的结果。
其次一般特征选择的步骤为:
1:初步估计和排序
a)对随机森林中的特征变量按照VI(Variable Importance)降序排序。
b)确定删除比例,从当前的特征变量中剔除相应比例不重要的指标,从而得到一个新的特征集。
c)用新的特征集建立新的随机森林,并计算特征集中每个特征的VI,并排序。
d)重复以上步骤,直到剩下m个特征。
2:根据1中得到的每个特征集和它们建立起来的随机森林,计算对应的袋外误差率(OOB err),将袋外误差率最低的特征集作为最后选定的特征集。
医学影像毕业论文题目很多的,原创的最好。我写的《基于PACS的网络教学在医学影像学实习中的应用》,当时也是雅文网的专家帮忙弄的,一周就过了
CT/MRI医学影像分割算法研究
基于IHE的医学影像协作网的构建研究
基于DICOM标准的医学影像数据库的建立
多模态医学影像鲁棒配准方法研究
医学影像学课程网络CAI教学系统的分析与设计
医学影像数据库的图像检索技术应用研究
基于PACS的医学影像学网络教学软件的开发研究
基于Retinex理论的X射线医学图像算法的改进与应用
医学影像图像分割与存储若干问题的研究
医学影像三维可视化系统设计及关键技术研究
OCT医学影像血管分割与三维重建关键技术研究
PACS医学影像文件存储方法的研究
医学影像二维处理及三维重建系统的研究与实践
医学影像设备维护与管理技术的研究
医学影像三维重建的算法研究及应用
DICOM医学影像自适应显示技术的研究与实现
医学影像后处理技术的研究及其在X线影像优化中的应用
基于LBM的三维医学影像非刚体配准算法研究
嵌入式医学影像平台设计研究
医学影像按需打印系统关键技术研究
多模态医学影像融合方法研究
DICOM标准下医学影像数据库的建立与研究
基于语义的图像检索技术在医学影像系统中的研究与应用
基于核匹配追踪的医学影像辅助诊断
基于几何代数理论的医学图像配准研究
医学影像的数字化采集与存储
基于Level Set的医学影像分割
面向医学影像处理领域的软件框架研究与应用
随机森林在医学影像数据分析中的应用
医学影像处理及三维重建技术在医学TPS中的应用
该栏目主要是推送上财商学院教师国内外学术前沿动态、科研成果的信息平台。商学院以“双一流”学科建设为科研导向打造学院核心优势;商学院教师践行“厚德博学,经济匡时”的校训,不断提升科研实力和教学成果,在各自领域做出优秀的原创性科研成果,打造商学院财经特色品牌,为促进中国社会经济的发展提供理论支持。
编者按
本期推介成果为上财商学院谢天副教授及其合作者Steven F. Lehrer完成,2021年3月12日发表在《Management Science》的论文“The Bigger Picture: Combining Econometrics with Analytics Improves Forecasts of Movie Success”。
· 论文摘要 ·
使用机器学习结合社交媒体大数据来提高预测精度,在学术界和业界都有较高的关注度。为了评估该项技术的实用性,本文使用电影行业数据,将常规计量经济学方法与预测分析文献中的常见机器学习工具进行了详细的对比。在此基础上,我们还提出了一种全新的混合学习算法。该方法将常规计量经济学算法与机器学习算法相结合,进而可以更加精确地捕捉数据异质性,以达到提高预测精度的目的。我们的实证结果验证了社交媒体数据的重要性以及混合学习算法的价值。具体来说,虽然机器学习算法中的最小二乘支持向量回归和树类算法明显优于传统计量经济学方法,但我们提出的混合学习算法能够在其基础上进一步提高预测精度。此外,蒙特卡洛实验表明,我们提出的混合学习算法的相对优势主要建立在数据的异质性上。而无论社交媒体数据测度方法的迥异区别还是各种电影特征对票房的不同影响都会产生显著的异质性。
作者介绍 INTRODUCTION
谢天,曾获加拿大皇后大学博士学位。上海财经大学商学院世经国贸系副教授。主要研究方向为组合预测和模型平均,大数据分析等。主持和参与多项国家自然科学基金项目。研究成果在Management Science, Review of Economics and Statistics, Journal of Financial Econometrics等一流期刊发表。
BONUS SCENE
一个小彩蛋
Management Science编辑部以及我的合作者Steven F. Lehrer在推特上都有对本文做宣传。我私下里把他们发的Tweets以及所有回复的内容一起做了一个简单的字符分析,并把结果通过如下字图展示。字体越大说明提及频率越高。貌似在介绍本文的时候,人们较为看重数据处理,而且关心(机器)学习方法与计量经济学的全新结合。这较为直观地反映了目前我所在的研究(小)领域内,人们看重的关键点和可能的未来发展方向。一些表达情绪的关键词汇也被筛选出来。当然也没忘提及了下我的名字(右下角…好小…)。
我还用本文使用的情绪分析工具,研究了一下合作者所有相关Tweets的综合情绪。结果显示,和中性的0相比,Tweets情绪高达0.733。说明Steve发推时的情绪高涨自豪。
01
引言
很多人推测,电影制片厂在不久的将来会认识到,决定一部电影成功与否的因素中,预测分析与制片人、导演和(或)电影明星一样重要。目前文献中,预测分析结合社交媒体大数据的做法比较流行,且主要用在电影行业的需求预测上。提高预测精度的意义重大,因为它们能够降低投资者对票房不确定性的顾虑从而增加资本投资;还可以帮助市场营销团队量身打造最有效的营销活动。
前人的研究中,如 Bollen, Mao 和 Zheng (2011), Goh, Heng 和 Lin (2013) 及 Lehrer 和 Xie (2017) 等,展示了社交媒体在不同预测情境下的重要性。然而,这些文献中都没有考虑目前流行的机器学习算法,如回归树,随机森林,提升方法和支持向量回归等。这些机器算法一般不会限制统计模型的具体结构,并且通过加入传统计量方法忽略的非线性预测量的交互项来提升预测精度。尽管这些算法在建模时有一定优势,通过递归分区构建超平面或者树形结构时,它们一般都要求在整个解释变量空间内,齐方差假设成立。
数据的异方差性可能来自于被忽略的参数异质性,会影响许多预测方法的预测能力。比如,异方差会改变支持向量的位置,还会改变数据分区的方式,从而影响回归树的结构等。本文提出了一种新的预测分析理念,与以往文献中的计量方法和机器学习算法都不同,为提升电影业预测精度提供了指导性帮助。因此,本文对以改善预测精度等实证表现为主的数据科学领域的发展也做出了一定贡献。改领域目前在经济学科和管理学科都受到了重视,著名文献包括但不限于:Vasilios, Thephilos 和 Periklis (2015) 检验了预测每日和每月汇率时,机器学习方法的精度;Wager 和 Athey (2018) 提出了随机森林的变形方法,估计随机效应;Ban, Karoui 和 Lim (2018) 用机器学习算法做投资组合优化,等等。
本文提出的混合策略,考虑了最小二乘支持向量回归和递归分区方法中数据的异方差性导致的异质性问题。为了说明这一点,用回归树预测时, 我们通常用一个局部常量模型,假设单个终端叶片间结果同质。本文的混合方法允许模型有不确定性,并且在每个终端叶子分组中进行模型平均。因此,我们的混合方法考虑了每个叶子分组内,解释变量和被解释变量之间存在异质性的概率。最近的一篇文献,Pratola, Chipman, Geroge 和 Mc- Culloch (2020) 考虑在贝叶斯模型的框架之下,在现有机器学习文献中加入异方差。在支持向量回归方法中,我们也允许模型不确定性,对准则函数做出调整,使之建立在异方差误差项之上。本文通过模拟实验以及电影票房相关的实证例子阐述了,混合策略及递归分区方法或者最小二乘支持向量回归的具体应用环境,和相比较于Pratola, Chipman, Geroge 和 Mc- Culloch (2020)等方法的比较优势,进而感兴趣的使用者提供了指导。
本文还对其他实证方法对电影收入的预测精度做了检验。我们选择样本时并没有特定的标准依据,样本包括三年内北美所有在影院上映或售卖的电影。我们发现,该数据表现出很强的异方差性,追溯其原因很可能是来自不同分布的人群对不同类型电影的兴趣差异性。本文的实证结果首先为学者选择预测方法时的权衡提供了新的启示。样本容量较小时,我们发现最小二乘支持向量回归优于其他机器学习方法。总体来看,递归分区方法(包括回归树,引导聚合和随机森林)与计量方法相比,预测精度提升30%-40%,那些计量方法都采用了模型选择标准或模型平均方法。计量估计量和惩罚方法间接考虑了异方差数据,统计学习方法与这些方法相比,预测精度有很大的提升,进一步说明了线性参数计量模型的局限性。然而,这些线性模型目前仍然很受欢迎。如Manski (2004)所说:“统计学家取得进步的原因是把目标集中在易处理的估计量上,比如线性无偏或渐近正态的估计量。”
其次,本文的发现利用本文提出的混合策略,在允许模型不确定性存在时,预测精度约有10%的进一步提高。许多种类的机器学习算法的预测精度都有所提升:(i) 替代支持向量回归的核函数;(ii) 在树形结构(包括随机森林,引导聚合,M5’,最小二乘支持向量回归)下用超参数和局部目标函数来分割数据的算法等等。模拟实验能够帮助我们理解为什么实证分析中预测精度会出现大幅的提升。我们发现参数存在显著异质性导致数据异方差时, 本文的混合策略极为有效。参数异质性的原因可能是跳跃或门槛效应,或者是在潜在关系中忽视了参数的异质性。这种情况下,混合策略能在一定程度上解释叶片间结果的异质性。
最后,本文发现加入社交媒体数据,即使在异方差的数据环境下,仍然对提高预测精度有巨大的帮助。我们考虑了多种计量检验,都验证了社交媒体数据的重要性。我们提出的混合策略甚至可以对变量的重要性进行量化排序。计算结果说明,预测电影票房或单位销售收入时,最重要的10个变量中,有7个隶属于社交媒体数据。
接下来,我们将对本文采用的模拟实验结果以及实证分析进行具体的描述。
02
模拟实验结果对比
为了展示混合策略相较传统方法的优势,我们考虑以下非线性模型。其中,图1(a)(b) 两部分分别展示了训练数据的散点图和曲面图,数据生成过程如下:
yi = sin(X1i) + cos(X2i) + ei,
其中 X1i ∈ [1, 10], X2i ∈ [1, 10], ei是均值为0、方差为0.01的高斯噪声。
图1 (c) -(f) 分别表示用 RT, MART, SVRLS,和 MASVRLS方法得到的训练数据的预测值 y.由于RT预测假设叶片间同质,图1(c) 中的曲面图与阶梯函数类似。相反,MART预测假设叶片间也是异质的,图1(d) 中的曲面图与基本数据中联合分布的变化更接近。图1(e) SVRLS 的预测图与 MART 类似,但褶皱更明显。而MASVRLS 方法预测的曲面图最为平缓,具体可参见图1(f).
图1(g)-(j) 分别展示了 RT, MART, SVRLS,和 MASVRLS算法的预测误差。通过比较这四个图形的高度,我们发现,MART 和 MASVRLS 方法得到的绝对误差值的分别小于RT和SVRLS 的一半。而且,整个 X1 和 X2 的区间内,(h) 和 (i) 高度都减半了。这验证了我们对于放松模型具体结构可以提高预测精度的假设,也说明了捕捉叶片或支持向量之间的参数异质性从而提高预测精度的重要性。
图1、混合策略与其他传统方法在模拟数据下的表现差异展示▼
03
实证研究
我们收集了2010年10月1日至2013年6月30日期间北美上映的所有电影的相关数据。在 IHS 电影咨询部门的帮助下,我们用一系列指标衡量每部电影的特征,包括电影类型,美国电影协会给出的电影内容评级(G, PG, PG13 和 R),除广告费用以外的预算,以及电影上映六周前电影制片厂预测的上映周数和上映影院数。在本文的分析中,我们主要用首映周末票房(n = 178) 和首映时 DVD 和蓝光光碟的总销量(n = 173) 考量一部电影的初始需求量。
为了从大量推特信息中 (平均每天3.5亿条) 萃取出有用的关于“支付意愿”的信息,本文考虑两种衡量标准。第一,基于 Hannak 等人 (2012) 的算法,计算某一部电影的“情绪”。这种算法包括电影标题和关键词的文本分析:找出含有电影名称或关键词的推特,再计算作者发布的文字和图片中的情绪得分。与某一部电影有关的所有推特中,每个词语有不同的情绪得分,这部电影的情绪指数就是情绪得分的均值。第二,我们计算了每部电影有关的不加权的推特总数。在本文的分析中,我们分别考虑推特数量(volume)和推特情绪(sentiment),因为情绪能表现电影的质量,但数量可以展现人们对电影的兴趣(流量)。
为了检验在传统计量方法或机器学习方法中加入社交媒体数据的重要性,我们参照 Hansen 和 Racine (2012) 的做法,做了下述试验,以衡量包含不同协变量的模型中不同估计量的相对预测效率。我们比较的估计方法可以分为以下几类:(i) 传统计量方法;(ii) 模型筛选方法;(iii) 模型平均发 ;(iv) 机器学习方法;以及(v) 本文新提出的混合方法。该方法结合了计量工具和机器学习算法,能够更好地捕捉数据的异质性。
试验把原始数据 (样本量为 n ) 分成训练集 (nT ) 和评估集(nE = n −nT ).我们可以从训练集中得到每种方法的参数估计量,这些参数估计量接着被用来预测评价集的结果,从而可以计算均方误测方差 (MSFE) 和平均绝对预测误差 (MAFE),对每类预测方法做出评价。以最小二成法(OLS)为例,MSFE和MAFE的具体算法如下:
其中 (yE, xE) 是评价集,nE 是训练集中观测值的数量, βˆT 是基于训练集的对应模型的估计系数,ιE 是一个 nE × 1、元素都为1的向量。总的来说, 我们用不同大小的评估集 (nE = 10, 20, 30, 40) 重复进行了10,001次试验。
图2和图3分别是公开票房和单位销售额的预测误差试验的结果。图2和图3最上面的一幅图表示的是 MSFE 的中位数,最下面的一幅图表示的是MAFE 的中位数。每个小图中都有四条曲线,分别对应不同大小的评估集, 每个点代表对应评估集下,x轴上标出的估计量的预测结果。估计量一般按照预测精度的改善程度排序,除了本文新提出的混合策略的估计量在传统的机器学习方法估计量的附近。重新排列帮助我们直观地看到每一个混合方法中加入模型不确定性带来的边际收益。需要注意的一点是,RF 和MARF 后的数值代表随机抽取的用来决定每个节点处是否分裂的解释变量的个数。
本文提出的 MASVRLS 方法在每幅图的最右边,因为不管用 MSFE 还是 MAFE 衡量,MASVRLS 的预测结果都是最优的。紧靠着 MASVRLS 左边的是 SVRLS 方法,得到了次优的结果。加入模型平均使得 SVRLS 和 MASVRLS 的预测表现提升10%。即便如此,nE 取值很小时,试验考察的机器学习方法都绝对优于 HRCp,计量估计量和惩罚方法。统计学习文献中常用的方法,如引导聚合、随机森林方法也优于基准模型。而且,我们发现把模型平均加入到引导聚合方法后,大约有10%的收益,与向 SVRLS 方法加入模型不确定性后的收益相同。
图2、公开票房预测结果对比
图3、单位销售额预测结果对比
比较图2和图3的结果,我们发现混合策略中加入支持向量回归比树形回归能获得更大的收益,且公开票房的预测结果优于零售单位销售额的预测结果。然而,电影零售单位销售额的预测精度提高的百分点更大,因为电影零售单位销售额的样本容量更小。我们还发现,当我们使用更大的样本来预测DVD和蓝光光碟销售额时,HBART相较于树形回归的优越性更为明显。常规的随机森林方法和加入模型平均后的随机森林估计,在所有方法中表现平平。需要注意的是,当测试集nE 变大,所有方法的预测表现都会变差,这一结果也符合预期。
04
结论
电影行业充满不确定性。De Vany 和Walls (2004) 报告称,1984-1996年上映的2,000部电影中,只有22% 的电影盈利或不赚不赔。由于社交媒体能反映出一部电影上映前公众的兴趣,而且社交媒体还能够测度潜在观众对广告营销的反应,电影业对于用社交媒体数据做预测十分振奋。新的数据来源不仅能够提高潜在提升预测精度,还能运用递归分区方法或者为数据挖掘开发的SVR算法。运用电影业的数据,我们发现这些算法与维度缩减或传统计量方法相比,预测精度有了显著提高。
尽管机器学习方法提供了实际性的帮助,我们认为异方差数据可能会阻碍许多算法的预测表现。因此,我们提出了一种混合策略,即把模型平均应用到每个支持向量或叶片中。本文的实证研究说明,不管是哪种机器学习算法,运用混合策略后预测精度都有显著改善。而且,混合策略中加入支持向量回归比树形回归能获得更大的收益,且公开票房的预测结果优于零售单位销售额的预测结果。然而,电影零售单位销售额的预测精度提高的百分点更大,因为电影零售单位销售额的样本容量更小。另外,在传统计量方法、惩罚方法或模型筛选方法中加入异方差能够提高预测精度,本文的分析对这点提出了怀疑。
机器学习领域学者们面临的一大挑战是Wolpert 和Macready (1997) 提出的“无免费午餐”定理。这是一个不可能定理,即不可能存在一个全局最优策略。最优策略不但取决于样本容量和预测的目标变量,还取决于特定问题的结构,而分析者事前通常不知道问题的结构。然而,由于现实世界中数据的异方差性很普遍,在树类算法或最小二乘支持向量回归的基础之上,我们提出的混合学习算法具有重要意义,还能够与 Pratola, Chipman, Geroge 和 McCulloch (2020) 提出的 HBART 策略相互补充。
为了推动后续有关社交媒体对电影业盈利的影响的文献,我们可以考虑使用加总程度更低的推特数量和情绪得分作为解释变量。比如,我们可以测度推特不同子集的情绪,子集的分类标准可以是粉丝数量,人口特征, 或推特是否有正面(负面)导向,等等。通过把社交情绪分解成小部分,我们可以知道,推特中表达出的哪种类型的情绪与观看电影的决策相关。未来的研究方向是:理解混合学习算法的统计特征,开发出一个能够在一个有多个协变量的模型中捕捉到异方差来源的检验方法,以及为他人提供策略选择方面的建议。另外,我们还需要开发出一套评价预测模型的标准,评价标准不仅仅是估计量的偏差和效率,还应该考虑预测方法的计算复杂性,这些都将会对管理决策提供很大的帮助。
SUFE COB
责编 | 张宜杰 审编 | 谢天 沈梦雪