我给你分享几个统计学与应用这本期刊的题目吧,你参考参考:产业集聚对江苏省制造业全要素生产率的影响研究、基于文献计量分析的企业论文发表情况评价——以宁波市安全生产协会会员为例、基于泰尔指数的城乡收入差距的分析与预测、卡方分布下FSI CUSUM和VSI CUSUM控制图的比较、新冠肺炎疫情对中国旅游业的冲击影响研究——基于修正的TGARCH-M模型
***统计方法的应用
根据相关记载,可以得出时间序列预测确实可以支撑一篇硕士论文。可以通过相关文献、调查研究等来证明你的观点,并且结合实际的例子来做验证。
时代金融摘 要:关键词:一、 引言一个国家的国民经济有很多因素构成, 省区经济则是我国国民经济的重要组成部分, 很多研究文献都认为中国的省区经济是宏观经济的一个相对独立的研究对象, 因此, 选取省区经济数据进行区域经济的研究, 无疑将是未来几年的研究趋势。而省区经济对我国国民经济的影响, 已从背后走到了台前, 发展较快的省区对我国国民经济的快速增长起到了很大的作用, 而发展相对较慢的省区, 其原因与解决方法也值得我们研究。本文选取华中大省湖北省进行研究, 具有一定的指导和现实意义。湖北省 2006 年 GDP 为 7497 亿元, 人均 GDP13130 元, 达到中等发达国家水平。从省域经济来说, 湖北省是一个较发达的经济实体。另一方面, 湖北省优势的地理位置和众多的人口使之对于我国整体经济的运行起到不可忽视的作用, 对于湖北省 GDP的研究和预测也就从一个侧面反映我国国民经济的走势和未来。尽管湖北省以其重要位置和经济实力在我国国民经济中占据一席之地, 但仍不可避免的面临着建国以来一再的经济波动,从最初的强大势力到如今的挣扎期, 湖北省的经济面临着发展困境。近年来, 湖北省的经济状况一再呈现再次快速发展的趋势, 但是这个趋势能够保持多久却是我们需要考虑的问题。本文选择了时间序列分析的方法进行湖北省区域经济发展的预测。时间序列预测是通过对预测目标自身时间序列的处理来研究其变化趋势的。即通过时间序列的历史数据揭示现象随时间变化的规律, 将这种规律延伸到未来, 从而对该现象的未来作出预测。二、 基本模型、 数据选择以及实证方法( 一) 基本模型ARMA 模型是一种常用的随机时序模型, 由博克斯, 詹金斯创立, 是一种精度较高的时序短期预测方法, 其基本思想是: 某些时间序列是依赖于时间 t 的一组随机变量, 构成该时序的单个序列值虽然具有不确定性, 但整个序列的变化却具有一定的规律性, 可以用相应的数学模型近似描述。通过对该数学模型的分析,能够更本质的认识时间序列的结构与特征, 达到最小方差意义下的最优预测。现实社会中, 我们常常运用 ARMA模型对经济体进行预测和研究, 得到较为满意的效果。但 ARMA模型只适用于平稳的时间序列, 对于如 GDP 等非平稳的时间序列而言, ARMA模型存在一定的缺陷, 因此我们引入一般情况下的 ARMA模型 ( ARIMA模型) 进行实证研究。事实上, ARIMA模型的实质就是差分运算与 ARMA模型的组合。 本文讨论的求和自回归移动平均模型, 简记为 ARIMA ( p, d, q) 模型,是美国统计学家 和 enkins 于 1970 年首次提出, 广泛应用于各类时间序列数据分析, 是一种预测精度相当高的短期预测方法。建立 ARIMA ( p, d, q) 模型计算复杂, 须借助计算机完成。本文介绍 ARIMA ( p, d, q) 模型的建立方法, 并利用Eviews 软件建立湖北省 GDP 变化的 ARIMA ( p, d, q) 预测模型。( 二) 数据选择1.本文所有 GDP 数据来自于由中华人民共和国统计局汇编,中国统计出版社出版的 《新中国五十五年统计数据汇编》 。2.本文的所有数据处理均使用 软件进行。( 三) 实证方法ARMA模型及 ARIMA模型都是在平稳时间序列基础上建立的, 因此时间序列的平稳性是建模的重要前提。任何非平稳时间序列只要通过适当阶数的差分运算或者是对数差分运算就可以实现平稳, 因此可以对差分后或对数差分后的序列进行 ARMA( p, q) 拟合。ARIMA ( p, d, q) 模型的具体建模步骤如下:1.平稳性检验。一般通过时间序列的散点图或折线图对序列进行初步的平稳性判断, 并采用 ADF 单位根检验来精确判断该序列的平稳性。对非平稳的时间序列, 如果存在一定的增长或下降趋势等,则需要对数据取对数或进行差分处理, 然后判断经处理后序列的平稳性。重复以上过程, 直至成为平稳序列。此时差分的次数即为ARIMA ( p, d, q) 模型中的阶数 d。为了保证信息的准确, 应注意避免过度差分。对平稳序列还需要进行纯随机性检验 ( 白噪声检验) 。白噪声序列没有分析的必要, 对于平稳的非白噪声序列则可以进行ARMA ( p, q) 模型的拟合。白噪声检验通常使用 Q 统计量对序列进行卡方检验, 可以以直观的方法直接观测得到结论。拟合。首先计算时间序列样本的自相关系数和偏自相关系的值, 根据自相关系数和偏自相关系数的性质估计自相关阶数 p 和移动平均阶数 q 的值。一般而言, 由于样本的随机性, 样本的相关系数不会呈现出理论截尾的完美情况, 本应截尾的相关系数仍会呈现出小值振荡的情况。又由于平稳时间序列通常都具有短期相性, 随着延迟阶数的增大, 相关系数都会衰减至零值附近作小值波动。根据 Barlett 和 Quenouille 的证明, 样本相关系数近似服从正态分布。一个正态分布的随机变量在任意方向上超出 2σ 的概率约为 。因此可通过自相关和偏自相关估计值序列的直方图来大致判断在 5%的显著水平下模型的自相关系数和偏自相关系数不为零的个数, 进而大致判断序列应选择的具体模型形式。同时对模型中的 p 和 q 两个参数进行多种组合选择, 从 ARMA ( p,q) 模型中选择一个拟和最好的曲线作为最后的方程结果。一般利用 AIC 准则和 SC 准则评判拟合模型的相对优劣。3.模型检验。模型检验主要是检验模型对原时间序列的拟和效果, 检验整个模型对信息的提取是否充分, 即检验残差序列是否为白噪声序列。如果拟合模型通不过检验, 即残差序列不是为白噪声序列, 那么要重新选择模型进行拟合。如残差序列是白噪声序列, 就认为拟合模型是有效的。模型的有效性检验仍然是使谭诗璟ARIMA 模型在湖北省GDP 预测中的应用—— —时间序列分析在中国区域经济增长中的实证分析本文介绍求和自回归移动平均模型 ARIMA ( p, d, q) 的建模方法及 Eviews 实现。广泛求证和搜集从 1952 年到 2006 年以来湖北省 GDP 的相关数据, 运用统计学和计量经济学原理, 从时间序列的定义出发, 结合统计软件 EVIEWS 运用 ARMA建模方法, 将 ARIMA模型应用于湖北省历年 GDP 数据的分析与预测, 得到较为满意的结果。湖北省 区域经济学 ARIMA 时间序列 GDP 预测理论探讨262008/01 总第 360 期图四 取对数后自相关与偏自相关图图三 二阶差分后自相关与偏自相关图用上述 Q 统计量对残差序列进行卡方检验。4.模型预测。根据检验和比较的结果, 使用 Eviews 软件中的forecas t 功能对模型进行预测, 得到原时间序列的将来走势。 对比预测值与实际值, 同样可以以直观的方式得到模型的准确性。三、 实证结果分析GDP 受经济基础、 人口增长、 资源、 科技、 环境等诸多因素的影响, 这些因素之间又有着错综复杂的关系, 运用结构性的因果模型分析和预测 GDP 往往比较困难。我们将历年的 GDP 作为时间序列, 得出其变化规律, 建立预测模型。本文对 1952 至 2006 年的 55 个年度国内生产总值数据进行了分析, 为了对模型的正确性进行一定程度的检验, 现用前 50 个数据参与建模, 并用后五年的数据检验拟合效果。最后进行 2007年与 2008 年的预测。( 一) 数据的平稳化分析与处理1.差分。利用 EViews 软件对原 GDP 序列进行一阶差分得到图二:对该序列采用包含常数项和趋势项的模型进行 ADF 单位根检验。结果如下:由于该序列依然非平稳性, 因此需要再次进行差分, 得到如图三所式的折线图。根据一阶差分时所得 AIC 最小值, 确定滞后阶数为 1。然后对二阶差分进行 ADF 检验:结果表明二阶差分后的序列具有平稳性, 因此 ARIMA ( p, d,q) 的差分阶数 d=2。二阶差分后的自相关与偏自相关图如下:2.对数。利用 EViews 软件, 对原数据取对数:对已经形成的对数序列进行一阶差分, 然后进行 ADF 检验:由上表可见, 现在的对数一阶差分序列是平稳的, 由 AIC 和SC 的最小值可以确定此时的滞后阶数为 2。 因为是进行了一阶差分, 因此认为 ARIMA ( p, d, q) 中 d=1。( 二) ARMA ( p, q) 模型的建立ARMA ( p, q) 模型的识别与定阶可以通过样本的自相关与偏自相关函数的观察获得。图一 1952- 2001 湖北省 GDP 序列图表 1 一阶差分的 ADF 检验ADF t- Statistic 1% level 5% level 10% level AIC 备注0 - - - - 非平稳1 - - - - - - - - - - - - - - - - 表 2 二阶差分的 ADF 检验Lag Length t- Statistic 1% level 5% level 10% level1 (Fixed) - - - - 表 3 对数一阶差分的 ADF 检验ADF t- Statistic 1% level 5% level 10% level AIC SC 备注0 - - - - - - 平稳 1 - - - - - - - - - - - - - - - - - - 图五 对数后一阶差分自相关与偏自相关图理论探讨27时代金融摘 要:关键词:使用 EViews 软件对 AR, MA的取值进行实现, 比较三种情况下方程的 AIC 值和 SC 值:表 4ARMA模型的比较由表 4 可知, 最优情况本应该在 AR ( 1) , MA ( 1) 时取得, 但AR, MA都取 1 时无法实现平稳, 舍去。对于后面两种情况进行比较, 而 P=1 时 AIC 与 SC 值都比较小, 在该种情况下方程如下:综上所述选用 ARIMA ( 1, 1, 0) 模型。( 三) 模型的检验对模型的 Q 统计量进行白噪声检验, 得出残差序列相互独立的概率很大, 故不能拒绝序列相互独立的原假设, 检验通过。模型均值及自相关系数的估计都通过显著性检验, 模型通过残差自相关检验, 可以用来预测。( 四) 模型的预测我们使用时间序列分析的方法对湖北省地方生产总值的年度数据序列建立自回归预测模型, 并利用模型对 2002 到 2006 年的数值进行预测和对照:表 5 ARIMA ( 1, 1, 0) 预测值与实际值的比较由上表可见, 该模型在短期内预测比较准确, 平均绝对误差为 , 但随着预测期的延长, 预测误差可能会出现逐渐增大的情况。下面, 我们对湖北省 2007 年与 2008 年的地方总产值进行预测:在 ARIMA模型的预测中, 湖北省的地方生产将保持增长的势头, 但 2008 年的增长率不如 2007 年, 这一点值得注意。GDP毕竟与很多因素有关, 虽然我们一致认为, 作为我国首次主办奥运的一年, 2008 将是中国经济的高涨期, 但是是否所有的地方产值都将受到奥运的好的影响呢? 也许在 2008 年全国的 GDP 也许确实将有大幅度的提高, 但这有很大一部分是奥运赛场所在地带来的经济效应, 而不是所有地方都能够享有的。正如 GDP 数据显示, 1998 年尽管全国经济依然保持了一个比较好的态势, 但湖北省的经济却因洪水遭受不小的损失。作为一个大省, 湖北省理应对自身的发展承担起更多的责任。总的来说, ARIMA模型从定量的角度反映了一定的问题, 做出了较为精确的预测, 尽管不能完全代表现实, 我们仍能以ARIMA模型为基础, 对将来的发展作出预先解决方案, 进一步提高经济发展, 减少不必要的损失。四、结语时间序列预测法是一种重要的预测方法, 其模型比较简单,对资料的要求比较单一, 在实际中有着广泛的适用性。在应用中,应根据所要解决的问题及问题的特点等方面来综合考虑并选择相对最优的模型。在实际运用中, 由于 GDP 的特殊性, ARIMA模型以自身的特点成为了 GDP 预测上佳选择, 但是预测只是估计量, 真正精确的还是真实值, 当然, ARIMA 模型作为一般情况下的 ARMA 模型, 运用了差分、取对数等等计算方法, 最终得到进行预测的时间序列, 无论是在预测上, 还是在数量经济上, 都是不小的进步, 也为将来的发展做出了很大的贡献。我们通过对湖北省地方总产值的实证分析, 拟合 ARIMA( 1, 1, 0) 模型, 并运用该模型对湖北省的经济进行了小规模的预测,得到了较为满意的拟和结果, 但湖北省 2007 年与 2008 年经济预测中出现的增长率下降的问题值得思考, 究竟是什么原因造成了这样的结果, 同时我们也需要到 2008 年再次进行比较, 以此来再次确定 ARIMA ( 1, 1, 0) 模型在湖北省地方总产值预测中所起到的作用。参考文献:【1】易丹辉 数据分析与 EViews应用 中国统计出版社【2】 Philip Hans Frances 商业和经济预测中的时间序列模型 中国人民大学出版社【3】新中国五十五年统计资料汇编 中国统计出版社【4】赵蕾 陈美英 ARIMA 模型在福建省 GDP 预测中的应用 科技和产业( 2007) 01- 0045- 04【5】 张卫国 以 ARIMA 模型估计 2003 年山东 GDP 增长速度 东岳论丛( 2004) 01- 0079- 03【6】刘盛佳 湖北省区域经济发展分析 华中师范大学学报 ( 2003) 03-0405- 06【7】王丽娜 肖冬荣 基于 ARMA 模型的经济非平稳时间序列的预测分析武汉理工大学学报 2004 年 2 月【8】陈昀 贺远琼 外商直接投资对武汉区域经济的影响分析 科技进步与对策 ( 2006) 03- 0092- 02( 作者单位: 武汉大学经济与管理学院金融工程)AR(1)MA(1) AR(1) MA(1) 备注AIC - - - 最优为 AR(1)MA(1)SC - - - Coefficient Std. Error t- Statistic (1) squared - Mean dependent var R- squared - . dependent var . of regression Akaike info criterion - resid Schwarz criterion - likelihood Durbin-Watson stat AR Roots .59年份 实际值 预测值 相对误差(%) 平均误差(%)2002 - - - - - 年度 GDP 值 增长率(%) — 表 6 ARIMA ( 1, 1, 0) 对湖北省经济的预测一、模糊数学分析方法对企业经营 ( 偿债) 能力评价的适用性影响企业经营 ( 偿债) 和盈利能力的因素或指标很多; 在分析判断时, 对事物的评价 ( 或评估) 常常会涉及多个因素或多个指标。这时就要求根据多丛因素对事物作出综合评价, 而不能只从朱晓琳 曹 娜用应用模糊数学中的隶属度评价企业经营(偿债)能力问题影响企业经营能力的许多因素都具有模糊性, 难以对其确定一个精确量值; 为了使企业经营 ( 偿债) 能力评价能够得到客观合理的结果, 有必要根据一些模糊因素来改进其评价方法, 本文根据模糊数学中隶属度的方法尝试对企业经营 ( 偿债) 能力做出一种有效的评价。隶属度及函数 选取指标构建模型 经营能力评价应用理论探讨28
根据相关记载,可以得出时间序列预测确实可以支撑一篇硕士论文。可以通过相关文献、调查研究等来证明你的观点,并且结合实际的例子来做验证。
预测宏观,你的变量永远是不够的。预测GDP其实啥意义都没有,但是,写文章的话,就说指导生产、分析经济发展中的不足等等等。总之怎么说都行的啊。时间序列的话,就更多的往经济周期、产业结构上说。虽然话是这么说,但是滞后期是你自己选的,这经济周期怎么都容易往上靠,方便解释,一般的文章建议你往这上面说。如果是毕业论文建议你方法要改良,否则答辩时候会被喷的
五年以内。最好是五年以内的研究的期刊或者论文,因为这是这个领域里面最新的资讯,作为你论文的佐证是最好的。实在没有办法的话用10年以内的也是可以的,当然了,如果有很早以前的,但是又是必须的也可以加上,但是我建议不要用是最好的。
力求题目的字数要少,用词需要精选。至于多少字算是合乎要求,并无统一的'硬性'规定,一般希望一篇论文题目不要超出20个字,不过,不能由于一味追求字数少而影响题目对内容的恰当反映,在遇到两者确有矛时,宁可多用几个字也要力求表达明确。常见了繁琐题名如:'关于钢水中所含化学成分的快速分析方法的研究'。在这类题目中,像'关于'、'研究'等词汇如若舍之,并不影响表达。既是论文,总包含有研究及关于什么方面的研究,所以,上述题目便可精炼为:'钢水化学成分的快速分析法'。这样一改,字数便从原21个安减少为12个字,读起来觉得干净利落、简短明了。若简短题名不足以显示论文内容或反映出属于系列研究的性质,则可利用正、副标题的方法解决,以加副标题来补充说明特定的实验材料,方法及内容等信息,使标题成为既充实准确又不流于笼统和一般化。如?quot;(主标题)有源位错群的动力学特性--(副标题)用电子计算机模拟有源位错群的滑移特性'。
论文文献研究方法部分怎么写
论文文献研究方法部分怎么写,毕业论文对大学生是很重要的一项内容,如果毕业论文不通过就可能毕不了业了,论文的研究方法是很重要的,下面我和大家分享论文文献研究方法部分怎么写,一起来了解一下吧。
1、调查法
调查法是最为常用的方法之一,是指有目的、计划的搜集与论文主题有关的现实状况以及历史状况的资料,并对搜集过来的资料进行分析、比较与归纳。调查法会用到问卷调查法,分发给有关人员,然后加以回收整理出对论文有用的信息。
2、观察法
观察法是指研究者用自己的感官或者其他的辅助工具,直接观察被研究的对象,可以让人们的观察的过程中,可以拥有新的发现,还可以更好的启发人们的思维。
3、文献研究法
以一定的目标,来调查文献,从而获得关于论文的更加全面、正确地了解。文献研究法有助于形成对研究对象的一般印象,可以对相关资料进行分析与比较,从而获得事物的全貌。
论文研究方法最为典型的有调查法、观察法以及文献研究法,都是值得大家采用的方法。
论文写作中的研究方法与研究步骤
一、研究的循环思维方式
二、研究的路径
三、研究的分析方法
四、研究过程的设计与步骤
五、对传统研究思维模式的再思考
在我们指导研究生写论文的过程中,甚至于我们自己从事课题研究时,不禁让我们思考一系列有关研究的基本问题。例如,我们为什么要写论文?我们为什么要做研究?在我们探讨论文写作的过程中,我们是为了完成论文本身的写作,还是完成一个研究过程?写论文与做研究之间有什么联系与区别?如果论文写作应该反映一个研究过程,那么研究过程应该是什么样的?我们用什么样的方法进行研究?我们发现这些问题的解决,对指导研究生的论文写作有非常大的帮助。因此,本文就以我个人在从事教学课题研究和指导研究生完成论文中总结的一些有关研究方法与研究步骤的问题与大家交流共享。欢迎大家参与讨论。
世界上无论哪个领域都存在许多未知的事物,也存在着许多未知的规律。我们研究者的主要任务就是要不断地从大量的事实中总结规律,将之上升到可以指导实践的理论。然而理论也并不是绝对的真理,它也要在实践中不断地被修正,因此,就会有人对理论的前提和内容进行质疑,并提出新的猜想和新的思维。新的猜想和新的思维又要在实践中进行验证,从而发展和完善理论体系。我们探求未知事物及其规律就需要有研究的过程。这个过程,我们称之为研究的循环思维方式(Research Cycle)。用概念模型来表述就是[1]:
Facts —Theory—Speculation
事实——理论——猜想
上述从“事实”到“理论”,再进行“猜想”就构成了一般研究的思路。从事科学研究的人员既要侧重从事实到理论的研究过程,也同时在研究中要有质疑和猜想的勇气。而这一思路并不是一个终极过程,而是循环往复的过程。当猜想和质疑得到了事实的证明后,理论就会得到进一步的修正。
上述研究的循环思维方式就是我们通常说的理论与实践关系中理论来源于实践的过程。这个过程需要严密的逻辑思维过程(Thought Process)。通常被认为符合科学规律,而且是合理有效的逻辑思维方法为演绎法(Deduction)和归纳法(Induction)。这两种逻辑思维方式应该贯穿研究过程的始终。
另外,从知识管理角度看研究的过程,在某种意义上,研究的过程也可以被理解为,将实践中的带有经验性的隐性知识转化为可以让更多的人共享的系统规律性的显性知识。而显性知识的共享才能对具体的实践产生普遍的影响。研究者除了承担研究的过程和得出研究的结论之外,还要将这一研究的过程和结论用恰当的方式表述出来,让大家去分享。不能进行传播和与人分享的任何研究成果,对社会进步都是没有意义的。
我们认为,研究人员(包括研究生)撰写论文就是要反映上述研究过程,不断探索和总结未知事物及其规律,对实践产生影响。我们强调,论文的写作不是想法(idea)的说明,也不仅是过程的表述。论文的写作要遵循一定的研究方法和步骤,在一定的假设和前提下,去推理和/或验证某事物的一般规律。因此,对研究方法的掌握是写好论文的前提条件。
研究的路径(Approaches)是我们对某事物的规律进行研究的出发点或者角度。研究通常有两个路径(Approaches):实证研究和规范研究。
实证研究(Empirical Study)一般使用标准的度量方法,或者通过观察对现象进行描述,主要用来总结是什么情况(what is the case)。通常研究者用这种研究路径去提出理论假设,并验证理论。规范研究(Normative Study):是解决应该是什么(what should be)的问题。研究者通常是建立概念模型(Conceptual Model)和/或定量模型(Quantitative Model)来推论事物的发展规律。研究者也会用这种路径去建立理论规范。
我们认为,上述两种研究的路径不是彼此可以替代的关系。二者之间存在着彼此依存和相辅相成的关系。对于反映事物发展规律的理论而言,实证研究与规范研究二者缺一不可,前者为理论的创建提供支持和依据;后者为理论的创建提供了可以遵循的研究框架和研究思路。
针对上述两个路径,研究过程中都存在着分析(Analytical)过程,也就是解释为什么是这样的情况(Explaining why the case is as it is),而分析过程就需要具体的研究分析方法来支持。
[2]。然而,更多的学者倾向认为,定量与定性的方法问题更多的是从分析技术上来区别的[3]。因为,任何的研究过程都要涉及数据的收集,而数据有可能是定性的,也有可能是定量的。我们不能将定量分析与定性分析对立起来。在社会科学和商务的研究过程中既需要定量的研究分析方法,也需要定性的研究分析方法。针对不同的研究问题,以及研究过程的不同阶段,不同的分析方法各有优势。两者之间不存在孰优孰劣的问题。对于如何发挥各自优势,国外的一些学者也在探索将两者之间的有机结合[4]。
因此,定性分析方法是对用文字所表述的内容,或者其他非数量形式的数据进行分析和处理的方法。而定量分析方法则是对用数量所描述的内容,或者其他可以转化为数量形式的数据进行分析和处理的方法。一项研究中,往往要同时涉及到这两种分析方法[5]。定性分析是用来定义表述事物的基本特征或本质特点(the what),而定量分析是用来衡量程度或多少(the how much)。定性分析往往从定义、类推、模型或者比喻等角度来概括事物的特点;定量分析则假定概念的成立,并对其进行数值上衡量[6]。
定量分析的主要工具是统计方法,用以揭示所研究的问题的数量关系。基本描述性的统计方法包括:频数分布、百分比、方差分析、离散情况等。探索变量之间关系的方法包括交叉分析、相关度分析、多变量之间的多因素分析,以及统计检验等。定量研究之所以被研究者所强调,是因为定量分析的过程和定量结果具有某种程度的系统性(Systematic)和可控性(Controlled),不受研究者主观因素所影响。定量分析被认为是实证研究的主要方法。其优势是对理论进行验证(Theory Testing),而不是创建理论(Theory Generation)。当然,相对自然科学的研究,社会科学和商务研究由于人的因素存在,其各种变量的可控性被遭到质疑,因此,定量分析被认为是准试验法(Quasi-experimental approach)
定性研究有其吸引人的一面。因为文字作为最常见的定性研究数据是人类特有的,文字的.描述被认为具有“丰富”、“全面”和“真实”的特点。定性数据的收集也最直接的。因此,定性分析与人有最大的亲和力。恰恰也就是这一点,定性分析也具有了很大的主观性。如果用系统性和可控性来衡量研究过程的科学性。定性分析方法比定量分析方法更被遭到质疑[7]。然而,定性数据被认为在辅助和说明定量数据方面具有重要价值[8]。实际上,定性分析方法往往贯穿在研究过程的始终,包括在数据的收集之前,有关研究问题的形成、理论的假设形成,以及描述性分析框架的建立等都需要定性的分析过程,即对数据进行解释和描述等。如果遵循系统性和可控性的原则,那么定性分析方法在数据的收集过程中也有一些可利用的辅助工具,例如,摘要法、卡片法、聚类编码法等。在研究结论的做出和结论的描述方面,像矩阵图、概念模型图表、流程图、组织结构图、网络关系图等都是非常流行的定性分析工具。另外,从定性的数据中也可以通过简单的计算、规类等统计手段将定性分析与定量分析方法结合起来。
这里要指出的是,科学研究不能用想法(idea)本身来代替。科学研究需要有一个过程,而这个过程是用一定的方法来证明有价值的想法,并使之上升为理论;或者通过一定的方法来证明、创建或改进理论,从而对实践和决策产生影响。研究过程的科学性决定了研究成果是否会对实践和决策产生积极的影响效果[9]。
第五步、进行数据的处理和分析
数据的处理主要是保证数据的准确性,并将原始的数据进行分类,以便转化成可以进行进一步分析的形式。数据处理主要包括数据编辑、数据编码和数据录入三个步骤。数据编辑(Data Editing)就是要识别出数据的错误和遗漏,尽可能改正过来,以保证数据的准确性、一致性、完整性,便于进一步的编码和录入。数据编码(Data Coding)就是对所收集的第一手数据(例如对问卷开放式问题的回答)进行有限的分类,并赋予一个数字或其他符号。数据编码的主要目的是将许多的不同回答减少到对以后分析有意义的有限的分类。数据录入(Data Entry)是将所收集的第一手或者第二手数据录入到可以对数据进行观察和处理的计算机中,录入的设备包括计算机键盘、光电扫描仪、条形码识别器等。研究者可以用统计分析软件,例如SPSS等对所形成的数据库进行数据分析。对于少量的数据,也可以使用工作表(Spreadsheet)来录入和处理。
数据的分析就是运用上述所提到的定性或定量的分析方法来对数据进行分析。研究者要根据回答不同性质的问题,采取不同的统计方法和验证方法。对于有些研究,仅需要描述性的统计方法,对于另一些研究可能就需要对假设进行验证。在统计学中,假设的验证需要推论的统计方法(Inferential Statistics)。对于社会科学和商务的研究,一些研究是针对所获取的样本进行统计差异(Statistical Significance)的验证,最终得出结论是拒绝(Reject)还是不拒绝(Fail to Reject)所设定的假设条件。另一些研究则是进行关联度分析(Measures of Association),通常涉及相关分析(Correlation)和回归分析(Regression)。相关分析是通过计算来测度变量之间的关系程度;而回归分析则是为预测某一因变量的数值而创建一个数学公式。
值得注意的是,随着我们研究和分析的`问题越来越复杂,计算机和统计软件的发展使得多变量统计工具应用越来越广泛。如果多变量之间是从属关系,我们就需要从属关系的分析技巧(Dependency Techniques),如多元回归分析(Multiple Regression)、判别分析(Discriminant Analysis)、方差的多元分析(MANOVA,Multivariate Analysis of Variance)、典型相关分析(Canonical Analysis)、线性结构关系分析(LISREL,Linear Structural Relationships)、结合分析(Conjoint Analysis)等。如果多变量之间是相互依赖关系,我们就需要相互依赖关系的分析技巧(Interdependency Techniques),如因子分析(Factor Analysis)、聚类分析(Cluster Analysis)、多维尺度分析(Multidimensional Scaling)等。如果收集的数据有明显的时间顺序,我们不考虑变量之间的因果关系,而是重点考察变量在时间方面的发展变化规律,我们就需要时间序列分析(Time Series Analysis)。目前流行的统计软件,如SPSS对上述各种分析方法都提供非常好的支持。
第六步、得出结论,并完成论文
论文的撰写要结构合理、文字表达清楚确定,容易让人理解。形式上要尽量采取可视化的效果,例如多用图表来表现研究过程和研究结果。具体论文的撰写要考虑包含如下内容:摘要、研究介绍(包括背景、研究的问题、研究的目的)、研究的方法和步骤(样本选择、研究设计、数据收集、数据分析、研究的局限性)、研究的发现、结论(简要结论、建议、启示意义)、附录、参考文献。
针对社会科学和商务领域的问题研究,我们传统上所遵循的研究思维模式是:“提出问题、分析问题和解决问题”。我们承认这是一种创造性的思维过程。遵循这种思维方式可以帮助决策者快速找到问题,并解决问题。然而,用这一思维模式来指导研究的过程,容易使我们混淆研究者与决策者的地位,找不准研究者的定位。首先,这一研究思路和模式将问题的解决和问题的研究混在一起了。其次,没有突出,或者说掩盖了对研究方法的探讨和遵循。这种传统的思维方式是结果导向的思维方式。它忽略了问题的识别过程和研究方法的遵循过程。而从科学研究的角度看,问题的识别过程和研究方法的遵循过程是一项研究中非常重要的两个前提。问题的识别过程可以保证所研究的问题有很强的针对性,与理论和实践紧密联系,防止出现只做表面文章的情况,解决不了根本问题。研究方法的遵循过程可以保证研究结果的可靠性,使研究结果有说服力。当然,在此,我们并不是说明“提出问题、分析问题和解决问题”这一传统模式是错误的,也不否认研究的目的是指导实践。然而,我们觉得,这一传统研究思维模式太笼统,太注重结果导向,不足以说明科学的研究的一般方法和研究步骤。
在社会科学和商务研究中,运用这一传统的研究思路和模式来指导学生撰写论文,容易出现两个不良的倾向。一是使我们过于重视论文本身的写作过程,而忽略了论文写作背后的研究过程和研究方法。也就是只强调结果,不重视过程。在此情况下,论文的写作多半是进行资料的拼凑和整合。当然我们并不能低估资料的拼凑和整合的价值。可是,如果一味将论文的写作定位在这样的过程,显然有就事论事的嫌疑,无助于问题的澄清和问题的解决,也有悖于知识创造的初衷。特别是,既没有识别问题的过程,也没有形成研究问题和研究假设,甚至没有用任何可以遵循的研究分析方法,就泛泛对一个问题进行一般描述,进而提出感觉上的解决方案。这种研究结果是很难被接受的。第二个不良的倾向是上述传统的研究思路和模式使我们辨别不清我们是在做研究,还是在做决策。研究通常是在限定的一个范围内,在一定的假设前提下进行证明或推理,从而得出一定的结论。我们希望这个结论对决策者能产生影响。然而,决策者毕竟与研究者所处的地位是不一样的,考虑的问题与研究者或许一致,或许会很不一致。有价值的研究是要给处在不同地位的决策者(或者实践者)给予启示,并促其做出多赢的选择。因此,传统的研究思维模式缺乏研究的质量判定标准,缺乏系统性和可控性,也不具备可操作性,容易让研究者急功近利,盲目追求片面的终极的解决方案。
在指导对外经济贸易大学研究生的实践中,我们曾试图改变以往的传统思维模式,尝试让我们的研究生将论文的写作与研究过程结合起来,特别注重研究的过程和研究方法,并且要求在论文的写作中反映这些研究的方法与步骤。例如,2002届研究生万莲莲所写的《电子采购系统实施中的管理因素-摩托罗拉公司电子采购系统实施案例研究》硕士论文就是在这方面所做的最初探索。此论文的结构就分为综述、指导理论、方法论、数据分析,以及研究结论和启示等五个主要部分,运用了问卷调查和深度访谈等定性和定量的各种具体方法。其研究结论具有非常强的说服力,因为研究者并不限于第二手资料的收集、整理和加工,而是借鉴前人的理论研究框架,运用问卷定量调查等手段,遵循案例研究的方法,对第一手资料进行收集、处理和分析之后得出的结论,对实践具有较强的指导意义。相同的研究方法,我们又应用在其他研究生的论文写作过程中,例如2002届龚托所写的《对影响保险企业信息技术实施的主要因素的研究》、2003届王惟所写的《对中国铜套期保值现状的研究》,以及2003届马鸣锦所写的《中国银行业知识管理程度与网络银行发展程度的关系研究》等。通过论文写作,这些研究生的确掌握了一般研究的方法和研究的步骤。以上的研究结论对教学和实践直接有借鉴的意义。在教学和咨询过程中,其方法和结论都得到了肯定。据多方反馈,效果还是非常好的。
【注释】:
[1]这是笔者在美国芝加哥自然博物馆看恐龙展览时了解的美国科学家的基本研究思路而得到的启示。
[2] Robson, Colin (1993), Real World Research: A Resource for Social Scientists and Practitioner-Researcher. Blackwell Publishers, P303。
[3] Bryman, A. (1988), Quality and Quantity in Social Research. London: Unwin Hyman.我们发现许多文献资料将定量与定性分析方法称为定量与定性技术(techniques)
[4] Cook, . and Reichardt, . (1979) Qualitative and Quantitative Methods in Evaluation Research. Newbury Park and London: Sage. Ragin, C. C. (1987) The Comparative Method: moving beyond qualitative and quantitative strategies. Berkeley, Cal.: University of California Press.
[5]Robson, Colin (1993), Real World Research: A Resource for Social Scientists and Practitioner-Researcher. Blackwell Publishers, P307。
[6] John Van Maanen, James M. Dabbs, Jr., and Robert R. Faulkner, Varieties of Qualitative Research (Beverly Hills: Calif.: Sage Publications, 1982), P32
[7] 这是因为社会科学和商务研究中包括了人的因素,而人本身作为分析者具有自身的缺陷。例如:数据的有限性、先入为主的印象、信息的可获得性、推论的倾向性、思维的连续性、数据来源可靠性、信息的不完善性、对信息价值判断误差、对比的倾向性、过度自信、并发事件与相关度的判断,以及统计数据的不一致性等。上述缺陷的总结与分析来源于Sadler, D. R. (1981) Intuitive Data Processing as a Potential Source of Bias in Educational Evaluation. Educational Evaluation and Policy Analysis, 3, P25-31。
[8] Robson, Colin (1993), Real World Research: A Resource for Social Scientists and Practitioner-Researcher. Blackwell Publishers, P371。
[9] Ronald R. Cooper, C. William Emory (1995, 5th ed) Business Research Methods, IRWIN, P352
传统时间序列聚类的缺点: 1)时间序列聚类的研究一般采用等长划分,会丢失重要特征点,对聚类结果有负面影响。 2)采用时间序列测量值不能准确度量相似度。 如下埃博拉出血热、卫生部在数值上很相似,但教育部和卫生部在形状更相似。若是以形状作为度量传统的欧氏距离可能就不太合适了。 不等长时间序列滑窗STS聚类算法: 1)通过标准分数z_score预处理,消除时间序列观测值数量级差异的影响。 2)更改了相似度计算的方式,采用基于滑窗的方法计算不等长序列的距离。 3)采用类k-means的聚类算法的中心曲线计算方法。 时间序列数据因其趋势信息的直观展现形式,广泛应用于社交网络、互联网搜索和新闻媒体数据分析中。例如:Google应用搜索流感的相关信息的时间序列预测流感爆发趋势。根据某话题热度时间序列数据趋势的规律性,通过聚类区分不同类型的时间序列数据。同一类簇的Twitter话题具有相同或相似的发展趋势,进而应用于话题的发展趋势的预测。 时间序列聚类算法可以分为两类。 1)基于原始数据的时间序列聚类算法。 2)基于特征的时间序列聚类算法。 基于特征的时间序列聚类算法指根据原始数据从时间序列中提取形态特征(极值点位置、分段斜率)、结构特征(平均值、方差等统计值特征)、模型特征(模型的预测值),从而根据这些特征值进行聚类。这类方法的优点解决了不等长时间序列聚类问题,缺点是减弱了原始数据值得影响,聚类的形状趋势信息往往比较粗糙。 3. HOW 一、距离度量公式 STS距离计算的是累加时间序列间每个时间间隔斜率差的平方,公式 如上图所示,g1、g2和g2、g3的欧式距离的数值更相近。g1、g2的STS距离大于g2、g3的数值。在形状距离上,STS距离计算方式表现更好,一定程度上可以解决欧式距离度量时间序列局部特征信息确实和受观测数值数量级差异影响大的问题,但是依旧无法度量不等长时间序列的距离。 基于滑窗的STS距离公式。 如上图所示,当计算不同长度的时间序列的s和r的距离时,先不断平移时间序列s,然后找到s和r距离最近的字段,就如同上图虚线之间的位置,此时s和r距离最近,这个最近距离作为s和r之间的距离。 二、预处理过程 z-score标准分数用数据观测值和观测值平均值的距离代替原观测值。z-score处理后的数据平均值为0,标准差为1。标准差的作用是统一量纲,去除数值的数量级差异影响。 总结 本论文提出了形状距离的不等长时间序列的聚类方法。我们可以学到的有 1)z-score统一量纲,消除数值数量级差异,聚类效果更好。 2)计算x和y时间序列的STS距离,可以平移其中一个时间序列,求最小值作为STS距离值,这就消除了同一时间序列不同起始点的影响。
异常值是指一个时间序列观测值中,原来序列一般水平的极端大值和极端小值,有时称为离群点或野值。 用SAS软件运行上述程序,可以从图形中直观看到是异常值。 修正方法一: 如果X_(t+1)是一个异常值,我们可以用^X_(t)来修正X_(t+1),即 ^X_(t)=2X_(t)-X_(t-1) 这里我们用2*代替
动态图上的异常检测任务包括:发现异常的对象、关系、时点。动态图上的异常检测与静态图上的异常检测不同的地方在于:
本文首先将异常类型分为:anomalous vertices, edges, subgraphs, and events(or change),将使用的方法分为:community detection, MDL(minimum description length) and compression, decompression, distance, probabilistic, 按每种方法使用的异常类型进行了文献学分类。各方法的主要参考文献见表1:
本文假设不同时点的节点和边都有唯一标签从而不会混淆,定义 为图序列,其中 为总时间步, , 为节点集, 为边集, 时称 为图流。本文的主要记号见表2:
给定 ,节点集 ,打分函数 ,定义异常节点集为 ,使得对于 , ,其中 为得分 的摘要式统计。
一个典型的异常节点如图1,其可由基于社区检测的方法识别,即: 其中 为节点所属的社会划分, 为异或操作。
给定 ,边集 ,打分函数 ,定义异常边集为 ,使得对于 , ,其中 为得分 的摘要式统计。
一个典型的异常边如图2,可令 ,其中 为时间步 时 的权重,可以为边的概率。
给定 ,子图集 ,打分函数 ,定义异常集为 ,使得对于 , ,其中 为得分 的摘要式统计。
两种典型的异常子图如图3,其中(a)为图的收缩,(b)为图的分裂。图的收缩可根据子图中的的数量衡量,即 ,图的分裂可由不同时间点社区的数量衡量。
与异常节点、边、子图检测不同,异常事件或异常突变检测检验的是时点。
给定 ,打分函数 ,若时点 满足: , ,则称时点 为一个事件。
给定 ,打分函数 ,若时点 满足: , ,则称时点 为一个突变。
通常的异常检测都使用两步法:第一步,基于特征的图表示;第二,基于机器学习的异常检测。
基于社区检测的方法关注的是社区和关联节点的演化过程,特征向量的生成亦基于图中的社区结构。不同社区检测方法的区别在于:(1)社区结构的领域,如社区内的连接性.单个节点在每一步所属的社区;(2)社区结构的定义,如基于概率的软社区定义.硬社区定义。基于社区检测的方法可用于异常定点、子图、突变的检测。
基于软社区匹配并单独考察每一个社区,我们可以在连续时间步内计算每个节点归属的平均变化,如果某个节点归属的平均变化显著异于其他节点,则称其为演化社区异常点。
节点社区归属的变化可以构造一个时间模式,称为软时序模式。一些文献使用了最小描述长度(MDL)结合非负矩阵分解的方法来自动检测节点角色及构造转移模型。多数文献通过抽取图中不同节点的共同模式,并比较每个节点与共同模式之间的差异来定义异常节点。部分文献使用了交替迭代优化替代常用的两步法。部分文献使用了corenet的概念,该概念不同于单纯使用density,modularity,hop-distance等概念,而是使用了节点间的加权路径,即一个节点的corenet包含该节点与权重大于给定阈值的两跳邻居。假设两个强连接的节点通常属于同一社区,则如果移除一个节点的两个邻居,一个邻域具有较高的边权重,另一个具有较低的边权重,则移除较高权重邻居的影响应更大,在每一步,每个节点首先被赋予一个异常得分,该得分衡量了其corenet的变化,异常得分较高的 各节点将被视为异常节点。
文献【69】定义了六种基于社区的异常:shrink, grow, merge, split, born, and vanish。其使用图和社区代表(representatives)进行比较以减少计算量,图代表为出现在t时刻,同时还出现在t-1、t+1或t+1与t-1时刻的节点集,社区代表是出现在其他社区最少的定点集合,基于社区代表和图代表,基于规则,判断社区是否落在六种异常中。
文献【73】定义了一种基于社区的异常:comet,周期性出现或消失的社区,演化图可表示为一个张量,然后基于低秩张量分解和MDL原则进行comet检测。
文献【3】基于多种信息源构造时序复网络,识别跨时间和网络的稳定社区结构。行为相似的网络可以用聚类或前验知识分组,如何一个社区结构在组内跨时间步稳定,但在组外没有对应社区,则该社区即为异常,如何两个社区共享一定比例的定点则称为对应。
社交网络可以根据特定时间窗口内的发文量定义事件,一个经历共同事件的组即构成一个异常子图。
通过划分图流为一致的分割来检测,分割是依据划分的相似性。
通过将最新图的顶点分区与当前增长分割中的图的分区进行比较,可以在线找到这些分割。【67】基于可返回随机的相关矩阵和modularity最大化来进行定点划分,当新图的划分与当前分割的划分有很大不同时,一个新段开始,并将新图的时间点输出为检测到的突变。两个划分的相似度使用Jaccard系数定义。GraphScope思路类似,但基于MDL来指导划分和分割。
基于MDL原则和基于该原则的压缩技术利用数据中的模式和规律性实现紧凑的图表示,其主要通过将图的邻接矩阵表示为一个二进制串,如果矩阵的行和列可以重新排列使矩阵的二进制字符串表示的熵最小化,那么压缩损失(也称为编码损失)就会最小化。数据指向的特征都来自于图或其特定子结构的编码代价;因此,异常被定义为抑制可压缩性的图或子结构(如边)
对于一条边和对应子图,如果包含该边的编码损失比不包含该边的编码损失高,则称该边为异常边。
【74】使用了一种两步交替迭代法进行节点的自动划分,当节点划分的熵收敛时,根据包含和不包含该边的编码损失,该方法也给出了边的异常度得分。
突变检测的主要思路是:连续时间步间的图是相似的,因而可以分为一组,从而降低压缩比。压缩比的上升表明新一个时间步的图与已有的图差异明显,因此是一个突变。
该方法将图集合表示为一个tensor,在该tensor上进行矩阵分解或降维,基于分解或降维后的图发现其模式和规律性,该方法可以融合更多属性信息,最常用的方法是SVD和PARAFAC(广义SVD)。
矩阵分解可用于计算每个节点的活跃(activity)向量,如果某个节点的活跃向量在连续时间步间变化明显,则称为异常节点。
【87】首先抽取每个节点的边相关矩阵 ,即该节点的每个邻域都有一行一列,对于节点 的矩阵中的一个entry 代表了边 和 间加权频率的相关性,加权频率由衰减函数获得,时间越近权重越高。M的最大特征值和对应特征向量即顶点的活跃向量的summary及边的相关性。通过寻找这些值的变化而形成的时间序列用于计算每个时间步长中每个顶点的分数,得分高于阈值的顶点将被输出为异常。
基于分解的异常事件检测有两种方法:(1)先基于分解方法来近似原始数据,然后以重建损失作为近似优劣的指标。如果某个子张量、切片或元素的重建损失很高,则即可以视其与周围数据不同特征不同,将其标记为异常事件、子图或节点。(2)跟踪奇异值和向量,以及特征值和特征向量,以检测异常顶点的显著变化。
为解决 intermediate blowup 问题(即计算中输入和输出张量超过内存限制),【81】提出了momery-efficient tucker(MET)分解方法,该方法源于Tucker分解,Tucker分解将高阶tensor用一个core tensor和每个mode(维度)矩阵表示。【80】使用了Compact Matrix Decomposition(CMD),其可以用来计算给定矩阵的稀疏低秩矩阵。使用CMD对图流中的每个邻接矩阵进行分解,可得到重建值的时间序列,基于重建值序列可进程事件检测,典型应用有COLIBRI, PARCUBE,其中后者在斑点(spotting)异常中的表现更高效。
【84】使用了随机图模型进行基于概率模型的检测,其将真实图邻接矩阵和期望图的邻接矩阵间的差异构造为残差矩阵,对残差矩阵执行SVD,再使用线性Ramp滤波器,基于top奇异值即可进行异常时间窗口检测,通过检查正确的奇异向量来确定相应的顶点。
除以上方法,我们还可以基于分解空间的显著变化来识别事件。【77】通过对数据执行PCA,计算的特征向量可以分为正常和异常两个集合,方法是检验数据中的值映射到特征向量。在每个时间步,根据特征值对特征向量进程降序排列,第一个特征向量则包含一个在其余值的3个标准差之外的投影点,此后的每个特征向量,都构成了异常集。第二步即是将数据映射到正常和异常子空间,一旦完成了这些操作,当从上一个时间步长到当前时间步异常成分的修改超过一个阈值时,即将其视为一个事件。【83】扩展了该方法,提出了联合稀疏PCA和图引导的联合稀疏PCA来定位异常和识别对应的顶点。通过为异常集使用稀疏的成分集,可以更容易识别负责的顶点。顶点根据它们在异常子空间中对应行的值得到一个异常分数,由于异常分量是稀疏的,不异常的顶点得分为0。
图的活跃向量 为主成分,左奇异向量对应最大奇异值,奇异值和奇异向量通过对加权邻接矩阵进行SVD得到。当活跃向量大幅异于“正常活跃"向量时,即定义该时点为突变点,”正常活跃“向量由前序向量得到。
正常活跃向量 ,它是对最后W时间步中活动向量形成的矩阵进行SVD得到的左奇异向量。每个时点都定义一个得分 ,其代表了当前活跃向量与正常向量的差异。异常可以使用动态阈值方案在线发现,其中得分高于阈值的时间点被输出为变化。通过计算正常向量和活动向量之间的变化比率来找到负责的顶点,与变化最大的索引所对应的顶点被标记为异常,类似的方法也可以用于节点-节点相关矩阵的活跃向量,或基于邻居相似度的节点-节点相关矩阵。
基于距离的异常检测算法的不同点在于选择用于提取和比较距离度量,以及它们用于确定异常值和相应图的方法。
如果一些边的属性演化异于正常演化,则该边就是一个异常边。
边之间的权重使用衰减函数定义,在每个时间步长中,根据相似度得分的变化之和计算每条边的异常值得分,使用阈值或简单的 作为异常值标准。
将网络视为边的流,意味着网络没有固定的拓扑,一个边的频率和持久性可以用来作为其新颖性的指标,【48】定义了集合系统不一致性指标来度量频率和持久性,当一条边到达时,计算其差异,并与活动边集的平均不一致性值进行比较,如果边的加权不一致性大于平均不一致性的阈值水平,则声明该边为异常边,基于异常边,可以进一步识别其他异常图元素(如顶点,边,子图)。
具有许多“异常”边的子图即是异常的子图。
【52】将边的权重视为异常得分,每个时间步长上的每条边都有它自己的异常分数,给定了该边权值在所有图序列的分布,该分数表示在该特定的边上看到该特定权值的概率函数。或者,为网络中的边分配异常值分数的现有方法的输出可以用作为该方法的输入。后一种方法允许应用于任何能够为边分配异常值分数的网络,一旦完成每条边的异常打分,即可发现显著异常的区域(SARs),即一个窗口内的固定子图,其类似于HDSs。【112】提出了一种迭代算法,该算法首先固定子图发现最优时间窗口,然后固定时间窗口发现最优子图。【97】拓展了该方法,允许子图渐变,即在相邻时间步间增加或移除顶点。
定义函数 为测度图距离的函数,将其应用于连续图序列,即得到距离序列,基于该距离序列应用一些启发式算法(如基于移动平均阈值的 取值)即可得到异常事件。
称每个顶点及其egonet的特征为局部特征,整张图的特征为全局特征。每个顶点的局部特征可聚合为一个向量,基于该向量的各阶矩可构造signature向量,利用signature向量间的Canberra距离(归一化的曼哈顿距离)可构造图之间的距离函数【93】。【92】利用全局特征,定义了一种基于dK-2序列的距离测度,将高于阈值的特征视为异常点。
【96】使用了顶点亲和度(即一个顶点对另一个顶点的影响,可以用于快速信念传播)得分作为signature向量,其基于连续时间步技术顶点亲和度,基于马氏距离度量两个图的相似度,亲和度得分的变化反应并适应变化的影响水平,例如桥边的移除比正常边移除的得分更高。利用单个移动范围的质量控制,可以对相似度得分的时间序列设置一个移动阈值,如指数移动平均加权。
作为特征相似度的补充,我们也可以比较两个图的结构差异来度量突变的大小,这类方法致力于发现定义距离的函数而非发现特征向量。【88】计算了异常网络的10种距离函数,使用ARMA模型构造特征值的正常模型,然后基于正常模型计算时点的残差,残差超过给定阈值的时间即可标记为异常。10种距离函数中,基于最大共有子图的方法表现最好。【90】使用了五中得分函数(顶点/边重叠,顶点排序,向量相似度,序列相似度,signature相似度)来检测三种异常(子图缺失,顶点缺失,连通性变化),表现最好的方案是抽取每个顶点和边的特征构造signature向量,使用SimHash定义距离。
我们还可以通过计算每个图的稳健性序列来检测事件,稳健性序列是图连通性的测度,具有高稳健性的图即使在去除一些顶点或边的情况下,也能保持相同的一般结构和连通性,事件检测即发现稳健性值异常变化的时点【95】。【89】使用的是图半径的变体作为稳健性指标,图半径的定义是基于所有顶点的平均离心度,而非常用的最大离心度。
基于概率理论、分布、扫描统计学等方法可以构造“正常”样本的模型,偏离该模型的样本即视为异常,这类方法的主要区别在于构造方法、建模对象、离群值定义。
主要有两种方法:一,构造扫描统计时间序列并检测离均值若干标准差的点;二,顶点分类。
扫描统计常称为滑动窗口分析,其在数据的特征区域中发现测度统计量的局部最小或最大值。对某个特定图,扫描统计量可以是图不变特征的最大值,如边的数量。
【8】使用了一个适应测度统计量的变量,即每个节点的0-2度邻居数,然后对每个顶点的局部统计量使用近期值的均值和标准差进行标准化,图的扫描统计量即最大的标准化局部统计量。标准化可以解释每个顶点的历史信息,代表每个顶点的统计量只与自己的历史信息有关而与其他顶点无关。这保证测度的最大变化与变化的绝对量无关而与比例有关。基于扫描统计量标准化时间序列,将序列均值的五个标准差作为异常值。最负责的顶点被确定为为整个图的扫描统计值所选择的顶点。
类似于使用邻居进行扫描统计,我们还可以用Markov随机场(MRF)来发现节点的状态,并通过信念传播算法推断最大似然分配,其中,每个顶点标签取决于其邻居节点。【99】通过发现二部核来检测异常点(即犯),二部核定义为犯与从犯间的交互。利用边的插入或删除只影响局部子图这一事实,它在添加新边时逐步更新模型。在传播矩阵中,一个顶点可以处于三种状态之一:欺诈者、共犯者或诚实者。
边异常检测通常使用计数过程建模,统计上显著异于该模型的边标记为异常边。
【50】用贝叶斯离散时间计数过程来建模顶点间的通信次数(边权重),并根据新图更新模型。基于学习到的计数的分布,对新观测的边进行预测 值计算,基于 值标记异常顶点对。
首先用固定的子图,多重图,累积图来构造预期行为的模型,对模型的偏离可作为子图异常检测的依据。
【104】结合扫描统计量和隐马尔可夫模型(HMM)建模边行为,其使用的局部扫描统计量是基于两种图形状:k-path图和星型图,其将滑动窗口的扫描统计数据与其过去的值进行比较,并使用在线阈值系统识别局部异常,局部异常是所有统计上显著的子图(代表k个路径或恒星)的并集。
另一个建模动态图的方法是基于多重图,其中平行边对应于两个连续时间步顶点间的通信,初始的多重图可分解为多个针对每个时间窗口的叠套子图(TSG),TSG满足两个条件:(1)对于任何两个有共同点的边,首先开始通信的边最后完成通信;(2)存在一个根顶点r,它没有传入的边,并且有一条到TSG中每个顶点的路径。出现概率低的TSG视为异常子图。【102】
累积图即为包含直到当前时点的所有边的图,边权重依据衰减函数定义,通过识别“持久模式”来定义子图的正常行为。该持久模型识别模型如下:首先构造一种图,该图每个边根据时间来加权,然后基于该图迭代抽取最重连接成分来发现。随着累积图的发展,提取的子图将被监控,并将其当前活动与基于最近行为的预期活动进行比较来进行子图异常检测。【101】
事件检测可以基于偏离图似然模型或特征值分布的偏差来进行。
【103】提出了一种新的蓄水池抽样方法来抽取图流的结构摘要,这种在线抽样方法维持多个网络划分以构造统计上显著的摘要,当一个新图进入图流,每个边都根据不同分区的边生成模型计算出一种似然性,然后以这些似然性的几何均值作为全局图似然性。
【98】使用了类似的边生成模型,每个边 的概率都存储在矩阵 中,概率基于期望最大化估计,基于所有收发对的分布,然后为每个收发对给出潜在得分,基于所有边似然得分的均值即得到每个图的得分。
【100】计算了特征值和压缩特征等式的分布(而非计算收发对的分布),基于每个顶点都存在一个顶点局部特征时间序列的假设,可在每个时间步构造一个顶点-顶点相关矩阵,通过保留最大特征值和一组低维矩阵(每个顶点对应一个矩阵),可对相关矩阵的特征方程进行压缩,通过学习特征值和矩阵的分布,即可发现异常顶点和事件。当特征值偏离期望分布时,即认为发生了事件,当顶点的矩阵偏离矩阵分布时,可认为该顶点为异常顶点。
传统时间序列聚类的缺点: 1)时间序列聚类的研究一般采用等长划分,会丢失重要特征点,对聚类结果有负面影响。 2)采用时间序列测量值不能准确度量相似度。 如下埃博拉出血热、卫生部在数值上很相似,但教育部和卫生部在形状更相似。若是以形状作为度量传统的欧氏距离可能就不太合适了。 不等长时间序列滑窗STS聚类算法: 1)通过标准分数z_score预处理,消除时间序列观测值数量级差异的影响。 2)更改了相似度计算的方式,采用基于滑窗的方法计算不等长序列的距离。 3)采用类k-means的聚类算法的中心曲线计算方法。 时间序列数据因其趋势信息的直观展现形式,广泛应用于社交网络、互联网搜索和新闻媒体数据分析中。例如:Google应用搜索流感的相关信息的时间序列预测流感爆发趋势。根据某话题热度时间序列数据趋势的规律性,通过聚类区分不同类型的时间序列数据。同一类簇的Twitter话题具有相同或相似的发展趋势,进而应用于话题的发展趋势的预测。 时间序列聚类算法可以分为两类。 1)基于原始数据的时间序列聚类算法。 2)基于特征的时间序列聚类算法。 基于特征的时间序列聚类算法指根据原始数据从时间序列中提取形态特征(极值点位置、分段斜率)、结构特征(平均值、方差等统计值特征)、模型特征(模型的预测值),从而根据这些特征值进行聚类。这类方法的优点解决了不等长时间序列聚类问题,缺点是减弱了原始数据值得影响,聚类的形状趋势信息往往比较粗糙。 3. HOW 一、距离度量公式 STS距离计算的是累加时间序列间每个时间间隔斜率差的平方,公式 如上图所示,g1、g2和g2、g3的欧式距离的数值更相近。g1、g2的STS距离大于g2、g3的数值。在形状距离上,STS距离计算方式表现更好,一定程度上可以解决欧式距离度量时间序列局部特征信息确实和受观测数值数量级差异影响大的问题,但是依旧无法度量不等长时间序列的距离。 基于滑窗的STS距离公式。 如上图所示,当计算不同长度的时间序列的s和r的距离时,先不断平移时间序列s,然后找到s和r距离最近的字段,就如同上图虚线之间的位置,此时s和r距离最近,这个最近距离作为s和r之间的距离。 二、预处理过程 z-score标准分数用数据观测值和观测值平均值的距离代替原观测值。z-score处理后的数据平均值为0,标准差为1。标准差的作用是统一量纲,去除数值的数量级差异影响。 总结 本论文提出了形状距离的不等长时间序列的聚类方法。我们可以学到的有 1)z-score统一量纲,消除数值数量级差异,聚类效果更好。 2)计算x和y时间序列的STS距离,可以平移其中一个时间序列,求最小值作为STS距离值,这就消除了同一时间序列不同起始点的影响。
毕业论文参考文献汇总
大学生活要接近尾声了,毕业论文是毕业生都必须通过的,毕业论文是一种有计划的检验大学学习成果的形式,写毕业论文需要注意哪些格式呢?以下是我精心整理的毕业论文参考文献,希望能够帮助到大家。
1、唐国兴,计量经济学——理论、方法和模型,复旦大学出版社,1988。
2、张寿、于清文,计量经济学,上海交通大学出版社,1984。
3、邹至庄,经济计量学,中国友谊出版公司,1988。
4、古扎拉蒂 计量经济学(上,下),中国人民大学出版社2000年中译本。
5、伍德里奇,计量经济学导论——现代观点,中国人民大学出版社2003年中译本。
6、William H. Greene, Econometrics, 4th ed. 清华大学出版社2001年影印本。
7、汉密尔顿,时间序列分析,中国社会科学出版社1999中译本。
8、易丹辉,数据分析与Eviews应用,中国统计出版社2002。
9、张晓峒主编,计量经济学软件Eviews使用指南,南开大学出版社2003。
10、拉姆.拉玛丹山《应用计量经济学》,机械工业出版社2003中译本。
11、Box, Jenkins, Reinsel《时间序列分析:预测和控制(第三版)》,中国统计出版社,1997年中译本。
12、陆懋祖《高等时间序列计量经济学》,上海人民出版社,1999。
13、韩德瑞、秦朵《动态经济计量学》,上海人民出版社,1998。
14、谢识予、朱弘鑫《高级计量经济学》复旦大学出版社,2005。
15、弗朗西斯《商业和经济预测中的时间序列模型》,中国人民大学出版社,2002。
16、朱平芳《现代计量经济学》,上海财经大学出版社,2004。
17、Pindyck R S, Rubinfeld D L, Econometrics Models and Economic Forecasts, 4th ed. The McGraw-Hill Companies, Inc. 1998.
18、Johnston, J. and J. DiNardo, 1997, Econometric Methods, 4th ed., McGraw-Hill.
19、Wallace T D, Silver J L. Econometrics-An Introduction. Addison-Wesley Publishing Company, Inc. 1988.
20、Gujarati, D. N., 1995, Basic Econometrics, 3nd. ed., McGraw-Hill.
[1] 刘晨艳. 浅谈幼儿师范学校数学课程改革[J]. 文理导航(中旬). 2013(01)
[2] 张奠宙等编着.数学教育学导论[M]. 高等教育出版社, 2003
[3] 黄瑾,学科教学知识与幼儿园教师的专业发展[J]. 幼儿教育. 2011(36)
[4] 鲍宇,幼师生职业口语素养培养的研究[D]. 华东师范大学 2007
[5] 杨洁,幼师生学习倦怠的现状调查[D]. 内蒙古师范大学 2013
[6] 萨如拉,蒙汉幼师生心理健康问题研究[D]. 内蒙古师范大学 2013
[7] 张奠宙等编着.数学教育学导论[M]. 高等教育出版社, 2003
[8] 矫德凤等编.幼儿计算教学法[M]. 人民教育出版社, 1987
[9] 曹才翰,章建跃着.数学教育心理学[M]. 北京师范大学出版社, 1999
[10] 沈誉辉,培养中职学生数学应用意识的探索[J]. 现代教育科学. 2006(06)
[11] 王子兴,论数学素养[J]. 数学通报. 2002(01)
[12] 龚劭(丰刀女). 幼儿在数学领域发展的现状与幼儿园数学教育问题的个案研究[D]. 华东师范大学 2003
[13] 张丽,幼小数学教学衔接问题研究[D]. 广西师范大学 2010
[14] 邹晴,我国全日制小学教育硕士培养模式的探究[D]. 首都师范大学 2014
[15] 车艳,小班幼儿家庭中数学教育的调查研究[D]. 苏州大学 2009
[16] 连玥,家长对幼儿园教育需求的研究[D]. 河南大学 2009 师范大学 2009
[17] 孙永清,幼师生学习动力匮乏的原因及对策研究[D]. 东北师范大学 2007
[18] 郑向梅,农村教育硕士生的`教师教学满意度研究[D]. 西北师范大学 2014
[19] 王静,幼师生心理适应状况的调查研究[D]. 内蒙古师范大学 2013
[20] 周超,关于如何提升幼师学生数学素养的相关研究[J]. 中国校外教育. 2011(22)
[1]李志生,梅胜等.以就业为导向的毕业设计创新能力培养实践与探讨[J].广东工业大学学报(社会科学版),2006(增刊).
[2]孙政荣,大学生毕业设计与就业之间的矛盾分析[J].宁波大学学报(理工版),2005(4).
[3]姚裕群,大学生就业指导问题调查与研究[J].中国大学生就业,2005(7).
[4]晋燕“目标体验自主探究”课堂教学模式的研究与实践课题方案,《教育前沿与探索》
[5]马连湘郭桂萍广告学实践教学环节与方案的设计,《吉林广播电视大学学报》
[6]专业指在专业人才培养目标描述中,毕业生就业岗位涉及广告行业的专业。
[1]张红,易崇英。广告学专业毕业设计(论文)质量评价体系的构建[J].新余高专学报,2009(10).
[2]陈月明,美国高校广告教育[J].宁波大学学报(教育科学版),2006(2).
[3]杨先顺,建构我国广告创新型教育模式的思路[n当代传播,2008(5).
[4]张信和,苏毅超.广告专业“业务专案组”型毕业设计的教学实践与探讨[J].成人教育,2004(12).
[5]陈培爱.中外广告史[M]北京:中国物价出版社,2001.