时间序列研究论文

时间序列数据挖掘研究论文提纲

论文摘要: 随着计算机与信息技术的普及和大容量存储技术的发展,人们在日常事务处理和科学研究中逐渐积累了大量宝贵数据,这些数据背后蕴藏着对决策有重要参（略）.如何从这些历史数据中提取需要的信息正成为数据挖掘领域（略）在现实生活中,时间是数据本身固有的因素,在数据中常常会发现时序语义问题.时序数据的出现使得有必要在数据挖掘中考虑时间因素.时序数据在现实生活中广泛存在,如金融市场、工业过程、科学试验、医疗、气象、水文、生物信（略）储规模呈现爆炸式增长.因此对时间序列数据挖掘问题进行深入研究是非常必要和富有挑战性的. 从20世纪末开始,复杂网络的研究已经渗透到生命科学、数理学科和工程学科、社会科学等众多不同的领域.对复杂网络的研究,已成为科（略）个极其重要的富有挑战性的课题.其研究热点之一是寻找复杂网络中的社团结构,事实上这个过程就是一个聚类的过程,所以研究复杂网络社团划分新算法,对于时间（略）重要意义. 本文结合时间序列数据挖掘和复杂网络理论,开展了如下的研究工作: 综述了时间序列数据挖掘和时间序列模式挖掘的研究现状,指出了研究的现实意义.介绍并分析了最具代表性的...
With the popularity of computer and information technology,and the great（omitted）nt of storage technique of high capacity,,a great amount of data is accumulated in daily work and in s（omitted）research.Much potentially useful knowledge is hided behind data.Today how to manage and use（omitted）e series data efficiently and extract useful information is an important problem in dat（omitted）ime is the inherent attribute of data,so we should take time into account when mining association rules.Time serie...
目录:摘要第4-5页
Abstract 第5页
1 绪论第8-16页
　　·选题背景第8-9页
　　·国内外研究现状第9-14页
　　　　·数据挖掘研究现状第9-11页
　　　　·时间序列数据挖掘的研究现状第11-12页
　　　　·序列模式挖掘研究现状第12页
　　　　·频繁趋势挖掘的研究与发展第12-13页
　　　　·聚类问题的研究现状第13-14页
　　·本文主要研究内容第14-16页
2 研究背景第16-24页
　　·数据挖掘与知识发现第16页
　　·数据挖掘的起源第16-17页
　　　　·引发数据挖掘的挑战第16-17页
　　　　·相关领域对数据挖掘的`推动第17页
　　·数据挖掘的过程第17-18页
　　·数据挖掘的分类第18-20页
　　·数据挖掘的方法第20-22页
　　·数据挖掘系统第22页
　　·数据挖掘软件的评价第22-24页
3 时间序列数据挖掘第24-36页
　　·时间序列第24-25页
　　　　·时间序列概念第24页
　　　　·时间序列分类第24-25页
　　·时间序列数据挖掘研究第25-28页
　　·序列模式挖掘第28-34页
　　　　·问题描述第28页
　　　　·序列模式挖掘第28-29页
　　　　·序列模式挖掘算法分析与比较第29-34页
　　·时间序列聚类分析第34-36页
　　　　·复杂网络社团划分方法第34页
　　　　·时间序列聚类与复杂网络社团结构划分第34-36页
4 模糊频繁模式挖掘研究第36-44页
　　·趋势分析第36页

时间序列好发论文吗

时间序列好发论文。根据查询相关公开信息资料显示，从系统论的角度看，时间序列就是某一系统在不同时间（地点、条件等）的响应，围绕时间序列预测、分类、异常检测、表示学习以及在医疗、生物、交通、音乐、金融等方向的应用。

读《不等长时间序列滑窗STS距离聚类算法》论文

传统时间序列聚类的缺点：

1）时间序列聚类的研究一般采用等长划分，会丢失重要特征点，对聚类结果有负面影响。

2）采用时间序列测量值不能准确度量相似度。

如下埃博拉出血热、卫生部在数值上很相似，但教育部和卫生部在形状更相似。若是以形状作为度量传统的欧氏距离可能就不太合适了。

不等长时间序列滑窗STS聚类算法：

1）通过标准分数z_score预处理，消除时间序列观测值数量级差异的影响。

2）更改了相似度计算的方式，采用基于滑窗的方法计算不等长序列的距离。

3）采用类k-means的聚类算法的中心曲线计算方法。

时间序列数据因其趋势信息的直观展现形式，广泛应用于社交网络、互联网搜索和新闻媒体数据分析中。例如：Google应用搜索流感的相关信息的时间序列预测流感爆发趋势。根据某话题热度时间序列数据趋势的规律性，通过聚类区分不同类型的时间序列数据。同一类簇的Twitter话题具有相同或相似的发展趋势，进而应用于话题的发展趋势的预测。

时间序列聚类算法可以分为两类。

1）基于原始数据的时间序列聚类算法。

2）基于特征的时间序列聚类算法。

基于特征的时间序列聚类算法指根据原始数据从时间序列中提取形态特征（极值点位置、分段斜率）、结构特征（平均值、方差等统计值特征）、模型特征（模型的预测值），从而根据这些特征值进行聚类。这类方法的优点解决了不等长时间序列聚类问题，缺点是减弱了原始数据值得影响，聚类的形状趋势信息往往比较粗糙。

3. HOW

一、距离度量公式

STS距离计算的是累加时间序列间每个时间间隔斜率差的平方，公式

如上图所示，g1、g2和g2、g3的欧式距离的数值更相近。g1、g2的STS距离大于g2、g3的数值。在形状距离上，STS距离计算方式表现更好，一定程度上可以解决欧式距离度量时间序列局部特征信息确实和受观测数值数量级差异影响大的问题，但是依旧无法度量不等长时间序列的距离。

基于滑窗的STS距离公式。

如上图所示，当计算不同长度的时间序列的s和r的距离时，先不断平移时间序列s，然后找到s和r距离最近的字段，就如同上图虚线之间的位置，此时s和r距离最近，这个最近距离作为s和r之间的距离。

二、预处理过程

z-score标准分数用数据观测值和观测值平均值的距离代替原观测值。z-score处理后的数据平均值为0，标准差为1。标准差的作用是统一量纲，去除数值的数量级差异影响。

总结

本论文提出了形状距离的不等长时间序列的聚类方法。我们可以学到的有

1）z-score统一量纲，消除数值数量级差异，聚类效果更好。

2）计算x和y时间序列的STS距离，可以平移其中一个时间序列，求最小值作为STS距离值，这就消除了同一时间序列不同起始点的影响。