数据挖掘在电力负荷预测中的应用

摘要本文对电力负荷预测的研究主要运用了数据挖掘中的聚类分析。构架了一种基于CURE聚类算法的电力负荷预测模型，对短期电力负荷数据进行有效的预测。并通过海量数据存储，数据挖掘和决策信息的支持，可有效地克服数据有限性，不完整性及影响因素复杂性对预测结果的影响，发挥独特优势、实现经济价值。

关键词电力系统；数据挖掘；CURE聚类算法；负荷预测

电力负荷预测是能量管理系统及配电管理系统的重要组成部分，是电力系统规划和运行调度的依据，也是电力市场化商业运营所必需的基本内容。准确的负荷预测，可以合理的安排电网内部发电机组的启停，减少不必要的旋转储备容量，合理安排机组的检修计划，在保证社会的正常生产和生活的条件下，有效的降低发电成本，提高经济效益和社会效益。

短期负荷预测是电力系统调度和计划部门安排购电计划和制定运行方式的基础。由于电力负荷除了受温度、天气状况等非线性因素影响之外，还具有自身的随机性，故短期负荷预测是一个非常复杂的问题[1]。

人们对短期负荷预测方法的研究主要包括三个方面：传统算法的研究、现代算法的研究和预测应用的研究，各研究层面的侧重点互不相同，但由于影响负荷预测结果的因素多样，始终存在着预测精度不高的问题。采用数据挖掘技术，可以很好的解决准确度不高的问题。

1 数据挖掘技术

1.1 数据挖掘介绍

数据挖掘是一门涉及面很广的交叉性新兴学科，它涉及到数据库、人工智能、数理统计、并行计算、可视化等等领域。它是在没有明确假设的前提下去挖掘信息、发现知识的。数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。

基于广义的数据挖掘观点，数据挖掘是指从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘知识的过程。数据挖掘不仅能对过去的数据进行查询和遍历，并且能够对将来的趋势和行为进行预测，并自动探测以前未发现的模式，从而很好地支持人们的决策。被挖掘出来的信息，能够用于信息管理，查询处理，决策支持，过程控制以及许多其它应用。

1.2 数据挖掘过程

负荷预测工作的关键在于收集大量的历史数据，建立科学有效的预测模型，采用有效的算法，以历史数据为基础，进行大量试验性研究，总结经验，不断修正模型和算法，以真正反映负荷变化规律。

(1) 调查和选择历史负荷数据资料

多方面调查收集资料，包括电力企业内部资料和外部资料，从众多的资料中挑选出有用的一小部分，即把资料浓缩到最小量。挑选资料时的标准要直接、可靠并且是最新的资料。如果资料的收集和选择得不好，会直接影响负荷预测的质量。本人通过建立计算机数据管理系统，利用计算机软件系统来自动管理数据。

(2) 历史资料的整理

一般来说，由于预测的质量不会超过所用资料的质量，所以要对所收集的与负荷有关的统计资料进行审核和必要的加工整理，来保证资料的质量，从而为保证预测质量打下基础，即要注意资料的完整无缺，数字准确无误，反映的都是正常状态下的水平，资料中没有异常的“分离项”，还要注意资料的补缺，并对不可靠的资料加以核实调整。本人通过建立数据完整性、一致性约束模型，来建立海量数据集为后面的数据挖掘做好充分的准备。

(3) 对负荷数据的预处理

在经过初步整理之后，还要对所用资料进行数据分析预处理，即对历史资料中的异常值的平稳化以及缺失数据的补遗，针对异常数据，主要采用水平处理、垂直处理方法。数据的水平处理即在进行分析数据时，将前后两个时间的负荷数据作为基准，设定待处理数据的最大变动范围，当待处理数据超过这个范围，就视为不良数据，采用平均值的方法平稳其变化；数据的垂直处理即在负荷数据预处理时考虑其 24h 的小周期，即认为不同日期的同一时刻的负荷应该具有相似性，同时刻的负荷值应维持在一定的范围内，对于超出范围的不良数据修正，为待处理数据的最近几天该时刻的负荷平均值。

图1 异常数据分布

(4) 建立负荷预测模型

负荷预测模型是统计资料轨迹的概括，预测模型是多种多样的，因此，对于具体资料要选择恰当的预测模型，这是负荷预测过程中至关重要的一步。当由于模型选择不当而造成预测误差过大时，就需要改换模型，必要时，还可同时采用几种数学模型进行运算，以便对比、选择。

(5) 选择算法

本文选择聚类法又称聚类分析法，它是对一组负荷影响因素数据进行聚类的方法，聚类后的数据即构成了一组分类。聚类的标准是以数据的表象（即数据属性值）为依据的，聚类的工具是将一组数据按表象而将相近的归并成类，最终形成若干个类，在类内数据具有表象的相似性，而类间的数据具有表象的相异性。聚类的算法也有很多，有遗传算法，划分法，层次法，基于密度方法，基于网格方法等。

2 聚类分析

2.1聚类分析原理

对一个样本数据空间进行聚类分析可以归结为求以下数学问题的寻优问题：

公式1

其中定义X=(x1,x2,……xm)为样本数据空间，m 为样本总数目， xj是第 j 个

样本向量，n是需分类的数目， yi为第i个类的中心向量，为 xj与 yi的某种距离，如欧式距离，曼哈顿距离等。

公式2

寻优的目的是求出y=(y1,y2,……ym)使得公式1得以满足。

2.2 基于CURE算法在负荷预测中的应用

CURE算法是一种分层聚类算法。用固定数目的具有代表性的数据点来表示一个聚类。CURE算法要求输入聚类个数K作为参数。因为CURE是用若干代表点代表聚类的，所以可以发现具有任意大小和形状的聚类。同时，在选择一个聚类的代表点时，通过向中心"收缩"的方式，可以排除"噪音"。

首先对负荷预测中的历史数据库中抽出数据样本。对数据样本进行聚类时，可以分为两种方法：一种是对全部样本数据进行聚类，此方法将会使得主存中容量不够而使得系统不能一次扫描完成。我们采用是对全部样本数据分为p个区，对每个区的数据进行聚类，这样可以把每个分区的样本数据全部装入主存。

然后对于每一分区，利用层次算法进行聚类。层次算法实际上是产生嵌套的簇集，根据产生簇集的方式不同，可以分为不同的层次算法，我们在这里采用的是凝聚算法。第一次簇的数目为n/(p*q)，其中q为某一常数。

由于电力系统中应用SCADA系统采集数据，在数据的量测、记录、转换、传输过程中，都可能引起故障而导致负荷数据缺失或异常。异常数据的产生是随机的，因而在数据库中的分布也具有不确定性，各类异常数据或在某一时刻单独出现，或在同一日连续的时段内交叉混合出现，或在连续多日同一时段上交叉分布等众多情形。对异常数据的处理，是影响预测结果的准确程度的关键。可以利用两种不同的技术删除异常点。第一种技术是将增长缓慢的簇删除。当簇的数目低于某一阈值时，将仅含有一两个成员的簇删除；第二种技术是在聚类的最后阶段，将非常小的簇删除。

最后对样本中的全部数据进行聚类，为了保证可以在内存中处理，输入只包括各个分区独自聚类时发现的簇的代表性点。使用c个点代表每个簇，对磁盘上的整个数据库进行聚类。数据库中的数据项被分配到与最近的代表性点表示的簇中。代表性点的集合必须足够小以适应主存的大小，所以n个点中的每一个都有与ck个代表性点相比较。

3 结语

基于数据挖掘的聚类分析研究是近十几年才刚刚开始的，还有许多值得研究和探讨的问题。本文简要叙述了数据挖掘技术及其在电力系统中的应用，并利用数据挖掘中的聚类分析来进行负荷预报。这只是数据挖掘技术在负荷预测中的初步应用。今后，我们将应用数据挖掘中的决策树技术将用户负荷聚类和分类进行电力负荷预测并且将数据挖掘技术和人工神经网络结合起来进行预测，进一步研究负荷与时间、气候、用户等的关系，为负荷预测提供更先进准确的预测手段。

参考文献

[1] 牛东晓，曹树华，赵磊等.电力负荷预测技术及其应用.中国电力出版社.1998

Kiawei Han. Data miing techniques. Technical report. ACM SIGMOD Tutorial. 1996

Ramez Elmasri and Shamkant B. Navathe. Fundamentals of Database Systems，3rd ed. Addison Wesley，2000

韦刚，王飞，张永健等.负荷预测中历史数据缺损处理.电力科学与工程.2004，1(16)

学术参考网 · 手机版
https://m.lw881.com/

首页