摘 要 粗糙集理论的主要应用是属性约简和规则提取,但由于应用粗糙集理论提取出的规则未必都是最佳规则,因此,本文提出一种基于互信息的规则约简方法。对确定性规则进行优化,挖掘出最简规则集,最后通过实例分析验证了该方法可行性和有效性。
关键词 粗糙集;信息熵;互信息
1 引言
粗糙集理论
[1]是由波兰学者z. pawlak于1982年提出的,是一种新的处理模糊和不确定性知识的数学工具。其核心思想是在保持分类能力不变的前提下,通过对知识的化简,导出问题的决策或分类规则。信息论由shannon于1948年提出,信息熵是信息论的核心内容,信息熵
[2]是事件不肯定性程度的度量,它能够从确切的数值量度出发去描述知识。由于应用粗糙集理论的上、下近似概念提取出的规则未必都是最佳规则,即规则中的属性值未必都是必要的,所以,可以通过应用信息熵知识给出决策表中约简属性的重要性度量,必然能删除不必要的属性及属性值,合并相同规则,得到最简规则集。
本文综合应用了粗糙集理论和信息熵理论的优点,首先,应用粗糙集方法,求出属性约简、提取出确定性规则和可能性规则,然后,从文献[3]定义的信息熵出发,对决策表中属性的重要性进行了有效地度量,即通过计算约简中的每个属性的互信息,有效地简化得到的规则知识。Www.133229.Com因此,本文有机结合了粗糙集与信息熵的优点,提出一种基于信息熵理论的规则约简方法。该方法可以挖掘出满足给定精确度的一组条件属性最少、规则数最少的最简决策规则集,使得挖掘出来的规则更简单、实用。
2 基本概念[3,4]
定义1 设k=(u,a,v,f)是一个信息系统,其中u是一个有限的非空集合,称为论域。 a=c∪d是属性的非空有限集合,c为条件属性,d为决策属性,c∩d=φ,v
a是属性a∈a的值域,f:u×a→v是一个信息函数,它为每个对象赋予一个信息值。通常一个信息系统对应一个信息表,其中行对应论域中的对象,列对应论域中的属性。表内容就是对象的属性值。
定义2 设u为一个有限的非空论域,r为u上的等价关系。等价关系
r 把集合u划分为多个互不相交的子集,每一个子集称为一个等价类,用[x]
r表示,[x]
r ={
y∈u│
xry},其中
x∈u,
x、y称为关于r 的等价关系,论域u上的所有等价类的集合用u/ r来表示。
定义3 对于任意的x
u,x的r下近似集和r上近似集定义为:
r(x)=∪{y∈u/r│y
x },
(x)= ∪{y∈u/r│y∩x≠
}
bnr(x)=
(x)-
r(x) 称为边界;集合的不确定性是由于边界域的存在,集合的边界域越大,精确性越低,粗糙度越大。
定义4 令r为一族等价关系,r∈r,如果 ind(r)=ind (r-{
r}),则称r为r中不必要的;否则r为r中必要的
[2]。p中所有必要关系组成的集合称为p的核,记为core( p) 。
核与约简有如下关系:
core ( p) = ∩ red ( p),其中red ( p) 表示p 的所有约简。
定义5 信息熵:知识x 的信息熵定义为:
定义6 条件熵:知识属性集合y (u| ind (y) ={
y1,
y2,…,
ym}) 相对于知识(属性集合)
u/ind(x)={
x1,
x2,…,
xn}的条件熵:h(y | x) 定义为:
定义7 互信息:设t = < u,r,v,f > 是一个决策表系统,其中r = c∪d,c 是条件属性集合,d = {d}是决策属性集合,且a
c,对于任意属性a∈c p a的重要性定义为:sgf(
a,a,d) = h(d| a) - h(d| a∪{
a}) 。若a =φ,则:sgf(
a,a,d)=sgf(
a,d) = h(d) - h(d| {
a}),称为属性
a 和决策d的互信息,记为i (
a,d)。
3 基于信息熵的规则约简
在信息表中,由于应用粗糙集理论提取的规则未必都是最简规则,即规则中可能存在某个属性值是不必要的,因此规则约简。由于在决策表中可以通过添加某个属性所引起互信息的变化大小作为该属性重要性的度量,互信息sgf(
a,a,d) 值越大,说明在已知a 的条件下,属性a 对于决策d 就越重要。因此,基于论域上的不可分辨关系和信息熵的知识可以对确定性规则约简。
其方法如下:
step1:利用互信息公式计算约简中各属性的互信息,将结果值按降序排列。
step2:对约简中每个属性(按互信息降序顺序)依次逐行考察确定性规则集中每条规则,若抽取到的规则与其后的规则产生冲突,则将发生冲突规则的该属性值标记为1,若产生重复记录,则将对应规则中的该属性值标记为3,既不产生冲突也不产生重复的规则的属性值标记为2。
step3:对规则集中的规则进行逐行考察,首先判断是否能由属性值标记为1的属性做出正确决策,若不能将属性值标记为2的属性添加进来,若仍不能得出正确决策,则按互信息的大小依次把属性值标记为3的属性添加进来,直到做出正确决策为止,并将做出正确决策的对应的当前规则保存到新的规则集中。
step4:将规则集中能利用step3得出的当前规则做出正确判断的规则删除。
step5:如此循环直到规则集中规则为空为止,新规则集就是进行规则约简后的最优规则集。
4 实例分析
设论域u={1,2,3,4,5,6,7,8 },条件属性集合c={ solar energy,volcanic activity,residual co2},决策属性d为temperature,决策信息表如表1所示。
决策信息表1
[5]
fact count
solar energy
volcanic activity
residual co2
temperature
days
1
medium
high
low
high
20
2
high
high
high
high
30
3
medium
low
high
high
90
4
low
low
low
low
120
5
high
high
medium
high
70
6
medium
low
high
low
34
7
high
low
high
high
10
8
low
high
low
low
20
1)计算c的d约简
得到c
0={solar,volcanic}是c的d约简。
2)提取规则:
(1)通过计算决策属性等价类相对于 u/ c
0 的下近似,得到不确定性规则。
① (solar energy,medium) (volcanic activity,high) → (temperature,high) /1;
② (solar energy,high) (volcanic activity,high) → (temperature,high) /2,5;
③ (solar energy,high) (volcanic activity,low) →
(temperature,high) /7;
④ (solar energy,low) (volcanic activity,low) →(temperature,low) /4;
⑤ (solar energy,low) (volcanic activity,high) →(temperature,low) /8。
(2)通过计算决策属性等价类相对于约简u/c
0的边界,得到不确定性规则。
① (solar energy,medium) (volcanic activity,low) →(temperature,high);/3
② (solar energy,medium) (volcanic activity,low) →(temperature,low);/6。
3)计算表1中决策属性temperature的信息熵
约简属性solar,volcanic的互信息:
h(d)=-1* (130/270 * log
2(130/270)+140/270* log
2(140/270)) =0.999
属性solar energy的条件熵:
h(d|c1)=-1 * (110/270) * ( 110/110)* log
2(110/110) -1 * (20/270)* 20/20* log
2(20/20) -1*(140/270)*(140/140) * log
2(140/140) =0
属性volcanic activity的条件熵:
h(d|c2)=-1 * 140/270 * (120/140 * log
2(120/140)+ 20/140 * log
2(20/140))-1 * 130/270 * (120/130 log
2(120/130)+ 10/130 * log
2(10/130) )=0.345
两属性的互信息为:
gain(solar energy )=0.999
gain(volcanic activity)=0.654
因为solar 互信息大,相对决策重要,volcanic小,所以先考虑规则中删除volcanic属性值,当删除volcanic,若solar energy 为 high时,规则集合中没有产生冲突规则;若solar energy 为low也没有产生冲突规则,所以对应的规则简化为:
(solar energy,high) →(temperature,high);
(solar energy,low) →(temperature,low);
当删除volcanic,若solar energy为medium,决策属性d值是high和low,产生冲突规则,所以当solar energy,medium,volcanic activity值不能删除。
由此最终得到的简化规则集:
① (solar energy,medium) (volcanic activity,high) →(temperature,high)
② (solar energy,high) →(temperature,high)
③ (solar energy,low) →(temperature,low)
④ (solar energy,medium) (volcanic activity,low) →(temperature,high)
⑤ (solar energy,medium) (volcanic activity,low) →(temperature,low)
5 结论
本文介绍了粗糙集与信息熵之间的关系,给出了一种基于粗糙集理论和信息论相结合的数据挖掘方法,把信息论应用于决策信息系统简化规则集中,实验表明该算法能够获得令人满意的最简规则集。
参考文献
[1] pawlak z. rough sets(j). international journal of computer and information science,1982,11 (5):341~356
[2] shannon ce. the mathematical theory of communication [j ]. the bell system technical journal,1948,27 (3 /4):373 - 423.
[3] l iang jy,ch in ks,dang cy,et al.
a new method for measuring uncertainty and fuzziness in rough set theory [ j ]. international journal of general systems,2002,31 (4):331 - 342.
[4] 张文修,吴伟志. 粗糙集理论介绍和研究综述[j ] . 模糊系统与数学,2000,15 (4):1-12.
[5] pawlak z. rough sets and intelligent data analysis (j). international journal of computer and information science,2002,147:1-12