1 前言
粗糙集(Rough sets)理论是一种处理模糊、不精确的分类问题的新型数学工具。粗糙集理论已成为当前数据挖掘的主要方法之一,其主要思想是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则。该理论已被成功地应用于机器学习、决策分析、过程控制、模式识别与数据挖掘领域。
人力资源是指社会所拥有的能为社会创造价值的人力或劳动力,其本质是人的能力而不是人本身,人力资源的价值在于人掌握的知识和技能,在于人为社会创造价值的能力。人力资源评价就是通过分析影响人力资源价值的主要因素,结合一定的评价方法,进而得出一个综合评价值的过程。
2 粗糙集处理的基本步骤及算法
⑴ 收集和整理数据,组成信息表。
⑵ 数据预处理。将数据库中的初始数据信息进行分类、聚类分析以及使某些属性的连续值离散化,转换为粗糙集形式,明确条件属性和决策属性。
⑶ 属性约简,根据预处理后的数据信息表生成区分矩阵,利用区分矩阵法生成约简属性集。
区分矩阵(Discernibility Matrix)是由波兰华沙大学的着名数学家skowron提出来的,是近年来在粗糙集约简上出现的一个有力工具。利用这个工具,可以将存在于复杂的信息系统中的全部不可区分关系表达出来。
定义1:设有信息系统S,a(x)是记录x在属性a上的值cij表示区分矩阵中第i行,第j列的元素,这样区分矩阵的定义是:
(cij)=
其中i,j=1,2,3,…,n,这里n= 。
在获得区分矩阵的时候,还有一种情况没有列出来,就是a(xi)=a(xj),D(xi)≠D(xj)的情况,在有些资料中,将这种情况下的cij赋了一个-1;有些则不讨论这种情况,因为他们认为在数据表的预处理阶段会对数据表中冲突的记录做处理,使其不加入到数据中,并且将冲突的记录数除以记录总数,得到一个粗糙度的量度,该量度可以作为数据表的一个特征。本文遵从后一种处理方法,对冲突的记录不予讨论,认为数据表中没有冲突的记录。
定义2:区分函数是从区分矩阵中构造的,方法是把cij的每个属性“或”起来,然后再“与”其所有的cij,其中i,j=1,…, ,用p来表示。
区分矩阵是一个对称 × 矩阵。在实际应用中,只计算它的上三角矩阵或下三角矩阵。
根据区分矩阵的概念,有三点值得注意:
① 区分矩阵中条件属性组合数为1的元素项,即Card(cij)=1,表明除该属性外其余条件属性无法将决策不同的两条记录区分开来,即该属性必须保留,这个与决策表中核的概念一致。因此,矩阵中所有条件属性组合数为1的属性均为核属性。
② 区分矩阵中凡是条件属性组合中包含有核属性的矩阵元素都可以仅用核属性就把决策不同的记录区分开来,也就是说属性组合中凡是包含有核属性的区分矩阵项的其它条件属性都是多余的。
③ 对于不包含核属性的属性组合必然每个组合都至少有一个元素成为约简后的一个条件属性,否则决策表中的某些记录将无法识别。
属性约简的基本过程
第一步:生成区分矩阵,将矩阵中属性组合数为1的属性列入最终的属性约简集合,即Red=Core={ cij∣Card(cij)=1,i,j=1,2,3,…, }。
第二步:从区分矩阵中找出所有不包含核属性且cij≠0属性组合Q,即:Q={ cij∣cij∩Core=ф,且cij≠0,i,j=1,2,3,…, }
第三步:将所有不包含核属性的条件属性组合表示为合取范式的形式,即:P=∧(∨cij),cij∈Q。
第四步:将P转换为析取范式的形式,并进行化简。
第五步:根据需要选择不同的属性组合作为约简。
⑷ 选取约简属性后的信息表,对每个规则求出其核属性,得到各规则的核值。
定义:具有相同条件属性而有不同决策属性的对象成为不可分辨的对象。
基本思想:考虑依次去掉各个属性,若存在不可分辨对象,则说明该属性为必要属性,即核值。若去掉该属性时,无不可分辨对象,则说明该属性为冗余属性,可省略。
⑸ 根据核值表产生约简规则。
基本算法:
输入:信息系统S=(U,C∪D, V, f )
输出:约简后的决策规则集。
步骤:
① 计算区分矩阵;
int i=1,j=0;
int k=card(U);
M=Φ;
while(1≤i≤k)
for(i=0;i++;i≤k)
for(j=i+1;j++;j≤k)
if (D(xi) D(xj))
mij={a C:a(xi) a(xj)}
else
M=M ∪{mij}
② 得到CORE;
i=1;
CORED(C)=Φ;
从头取M中元素,若为单一属性组合则将该属性加入CORED(C),
③ 进行属性约简
从M中删除含有核属性的组合。
Q={ cij∣cij∩CORED(C)=Φ,且cij≠0}
P=∧(∨cij)
将P转换为析取范式的形式
P=∨(∧ci*)
ci*为约简的属性集合
④ 一约简的属性集合ci*,对每一个规则求核属性
for(j=1;j++;j≤m) (m 为每个规则的属性个数)
每次假设从规则中去掉一个属性aj
if 不存在不可分辨的规则
then 去掉该属性
else aj为该规则的属性核值
⑤ 根据每一规则的核值,列出约简的规则集合。若对每一个对应的决策值该规则组合是既约的且在系统中为真时为约简规则。
⑹ 求出各约简属性的权重。
通常情况下,决策者会拥有对各个条件属性的先验知识,权重用来衡量属性的相对重要性。在不同的决策环境下,相同的属性对决策输出会有不同的影响,即权重对环境敏感。粗集理论中的属性重要度表达了当前数据环境下属性对决策的影响,但它不能反映决策者的先验知识。因此,将二者结合起来确定属性的权重可以得到比较理想的结果。这样我们将粗集理论同决策者的先验知识结合起来,即将由大量的历史数据确定出来的客观的属性重要度同由主观的先验知识确定的属性权重结合起来确定最终的综合权重,从而实现主观先验知识同客观情况的统一。
我们假设系统中的条件属性为C,决策属性为D。在C中有n个属性a1,a2,…,an。由决策者先验知识给定的权重分别为p(a1), p(a2), …, p(an)。然后收集大量的评价样本,由这些样本数据来考察所有条件属性将样本划分为决策类的分类能力,并由决策属性对条件属性的依赖度rC(D)=Card(posC(D))/Card(U),其中Card表示集合的基数。然后去掉条件属性i后,在重新考虑分类情况,求出rC-i(D)=Card(posC-i(D))/Card(U),则属性i的重要度为rC(D)-rC-i(D),以此类推。在此基础上将各个属性的重要度进行归一化处理并把处理后的结果q(ai)作为属性i的客观权重。即
q(ai)= 。显然,q(ai)在0和1之间取值。得到各个属性的主观和客观权重后,由于客观权重是由历史数据处理后得到的,我们赋予其较大的权重为60%,相应地,赋予主观权重为40%,那么,由此确定的综合权重P(ai)=0.6×p(ai)+0.4×q(ai)。
3 应用实例
⑴ 数据采集。在人力资源评价中,各属性值用3,2,1分别表示“优,中,差”。
知识
量a
创新
能力
b
交流
能力
c
适应
能力
d
毕业
院校
e
健康
状况
f
心理
承受
能力
g
进取
欲望
h
评定
结果
i
1
1
1
2
2
2
3
3
3
2
2
1
1
1
2
1
1
3
2
1
3
2
3
2
1
1
2
1
2
3
4
1
2
1
2
1
2
1
1
1
5
3
1
2
2
2
3
3
3
3
6
2
2
3
2
2
3
3
3
3
7
2
2
1
1
3
1
2
2
2
8
2
3
3
3
1
2
2
3
3
⑵ 使用区分矩阵进行属性约简,建立区分矩阵如下
1
2
3
4
5
6
7
8
1
0
cefh
abdefgh
bcefgh
a
abc
0
abcdefg
2
0
abcdfg
0
acefh
abcefh
abdeg
abcdfgh
3
0
abcdh
0
0
bcefg
0
4
0
abcefgh
acefgh
adefgh
abcdgh
5
0
0
abcdefgh
0
6
0
cdefgh
0
7
0
bcdefh
8
0
从区分矩阵可以看出,a为核属性,因此可以获得Q=(c∨e∨f∨h)∧(b∨c∨e∨f∨g∨h) ∧ (b∨c∨e∨f∨g) ∧(c∨d∨e∨f∨g∨h) ∧(b∨c∨d∨e∨f∨h),根据吸收律,Q= (c∨e∨f∨h)∧(b∨c∨e∨f∨g),将其转换为析取范式后,得到Q=(b∧h)∨(g∧h) ∨(c)∨ (e)∨(f),因此{a,b,h},{a,g,h},{a,c },{a,e },{a,f }都可以作为约简后的属性。
⑶ 取{a,b,h}来进行规则挖掘,生成核值表。
属性约简表
核值表
⑷ 根据核值表,生成规则约简表
⑸ 得出规则:
b1h2∨a1→i1,即创新能力为差且进取欲望为中时或知识量为差时,综合评估为差。
a1h3∨b2h2 →i2,即知识量为差且进取欲望为优时或创新能力为中且进取欲望为中时,综合评估为中。
a2b3∨a3b1 ∨h3 →i3,即知识量为中且创新能力为优时或知识量为优且创新能力为优时或进取欲望为优时,综合评估为优。
⑹ 计算各约简属性的客观权重。
由属性约简表得,其条件属性集C={a,b,h},决策属性集D={i},U/ind(a,b,h)={{1},{2},{3},{4},{5},{6},{7},{8}},U/ind(i)={{1,7},{2,4},{3,5,6,8}},PoSC(D)={1,2,3,4,5,6,7,8},rC(D)=k= Card(posC(D))/ Card(U)=8/8=1,说明决策属性全部依赖于条件属性(依赖度为1)。
去掉属性a后,U/ind(b,h)={{1,5},{2},{3},{4},{6},{7},{8}}, PoSC-a(D)={2,3,4,6,7,8}, rC-a(D)=6/8=0.75,属性a的重要度为rC(D)-rC-a(D)=1-0.75=0.25。
去掉属性b后,U/ind(a,h)={{1},{2},{3,7} ,{4},{5},{6,8}},PoSC-b(D)={1,2,4,5 ,6,8}, rC-b(D)=6/8=0.75,属性b的重要度为rC(D)-rC-b(D)=1-0.75=0.25。
去掉属性c后,U/ind(a,b)={{1,2},{3,8},{4},{5},{6,7}}, PoSC-h(D)={ 3,4,5,8},rC-h(D)=4/8=0.5,属性h的重要度为rh(D)-rC-h(D)=1-0.5=0.5。
由此可以得出各个属性的客观权重分别为:
4 结论
在人力资源评价中影响其价值的因素很多, 各因素的重要性也会有很大的差别。本文通过分析影响人力资源价值评价各因素的特征,确定影响人力资源价值的主要因素有: :知识量,创新能力,交流能力,适应能力,毕业院校,健康状况,心理承受能力,进取欲望等。在人力资源评价中经常采用专家评估法、收益折现法、随机报酬法、模糊综合评判等方法。传统的综合评价方法通过专家打分法得到每个指标的评价值,然后对各指标值进行算术平均或加权平均,而权重的确定同样是主观的。本文提出一种基于粗糙集理论的人力资源综合评价方法,克服了传统方法存在的主观性和片面性的问题。该方法综合分析了各种影响因素,既体现了评价的全面性,又进行了指标的筛选,从而简化了运算的复杂度;在确定各因素的权重中,既强调了评价的客观性,又充分利用了专家的主观经验。
参考文献
[1]张文修,吴伟志等.粗糙集理论与方法.科学出版社,2001
肖智,刘敏等.一种人力资源价值的粗糙集评价方法.重庆大学学报,2002.11,第25卷第11期
曹秀英,梁静国.基于粗集理论的属性权重确定方法.中国管理科学,2002.10第10卷第5期
熊萍,陈华斌,吴晓平.基于粗糙集理论的一种综合定权法.海军工程大学学报,2003.2第15卷 第1期