在高职教育逐渐普及的背景下,学院计算机网络专业毕业生就业竞争力研究对专业发展意义重大,数据挖掘中的分类算法为此项研究提供了现实可能。本文对数据挖掘的技术路线包括数据挖掘、分类算法、算法的选取和优化进行了阐述;针对所收集到的数据特点,提出选择分类算法中的决策树算法更加适宜研究该专业毕业生就业竞争力情况。应用决策树算法原理对数据进行实例分析,依据C4.5算法构造决策树,分析实验结果,将与人交往能力、社会工作经历、专业知识等七个维度依次排序,推导出高职计算机网络专业毕业生非专业因素和综合素质对于提升就业竞争力影响深刻的结论。
当前,迅速扩大的高等教育规模逐渐从精英教育转向普及教育,在校毕业生数量逐年增加,在就业“没有最难、只有更难”的大背景下,如何提升高职学生的就业竞争力对每所院校都具有非常现实的意义。
一 高职学生就业竞争力研究的意义和背景
高等职业教育作为我国高等教育的重要组成部分,具有高等教育和职业教育的双重功能,以市场需求为导向设置培养计划,以培养相关岗位技能为重点,强调专业理论和实际操作相结合,兼顾地方特色和行业优势。高职学生就业竞争力是指高职学生整合知识、技能和个人综合素质等因素,在人力资源市场上获得适合才能发挥和实现自身价值的工作岗位的能力。一般来说,学生就业竞争力越强,与社会、行业、企业对人才需求的匹配程度越高。
1.高职学生就业竞争力研究的意义
在我国高等教育逐渐实现普及和经济结构调整的时期,学生就业问题不仅涉及学生个人发展,也涉及社会对学校的评价认可,更是一个民生关注的热点问题。对高职学生而言,就业竞争力的构成因素至少包括三个方面:一是高职学院的品牌因素,如社会知名度、影响力、专业特色等;二是学生主观因素,如专业知识、职业能力、个性气质、道德素养、先天条件等;三是社会因素,如对相关专业的人才需求、人才标准、用人单位特殊考量等外在因素。因此,能否提升学生就业竞争力并不完全取决于高职学院自身的培养水平和学生自身的素质。但作为高职院校,不断优化人才培养方案,努力提升学生的职业能力和社会就业竞争力,却是学院生存发展和创建品牌、进行内涵建设的必由之路。
2.高职学生就业竞争力研究的背景
因材施教是任何一种层次的教育都必须充分尊重的教学规律,如何以市场为导向,以就业为目标,实现以人为本的个性化教育是高职教育面临的一个重要课题。本文拟利用学院现有的资源,采用现代信息技术的方法和研究成果研究学生情况、分析学生特点,关注学生成长,通过对已有的学生信息的分析,探求其中隐藏的规律,并把研究结果运用于学生身上,为学生的发展提供参考建议。这对于进一步合理利用、优化教学资源,促进教与学的理解和沟通,最终让教和学更好地结合,实现有效学习,达到预期的专业培养目标,从而促进学生就业竞争力提升,具有极大的意义。
近年来,随着信息技术的发展,学院各部门根据学生的专业分类,有针对性地积累了一定的学生信息。就学院计算机网络专业而言,受学生规模等因素影响,所收集的各类数据相对有限,但依然可以通过数据挖掘技术对该专业学生的就业竞争力进行研究分析。分类是数据挖掘的一种常见的分析手段,旨在构造一个分类函数或分类模型,该模型能把数据库中的数据项映射到定类别中的某一个,以此来达到分类并用分类模型对未知分类情况进行预测的目的,这将为我们研究前述高职教育的现状问题提供有力的技术支持。
我院计算机网络专业自2001年开设以来,累计培养了毕业生600多名,已经成为计算机类常设专业之一,并受到社会考生一定的关注。因此,通过数据挖掘技术分析研究计算机网络专业毕业生的就业竞争力对于该专业的发展具有十分现实的意义。
二 应用于高职毕业生就业竞争力分析的数据挖掘技术路线
数据可以理解为通过实验、统计等手段获得用于不同社会实践的众多数值,通过全面、系统、准确地测量、收集、分类存储各类数据,再经过严格分析、检验这些数据往往就能获得能够揭示某种事物内在属性的认识。而这个从众多数据中分析、把握隐藏在事物内部某种规律性的过程就是数据挖掘。
1.数据挖掘的概念
数据挖掘(Data Mining)又称数据库中的知识发现(Knowledge Discovery in Database),是指从大型数据库或数据仓库中提取隐含的、未知的,具有潜在应用价值和规律性认识的信息,融合了数据库、统计学、人工智能、机器学习等多个领域的理论知识,一般要经过数据采集、数据预处理、数据分析、结果表示等一系列过程,最后将分析结果呈现在用户面前。
在数据挖掘过程中,数据为信息处理者提取新的认知和有用规则,揭示隐含在众多数据中的内在属性,并能通过对已有的数据分析来对实际未发生行为的结果作了预测。根据所采用的挖掘技术分类,可以将数据挖掘技术分为决策树算法、粗糙集分类算法、遗传算法、最近邻分类算法、神经网络分类算法等众多分支,实际应用也逐步普及,在实际运用中每种算法各有所长,每种相对较优的算法都有它具体的应用环境。在分类规则挖掘中,常用的方法是决策树算法和神经网络算法。本文拟采用决策树算法对采集的学院计算机网络专业毕业生就业竞争力数据进行分析研究。
2.数据挖掘中的分类算法
在数据挖掘的各种方法中,分类是一种重要的分析手段。数据分类通过分析已知类别的数据对象训练数据集,建立描述并区分数据对象类别的分类模型,再利用该模型对未知类别的数据进行分类。分类的目的是根据数据集的特点构造一个分类函数或分类模型(也称作分类器),该模型能把未知类别的样本映射到给定类别中的某一个。
构造模型的过程分为训练和测试两个阶段:第一阶段是训练阶段,将数据集随机地分为训练数据集和测试数据集,然后使用训练数据集通过分析由属性描述的数据库元组来构造模型。如每个元组属于一个预定义的类,由一个称作类标号属性的属性来确定;训练数据集中的单元组也称作训练样本,可以表示为:(u1,u2,…un;c);其中u表示属性值,c表示类别;在确定每个训练样本的类标号基础上,所建立的模型通过分类规则、判定树或数学公式表示。
第二阶段为测试阶段,使用测试数据集来评估模型的分类准确率,如果认为模型的准确率可以接受,就可以用该模型对其他数据元组进行分类。一般来说,测试阶段的工作量低于训练阶段。
为达到分类的准确、有效和可解释,在进行分类之前,通常要对数据进行预处理,提高数据挖掘的效益和质量。具体方法包括:(1)数据清理,包括消除数据不完整、数据噪声、数据不一致、数据冗余、数据分散的状况,处理空缺值;(2)数据集成,主要手段是把多个数据源中的数据集中存放于某个数据存储中,并统筹解决数据冗余、重复的问题,尽可能减少数据的不一致性;(3)数据变换,通过最小—最大规格化、零一均值规格化等规格化数据手段,将数据转换到适合于分析、处理的程度,同时数据也可以规范化,将给定属性的值按比例缩放,落入较小的区间比如[0,1]等;(4)数据归约,通过属性规约、记录规约等方式,获得较小同时保持完整性的原数据,使对数据集的挖掘更加有效。
目前,数据挖掘分类已提出了很多算法,主要包括:决策树、关联规则、神经网络、贝叶斯、规则学习、K-临近法、遗传算法、粗糙集以及模糊逻辑技术等。本文拟通过对学院计算机网络专业毕业生跟踪收集到的各类数据如专业知识、专业技能、通用技能、求职能力、社会工作能力、与人沟通能力等多组数据,应用分类算法中的决策树进行数据挖掘,探索计算机网络专业毕业生就业竞争力影响因素的大小排序。
3.算法的选取和优化的思路
在学生信息库的数据挖掘中,旨在分析学院计算机网络专业学生的相关情况与就业之间的关系,并期望以就业为分类属性建立分类模型,来达到对未毕业学生的就业情况进行预测的目的,进而能对未毕业学生的进一步发展提出一定的建议。
从学生信息库的角度而言,由于该专业学生规模不大,而且受各方条件限制,所收集到的数据类型复杂,来源并不集中,如成绩是连续型数据,而学生在学校的各项表现又是离散型数据,最为重要的是考虑到学生信息是一种动态的信息并且考虑到下一步能否从分类结果为学生提出进一步的发展建议,而决策树算法就比较适合于此类的数据建模。
在实际的应用过程中,由于数据本身的特点,所以数据的预处理是一项重要的工作,直接影响到实验的效果。因此,在对高职计算机网络专业毕业生就业竞争力研究的课题中,将对数据进行泛化、规格化和归约,并完成对连续数据离散化等预处理。
三 基于决策树分类技术的高职计算机网络专业毕业生就业竞争力分析
1.决策树算法的概念
决策树是一个类似于流程图的树结构,通过决策树采用分级形式,可以将多类别的复杂分类问题转化为若干简单分类问题加以解决。通常一个决策树由根节点、内部节点、叶节点三个层次构成,其中根节点是决策树结构中最高级、最顶层的构成因素,可以包容其他层次的内容;内部节点表示在一个属性上的测试,每个分枝代表一个测试输出;而叶节点表示一个类,不同的节点可以表示相同的类。通过设定,可以实现在决策树从根节点到叶节点的不同路径之间转化分类的规则。决策树算法采用信息论中的概念,用信息增益作为决策属性分类判别能力的度量,进行决策节点属性的选择。
决策树分类算法通过分析训练数据集递归地建立决策树,通过设定根节点S,在S中的记录属于同一类别的前提下,则将S作为叶节点并采用相关类标号标示;具体包括以下步骤:(1)设定训练数据集A,描述属性集合B。(2)创建对应A的节点A1。(3)当A的记录属于同一类别C,以C标示A1,A1 作为叶节点;当B为空,以A中占优的记录类别C标示A1,A1作为叶节点。(4)从B中选择相对A信息增量最大的描述属性B1,作为C的测试属性。(5)B1的每个取值b1(1≤j≤v),并设定B1的取值范围为b1b2b3……bn。
在算法中,使用信息增益来选择测试属性,寻找数据库中具有最大信息量的字段,建立决策树的根节点,按照字段的取值差异建立决策树的各个分支,各分支子集中重复建立树的下层结点(内部节点和叶节点),从而形成决策树。
2.决策树算法的原理和算法描述
决策树算法是数据挖掘的常见算法之一,其原理是将大量数据按照设定的标准分类,在不同类别的数据中寻找某种对决策有价值的信息,在预测模型中使用得更加广泛。目前,最具影响的决策树方法是由J.R.Quinlan提出的ID3算法,算法可以概括为使用信息论中的信息增益寻找数据库中具有最大信息增益的属性字段,建立决策树的一个节点,再根据该属性字段的不同取值建立树的分支。C4.5算法是在ID3算法基础上的发展,其工作流程与ID3算法基本相同。
在C4.5算法中,获得决策属性信息增益的计算方法是:
设定S是训练样本数据集,S中类别标识属性有m个独立的取值,也就是说定义了m个类ci,I=1,2,…,m;Ri为数据集S中属于ci类的子集,用ci表示子集Ri中元组的数量。
集合S在分类中的期望信息量可以由以下公式给出:
式中:pi表示任意样本属于ci类的概率;pi=ci / |S|,|S|为训练样本数据集中的元组数量。
假设属性A共有u个不同的取值{a1,a2,…,an},则通过属性A的取值可将数据集S划分为Sj个子集,其中,Sj表示在数据集S中属性A的取值为aj的子集,j=1,2,…,u。
如果A被选为决策属性,则这些子集将对应该节点的不同分枝。
如果Sij表示Sj子集中属于ci类的元组的数量,则属性A对于分类ci(i=1,2,…,m)的熵可由下式计算:
属性A的每个取值对分类cj的期望信息量I(Sij,…,Smj),可由下式给出:
式中:ρij=Sij / |Sj|,它表示在Sj子集中属于ci类的比重。
由此可得到对属性A作为决策分类属性的度量值,即信息增益为
Gain(A)=I(r1,r2,…,rm)-E(A)
因此,信息增益率为Ratio(A)=Gain(A)/E(A)。
该算法需要计算每个决策属性的信息增益率,其中具有最大信息增益率的属性就是给定数据集S的决策属性节点,并通过属性的每一个取值建立由节点引出的分枝。
3.基于决策树算法的高职学生就业竞争力分析
第一,数据预处理。数据建模及泛化:这里首先把学生的就业情况作为类标号属性,按其就业情况分为以下三个级别:就业情况好(能很快就业、就业情况好,业绩较为突出、评价好);就业情况中(能顺利就业,就业情况较好);就业情况差(多次推荐仍未就业)。
数据样本用一个7维度X={X1,X2,…,X7}表示,分别描述以下7个变量因素(7个维度:专业课平均成绩、基础课平均成绩、性别、社会工作经历、获奖情况、承担班委经历、沟通能力)对学生就业情况的影响。(1)对专业课平均成绩(average1)进行泛化: [average1<60时,为1(差);60= 4.依据C4.5算法构造决策树
首先选取训练样本数据集,如右表所示。
取属性“就业情况”作为类别标识属性,“专业平均”“基础平均”“性别”“是否班委”“获奖情况”“参加活动情况”“与人交往”等属性作为决策属性集。其中,专业平均、基础平均属于学生知识能力结构,其他则可视为综合素质和非专业因素。
训练样本数据集S中,共有18个元组,其中好、中、差类所对应的子集中元组个数分别为:r1=4、r2=13、r3=1。
为了计算每一个决策属性的信息增益,首先利用公式计算集合S分类的期望信息量:
I(r1,r2,r3)=I(4,13,1)=
=1.0529
然后计算每一个决策属性的期望信息量(即熵值)。
在对属性“专业平均”,专业平均=“优”时:
I(S11,S21,S31)= =0.8453
当专业平均=“良”时:
I(S12,S22,S32)= =0.7219
当专业平均=“中”时:
I(S13,S23,S33)= =1
当专业平均=“差”时,样本数为0。
由此得出“专业平均”的熵值:
E(专业平均)= I(S11,S21,S31)+ I(S12,
S22,S32)+ I(S13,S23,S33)=0.8282
因此属性“专业平均”的信息增益为:
Gain(专业平均)=I(r1,r2,r3)-E(专业平均)=1.0529-0.8282=0.2247
因此属性“专业平均”的信息增益率为:
Ratio(专业平均)=Gain(专业平均)/E(专业平均)=0.2713
同理计算得到属性“基础平均”“性别”“是否担任班委”“获奖情况”“参加活动”“与人交往”的信息增益率分别为:Ratio(基础平均)=0.2982、Ratio(性别)=0.1893、Ratio(是否担任班委)=0.4935、Ratio(获奖情况)=0.1542、 Ratio(参加活动)=0.7999、Ratio(与人交往)=1.1549。由于“与人交往”具有最大信息增益率值,故而选择该属性作为决策树的根节点。
对于每一个分枝,重复上述步骤,即可生成决策树。
5.实验及分析
第一,生成决策树。
选取460个样本运用于该算法,则得到如下所示的决策树:
图1 决策树
第二,剪枝。
图2 决策树剪枝示意图
决策树算法将数据集中的数据信息转化为树的形式,在一定程度上可以提高计算效率,树表示的信息也较容易理解。但是当遇到数据量很大的数据库,根据其数据集建立的决策树规模庞大时,就不易被人理解,而且树的空间与时间复杂性均很大,决策树的效率很低。在这种情况下,就要进行剪枝,使决策树在保持正确率的情况下尽可能地减小规模,起到信息约减的作用。
如图2所示的决策树中,很明显可以剪去第八层的分枝。
经过处理,最后可得图3所示的决策树。
图3 C4.5算法构造就业决策树图
6.实验结果分析
把115个测试数据集用上述决策树进行分类后,其分类准确率为82.61%,该决策树分类模型可用于今后我院计算机网络专业毕业生的就业情况预测。预测就业情况属于“差”或“中”的学生,可根据分类规则给出相应的个人发展建议。就业情况差的,则可建议这一类学生多参加集体活动和社会活动,创造机会让这类学生与更多的人交往,并尽可能地在班上安排一些合适的职务给他们,使之培养出良好的协作观念、团队精神。
7个维度的决策树算法显示,影响高职计算机网络专业学生就业情况的第一因素是与人交往能力,其次依次为在学校期间担任班委情况(或从事社会工作的经历)、个人获奖情况、专业平均成绩、基础平均成绩、参加集体活动的情况,而对就业影响最弱的因素是性别。因此,笔者认为,在高职教育这个层次,学生在学院就读期间,沟通能力、社会活动经历等非专业因素对高职学生就业竞争力的影响非常深刻。这些结论对学院今后的教学安排、教学评价、学生评价、教学观念、课外活动安排将有一定的指导意义。
四 小结
高职学生就业竞争力的培养需要从学校、学生和社会三方入手,形成联动机制。作为人才培养主体的高职院校,除了要围绕市场需求办学、加强专业建设、创新人才培养模式外,还应重视学生综合素质的培养和非专业因素的影响。而作为就业主体的学生,除掌握课程知识,形成尽可能丰富的知识结构之外,还要自觉克服性格、个性方面的缺陷,以一种开放的心态主动参与各类社会事务和社会活动,促进个人综合素质的提升,不断增强自身的就业竞争力。
作者:石芸 来源:学园 2015年30期