遥感决策树模型毕业论文

Multi-spectral remote sensing image classification decision tree automatically generated method Abstract: remote sensing image classification study of remote sensing technology is the key issue is the use of remote sensing images on other aspects of the premise. Current remote sensing images have been classified by the previous visual interpretation, the computer has become automatic classification. How to design a convenient and easy classification accuracy of the computer automatically higher classification of remote sensing image classification is a hot area of research. Pattern Recognition in the decision tree is classified as a way to the peak or distribution of a wide range of issues, this approach is particularly convenient. Use of decision tree can be a complex multi-category classification problem into a number of simple classification issues to resolve. It is not attempting to use an algorithm, a decision-making rules to make a number of separate categories, but in the form of adopting a classification, the classification issues have been settled gradually. These characteristics of the decision tree is very suited to the needs of remote sensing image classification, a common method of remote sensing classification. In this paper, automatic classification of remote sensing imaging technology and the theory of decision tree to do about the system, mainly by a multi-spectral remote sensing image classification decision tree automatically generated methods, the methods for the final evaluation, decision tree and the use of remote sensing Image classification techniques of the future.

Remote sensing image classification study of remote sensing technology is the key issue is the use of remote sensing images on other aspects of the premise. At present the classification of remote sensing images from the past has been the visual interpretation, the computer has become automatic classification. How to design a convenient and easy classification accuracy of the computer automatically higher classification of remote sensing image classification is a hot area of Recognition in the decision tree is classified as a way to the peak or distribution of a wide range of issues, this approach is particularly convenient. Use of decision tree can be a complex multi-category classification problem into a number of simple classification issues to resolve. It is not attempting to use an algorithm，A decision-making rules to make a number of separate categories, but in the form of adopting a classification, the classification issues have been settled gradually. These characteristics of the decision tree is very suitable for the needs of remote sensing image classification, a common method of remote sensing classification. In this paper, automatic classification of remote sensing imaging technology and the theory of decision tree to do about the system, mainly by a multi-spectral remote sensing image classification decision tree automatically generated methods, the methods for the final evaluation, decision tree and the use of remote sensing The image classification techniques the future.

[5] 贾永红，李芳芳. 一种新的湿地信息遥感提取方法研究[J]. 华中师范大学学报（自然科学版），2007，41（04）. [6] 李芳芳，贾永红. 一种基于 TM 影像的湿地信息提取方法及变化检测[J]. 测绘科学，2008，33（2）. [10] 赵英时. 遥感应用分析原理[M]. 北京：科学出版社，2003. 这几篇文献里有提到~~~ 在遥感图像分类中，往往需要深入研究地物的总体规律及内在联系，理顺其主次因果关系，建立一种树状结构的框架。即建立所谓的分类树来说明地物关系，并根据分类树所描述的判断准则，对图像中的各像元进行逐级分层的识别和归类，通过若干次中间判别，最终把研究目标一一区分，这就是决策树分类法，也叫分层分类法[10]。决策树分类的基本思想是逐步从原始影像中分离并掩膜每一种目标作为一个图层或树枝，目标间关系被大大简化。因在分类树的各个中间节点上，只存在较少的类别。面对较少的对象就能选择更有效的判别函数或有针对性的分类方法，避免此目标对其他目标提取时造成干扰和影响，同时利用辅助数据进行复合处理，最终将所有图层符合以实现图像的自动分类。决策树分类法根据不同目的要求进行层层深化，相互关系明确，局部细节描述得更为清楚，针对性更强，每个节点上只需要考虑与区分目标有关的最佳变量，因而分类精度提高的同时，也避免了数据的冗余。

第一篇我们主要关注了根结点及内部结点的选择第二篇主要关注如何处理“过拟合”现象参考

个性化与泛化是一个相互矛盾概念，就像个体化诊疗与指南的矛盾一样。决策树对训练数据可以得到很低的错误率，但是运用到测试数据上却得到非常高的错误率，这就是“过拟合现象”。具体解释如下：对于决策树，我们希望每个叶子节点分的都是正确的答案，所以在不加限制的情况下，决策树倾向于把每个叶子节点单纯化，那如何最单纯呢？极端情况下，就是每个叶子节点只有一个样本，那这样，这个模型在建模集的准确率就非常高了。但是，这又带来了一个问题——过拟合，这会导致该模型在建模集效果显著，但是验证集表现不佳。这可能有以下几个原因： 1、训练集里面有噪音数据，干扰了正常数据的分支 2、训练集不具有特征性 3、特征太多

使用信息增益来种树时，为了得到最优的决策树，算法会不惜带价倾向于将熵值降为最小（可能的话甚至为0），这颗树会显得非常的冗杂。

通过限制复杂度参数（complexity parameter），抓主要矛盾，来防止模型的过拟合。具体的计算过程可以参考<医学僧的科研日记>，这里我直接引用

剪枝（pruning）则是决策树算法对付过拟合的主要手段，剪枝的策略有两种如下：

定义：预剪枝就是在构造决策树的过程中，先对每个结点在划分前进行估计，如果当前结点的划分不能带来决策树模型泛化性能的提升，则不对当前结点进行划分并且将当前结点标记为叶结点。

相比于预剪枝，后剪枝往往应用更加广泛，

决策树模型毕业论文

本章节主要讲述的是决策模型，通过决策模型在不确定的情况下做一些决策分析，来帮助我们进行更好的决定。在决策模型中最重要的就是决策树了，课程用决策树举了好几个例子：如购票，3时的票只要200元，4时的票要400元，通过及时赶上3点的火车机率是40%。如果赶不上就等于多买了3时的票，也就是多支付200元。通过决策树，对不确定的情况下，分别计划从而得出结论。其它的例子还有投资，申请奖学金等。不过有意思的是，可以通过决策树推测出对这个几率的看法，举例是回家看父母，通过决策树的一轮推算，精确地知道到底有多想看望父母。决策树模型的应用非常广泛，在PMP（项目管理）中就会经常用到，是作为项目风险管理的一种工具与技术。在PMP中称为预期货币价值（EMV）分析，是当某些情况在未来可能发生或不发生时，计算结果的一种统计方法（不确定性下的分析）。可见决策树是基于不确性因素时中使用，如果一旦因素被确定下来，那么就是后面一节所讲的信息价值了。再聊个实际的决策树案例条件：某项目招标，分为A和B两个标段，只能投其中一个。根据之前的经验，对这个项目有2种投标策略：（1）投高标，中标机率是30%；（2）投投标，中标机率是50%；所以共有5种策略， A高标，A低标，B高标，B低标，不投；据项目管理的资料统计，每种策略的利润和概率参见下表：投标A不中，损失50万元，投标B不中，损失100万元。那么投那个的收益更高呢？决策树模型分析如下：

信息管理与信息系统专业毕业论文题目汇总 1.《信息系统分析与设计》双语教学网站视频图像存储格式与压缩技术 2003操作试题自动评分系统 Services技术及其在企业管理系统中的应用图像检索关键技术 6.便民在线系统 7.车辆理赔系统 8.道路交通灯指示调度算法 9.电子商务的风险与防范 10.电子商务对消费者权益保护的影响 11.电子商务发展策略分析 12.电子商务环境下的第三方支付平台探究13.电子商务物流配送环节的分析与研究 14.电子商务下的供应链管理 15.电子商务与电子政务的探讨 16.电子政务系统—论坛 17.高档住宅区网上虚拟看房选房系统 18.高校教材管理系统的设计与实现 19.高校科研管理系统（学院版）的设计与实现 20.高校学生管理系统（网站）（学院版）的设计与实现 21.个性化定制报纸网站的设计与实现 22.公司事物管理系统的设计与实现 23.公文流转系统的设计与实现 24.管理信息系统与社会市场经济适应性研究 25.基于ASP .NET的世纪佳缘婚恋网站开发 26.基于的网上在线考试系统分析设计 27.基于B/S模式的会计信息系统 28.基于B/S模式的企业进存销系统开发 29.基于B/S模式的企业人力资源系统开发 30.基于RSS的智能信息采集系统的设计与实现 31.基于web的大学生个人知识管理系统 32.基于电子商务的网络营销的实现 33.基于高校科研管理的全面质量管理体系的研究 34.家庭理财系统 35.兼职中介管理系统的设计与实现 36.简述电子商务应用 37.课程网站的设计与实现 38.类似校内网的设计与实现 39.某一物流公司的物流系统的设计与实现 40.企业信息资源价值的形成机制 41.企业知识管理系统框架分析 42.浅谈客户关系管理中数据挖掘的应用 43.浅谈生物特征识别技术及其应用 44.浅谈网络安全 45.浅谈我国企业实施ERP的风险与规避政策 46.浅谈我国网上购物发展前景 47.设计一个基于电子商务平台的网上销售系统 48.售楼管理系统的设计与实现 49.税收管理信息化研究 50.搜索引擎的探讨及其应用 51.图书租阅管理信息系统 52.图像特征提取与识别技术 53.团购网的设计与实现 54.网络成瘾原因及对策研究 55.网络发展对电子商务的影响 56.网络环境下的信息安全问题研究 57.网络教务信息平台的分析与比较 58.网络入侵检测技术的研究 59.网络投稿系统的设计与实现 60.网络银行的风险与防范 61.网络游戏成瘾原因及其对策研究 62.网络游戏盈利模式探讨 63.网上开店系统 64.网上纳税系统 65.网上在线考试系统设计 66.网上招聘系统 67.我国网络广告的发展和完善 68.我国中小企业信息化的SAAS研究 69.无线局域技术WIMAX的应用与研究 70.无线局域网的研究与应用 71.无线局域网技术和应用 72.现代网络安全的探讨 73.信息管理系统开发模式探讨 74.信息管理与知识管理的比较研究 75.信息化水平与经济发展适应性研究 76.星级酒店宾馆VIP贵宾服务系统 77.虚拟企业运作模式浅析 78.学分制模式下排课系统的设计与实现 79.学术会议论文审稿分配算法 80.学术会议论文审稿系统 81.学术会议论文投稿系统 82.音像制品租赁管理系统 83.英语学习网站的设计与实现 84.语音导航系统的设计与实现 85.院校考务管理系统设计与实现 86.在线考试系统的设计与实现 87.在线智能问答系统的设计与实现 88.政府在线采购系统 89.知识管理对促进企业创新的分析 90.中国旅游网站的设计与实现 91.资金票据管理系统的设计与实现1、学校综合管理系统 2、企业管理信息系统 3、机关办公自动化系统 4、物资的购、销、存管理 5、电子商务管理系统 6、库存与成本核算管理 7、人事综合管理系统 8、交通管理系统 9、超市管理系统 10、高校学生管理系统 11、计算机网络应用软件 12、基于C/S或B/S的事务查询系统 13、计算机动态网页的制作 14、基于网络的客运售票系统 15、高校科研与技术开发管理16、高校教学与课表制作管理 17、城市居民户籍管理 18、商品销售与市场预测管理 19、电信业务管理 20、工商税务管理 21、计量标准化管理 22、银行储蓄业务管理 23、城市供电管理 24、餐饮业管理 25、房地产管理 26、股票行情分析管理 27、大中型医院管理 28、数字图书馆管理 29、辅助决策系统 30、生产过程管理系统 31、贷款业务管理 32、财务管理 33、计算机网络的设计与实现 34、信息系统开发工具的设计与研究2、 2.基于Web服务的应用程序设计 3.在线就业招聘系统的设计与实现 4.教师教学质量评价系统 5.超市在线交易系统一 6.超市管理系统 7.计算机多媒体辅助教学网站开发 8.试题采编系统 9.试题卷生成系统要求:在B/S模式下根据试题卷生成系统生成的试卷进行在线考核,并进行实时评测11.稿件投稿及审阅系统 12.毕业设计学生选题系统 13.通用考试系统平台研究 14.房产信息管理系统 15.医院信息管理系统 16.邮件作业批改,管理系统 17.基于WEB的高校学生选课系统 18.基于内容过滤的Email收发程序 (客户关系管理)系统 20.基于多层的软件体系设计分布式学籍管理系统. 21.教材管理系统设计 22.通用期刊稿件处理系统(网络,数据库) 23.网上购物系统24.人事工资管理系统 25.基于Internet技术的图书销售系统开发 1．工业企业信息安全风险评估模型的构建与应用研究 2．我国大中型MIS建设工程监理研究 3．工业企业信息安全风险管理的框架研究 4．电子政务系统绩效评价体系研究 5．企业信息化成熟度及其影响因素研究 6．基于URP（大学资源计划）的校园信息化建设研究 7．信息安全风险评估模型及方法研究 8．我国电子政务信息安全管理问题研究 9．某省信息产业结构分析与发展对策研究 10．某省（地区）信息化水平测度研究 11．企业信息化项目管理绩效评价研究12．现代企业信息系统的协同化研究 13．中小企业供应链的绩效评价研究 14．高校信息化评价指标体系与方法研究 15．工业企业信息化评价指标体系与方法研究 16．某省（市）信息化评价指标体系与方法研究 17．某省（市）信息产业发展状态与趋势研究 18．电子信息类企业信息化实施战略研究 19．中小企业信息化发展的模式与策略研究20．决策树模型在客户分类中的应用 21．企业客户关系管理模式研究 21．企业CRM客户价值研究 22．企业网络化安全管理问题及对策 23．CRM在企业电子商务中的实施研究 24．数据挖掘在某行业CRM中的应用研究 25．CRM在中小企业中的应用研究 26．数据挖掘技术在电子商务中的应用 27．某企业信息资源规划方案设计 28．网络环境下企业信用管理体系构建研究 29．我国电子商务信用体系建设的探讨 30．电子商务市场中的信息不对称与对策研究 31．B2B电子商务信用评价模型的研究 32．C2C电子商务信用管理研究 33．某企业电子商务平台建设构建模式研究 34．电子商务风险管理研究 35．论知识产权保护与信息资源共享 36．工业企业信息资源开发与利用研究 37．网络教育信息资源开发与利用研究 38．电子商务中网络安全问题的探讨 39．网络环境下政府信息资源管理模型研究 40．基于电子商务的企业信息系统安全研究 41．网络环境下某省（市）信息资源的深度开发 42．企业风险信息资源管理 43．中小企业信息化建设的风险管理与应对研究 44．某省（市）网络环境下信息服务业发展中的问题及对策 45．某省（市）农业信息资源的开发与利用 46．企业客户信用信息资源管理 47．某电子政务信息资源整合与重构的研究 48．网络环境下某省（市）政府信息资源开发利用的探讨 49．工业企业（流通企业）物流信息资源管理 50．电子商务下物流信息管理模式的研究 51．论我国电子商务物流体系的构建 52．第三方物流企业信息资源管理 53．统一电子政务信息资源库模式的构建与实现 54．基于信息资源开发理论的农业信息资源开发与利用研究 55．企业信息资源管理系统结构模式的研究 56．电子政务信息资源标准研究 57．竞争对手情报的获取方法及分析 58．基于CRM的企业市场营销策略及应用研究 59．企业竞争情报与知识管理的整合研究 60．信息分析方法及实证研究 61．数据、情报挖掘方法与决策支持技术 62. CRM在电子政务中的应用研究 63．基于客户全生命周期的CRM研究 64.数据仓库技术在客户关系管理中的应用研究 65、电子商务中的web数据挖掘研究 66、数据挖掘技术在CRM中的应用 1234567890ABCDEFGHIJKLMNabcdefghijklmn!@#$%^&&*()_+.一三五七九贰肆陆扒拾，。青玉案元夕东风夜放花千树更吹落星如雨宝马雕车香满路凤箫声动玉壶光转一夜鱼龙舞蛾儿雪柳黄金缕笑语盈盈暗香去众里寻他千百度暮然回首那人却在灯火阑珊处阅读已结束，如果下载本文需要使用1下载券下载想免费下载本文？立即加入VIP文档免下载券下载特权全站付费文档8折起千本精品电子书免费看相关推荐课程推荐机构推荐更多>>汽修厂创业与管理培训专业汽车结构与原理，公关礼仪与谈判技巧，汽修厂创业…免费20条评论查看详情2015上海财大企业上市与金融班即将开班!财大投融资金融班,汇聚各行业精英,各大高校金融EM…¥650005条评论查看详情你可能喜欢信息管理专业毕业论文... 网上人才招聘系统论文自动评分系统医院管理系统毕业论文中小企业资金管理电子商务税收电子商务系统学生信息管理系统毕业...计算机信息管理专业毕业论文题目暂无评价 1页免费计算机信息管理专业毕业设计(论文)题目(2011年... 1页 1下载券计算机信息管理专业毕业论文题目(111207) 3页免费信息技术应用与管理专业独立本科毕业论文参考题目 11页免费计算机信息管理专业毕业论文参考题目 1页免费更多与“信息管理专业毕业论文题目”相关的内容>> 今日推荐20080份文档权威学术专区新能源汽车租赁运营模式及风险研究房地产行业纳入“营改增”试点改革探讨黑果枸杞苗木快速繁育及建园技术89份文档应届生求职季宝典英文个人简历模板创意简历模板汇集推理型题分析与总结您的评论 240发布评论用户评价暂无评论©2015 Baidu 使用百度前必读 | 文库协议 | 网站地图关闭您有1份新手礼包尚未领取

企业信息系统开发战略

硕士毕业论文决策树

相关范文：数据挖掘技术及其应用摘要：随着网络、数据库技术的迅速发畏以及数据库管理系统的广泛应用，人们积累的数据越来越多。数据挖掘(Data Mining)就是从大量的实际应用数据中提取隐含信息和知识，它利用了数据库、人工智能和数理统计等多方面的技术，是一类深层次的数据分析方法。关键词：数据挖掘；知识；分析；市场营销；金融投资随着网络、数据库技术的迅速发展以及数据库管理系统的广泛应用，人们积累的数据越来越多。由此，数据挖掘技术应运而生。下面，本文对数据技术及其应用作一简单介绍。一、数据挖掘定义数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它是一种新的商业信息处理技术，其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理，从中提取辅助商业决策的关键性数据。简而言之，数据挖掘其实是一类深层次的数据分析方法。从这个角度数据挖掘也可以描述为：按企业制定的业务目标，对大量的企业数据进行探索和分析，揭示隐藏的、未知的或验证已知的规律性，并进一步将其模型化的先进有效的方法。二、数据挖掘技术数据挖掘技术是人们长期对数据库技术进行研究和开发的结果，代写论文其中数据仓库技术的发展与数据挖掘有着密切的关系。大部分情况下，数据挖掘都要先把数据从数据仓库中拿到数据挖掘库或数据集市中，因为数据仓库会对数据进行清理，并会解决数据的不一致问题，这会给数据挖掘带来很多好处。此外数据挖掘还利用了人工智能(AI)和统计分析的进步所带来的好处，这两门学科都致力于模式发现和预测。数据库、人工智能和数理统计是数据挖掘技术的三大支柱。由于数据挖掘所发现的知识的不同，其所利用的技术也有所不同。1．广义知识。指类别特征的概括性描述知识。根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识，反映同类事物的共同性质，是对数据的概括、精炼和抽象。广义知识的发现方法和实现技术有很多，如数据立方体、面向屙性的归约等。数据立方体的基本思想是实现某些常用的代价较高的聚集函数的计算，诸如计数、求和、平均、最大值等，并将这些实现视图储存在多维数据库中。而面向属性的归约是以类SQL语言来表示数据挖掘查询，收集数据库中的相关数据集，然后在相关数据集上应用一系列数据推广技术进行数据推广，包括属性删除、概念树提升、属性阈值控制、计数及其他聚集函数传播等。2．关联知识。它反映一个事件和其他事件之间依赖或关联的知识。如果两项或多项属性之间存在关联，那么其中一项的属性值就可以依据其他属性值进行预测。最为著名的关联规则发现方法是Apriori算法和FP—Growth算法。关联规则的发现可分为两步：第一步是迭代识别所有的频繁项目集，要求频繁项目集的支持率不低于用户设定的最低值；第二步是从频繁项目集中构造可信度不低于用户设定的最低值的规则。识别或发现所有频繁项目集是关联规则发现算法的核心，也是计算量最大的部分。3．分类知识。它反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。分类方法有决策树、朴素贝叶斯、神经网络、遗传算法、粗糙集方法、模糊集方法、线性回归和K—Means划分等。其中最为典型的分类方法是决策树。它是从实例集中构造决策树，是一种有指导的学习方法。该方法先根据训练子集形成决策树，如果该树不能对所有对象给出正确的分类，那么选择一些例外加入到训练子集中，重复该过程一直到形成正确的决策集。最终结果是一棵树，其叶结点是类名，中间结点是带有分枝的屙性，该分枝对应该屙性的某一可能值。4．预测型知识。它根据时间序列型数据，由历史的和当前的数据去推测未来的数据，也可以认为是以时间为关键属性的关联知识。目前，时间序列预测方法有经典的统计方法、神经网络和机器学习等。1968年BoX和Jenkins提出了一套比较完善的时间序列建模理论和分析方法，这些经典的数学方法通过建立随机模型，进行时间序列的预测。由于大量的时间序列是非平稳的，其特征参数和数据分布随着时间的推移而发生变化。因此，仅仅通过对某段历史数据的训练，建立单一的神经网络预测模型，还无法完成准确的预测任务。为此，人们提出了基于统计学和基于精确性的再训练方法，当发现现存预测模型不再适用于当前数据时，对模型重新训练，获得新的权重参数，建立新的模型。5．偏差型知识。它是对差异和极端特例的描述，揭示事物偏离常规的异常现象，如标准类外的特例、数据聚类外的离群值等。所有这些知识都可以在不同的概念层次上被发现，并随着概念层次的提升，从微观到中观、到宏观，以满足不同用户不同层次决策的需要。三、数据挖掘流程数据挖掘是指一个完整的过程，该过程从大型数据库中挖掘先前未知的、有效的、可实用的信息，代写毕业论文并使用这些信息做出决策或丰富知识。数据挖掘的基本过程和主要步骤如下：过程中各步骤的大体内容如下：1．确定业务对象，清晰地定义出业务问题。认清数据挖掘的目的是数据挖掘的重要一步，挖掘的最后结构不可预测，但要探索的问题应该是有预见的，为了数据挖掘而挖掘则带有盲目性，是不会成功的。2．数据准备。(1)数据选择。搜索所有与业务对象有关的内部和外部数据信息，并从中选择出适用于数据挖掘应用的数据。(2)数据预处理。研究数据的质量，进行数据的集成、变换、归约、压缩等．为进一步的分析作准备，并确定将要进行的挖掘操作的类型。(3)数据转换。将数据转换成一个分析模型，这个分析模型是针对挖掘算法建立的，这是数据挖掘成功的关键。3．数据挖掘。对所得到的经过转换的数据进行挖掘。除了完善和选择合适的挖掘算法外，其余一切工作都能自动地完成。4．结果分析。解释并评估结果。其使用的分析方法一般应视挖掘操作而定，通常会用到可视化技术。5．知识同化。将分析所得到的知识集成到业务信息系统的组织结构中去。四、数据挖掘的应用数据挖掘技术从一开始就是面向应用的。目前在很多领域，数据挖掘都是一个很时髦的词，尤其是在如银行、电信、保险、交通、零售(如超级市场)等商业领域。1．市场营销。由于管理信息系统和P0S系统在商业尤其是零售业内的普遍使用，特别是条形码技术的使用，从而可以收集到大量关于用户购买情况的数据，并且数据量在不断激增。对市场营销来说，通过数据分析了解客户购物行为的一些特征，对提高竞争力及促进销售是大有帮助的。利用数据挖掘技术通过对用户数据的分析，可以得到关于顾客购买取向和兴趣的信息，从而为商业决策提供了可靠的依据。数据挖掘在营销业上的应用可分为两类：数据库营销(database markerting)和货篮分析(basket analysis)。数据库营销的任务是通过交互式查询、数据分割和模型预测等方法来选择潜在的顾客，以便向它们推销产品。通过对已有的顾客数据的辱淅，可以将用户分为不同级别，级别越高，其购买的可能性就越大。货篮分析是分析市场销售数据以识别顾客的购买行为模式，例如：如果A商品被选购，那么B商品被购买的可能性为95％，从而帮助确定商店货架的布局排放以促销某些商品，并且对进货的选择和搭配上也更有目的性。这方面的系统有：Opportunity Ex-plorer，它可用于超市商品销售异常情况的因果分析等，另外IBM公司也开发了识别顾客购买行为模式的一些工具(IntdligentMiner和QUEST中的一部分)。2．金融投资。典型的金融分析领域有投资评估和股票交易市场预测，分析方法一般采用模型预测法(如神经网络或统计回归技术)。代写硕士论文由于金融投资的风险很大，在进行投资决策时，更需要通过对各种投资方向的有关数据进行分析，以选择最佳的投资方向。无论是投资评估还是股票市场预测，都是对事物发展的一种预测，而且是建立在对数据的分析基础之上的。数据挖掘可以通过对已有数据的处理，找到数据对象之间的关系，然后利用学习得到的模式进行合理的预测。这方面的系统有Fidelity Stock Selector和LBS Capital Management。前者的任务是使用神经网络模型选择投资，后者则使用了专家系统、神经网络和基因算法技术来辅助管理多达6亿美元的有价证券。3．欺诈甄别。银行或商业上经常发生诈骗行为，如恶性透支等，这些给银行和商业单位带来了巨大的损失。对这类诈骗行为进行预测可以减少损失。进行诈骗甄别主要是通过总结正常行为和诈骗行为之间的关系，得到诈骗行为的一些特性，这样当某项业务符合这些特征时，可以向决策人员提出警告。这方面应用非常成功的系统有：FALCON系统和FAIS系统。FALCON是HNC公司开发的信用卡欺诈估测系统，它已被相当数量的零售银行用于探测可疑的信用卡交易；FAIS则是一个用于识别与洗钱有关的金融交易的系统，它使用的是一般的政府数据表单。此外数据挖掘还可用于天文学上的遥远星体探测、基因工程的研究、web信息检索等。结束语随着数据库、人工智能、数理统计及计算机软硬件技术的发展，数据挖掘技术必能在更多的领域内取得更广泛的应用。参考文献：[1]闫建红《数据库系统概论》的教学改革与探索[J]．山西广播电视大学学报，2006，(15)：16—17．其他相关：数据挖掘研究现状及最新进展（CAJ格式）仅供参考，请自借鉴希望对您有帮助补充：如何撰写毕业论文本科专业（含本科段、独立本科段）自考生在各专业课程考试成绩合格后，都要进行毕业论文的撰写（工科类专业一般为毕业设计、医科类一般为临床实习）及其答辩考核。毕业论文的撰写及答辩考核是取得高等教育自学考试本科毕业文凭的重要环节之一，也是衡量自考毕业生是否达到全日制普通高校相同层次相同专业的学力水平的重要依据之一。但是，由于许多应考者缺少系统的课堂授课和平时训练，往往对毕业论文的独立写作感到压力很大，心中无数，难以下笔。因此，对本科专业自考生这一特定群体，就毕业论文的撰写进行必要指导，具有重要的意义。本文试就如何撰写毕业论文作简要论述，供参考。毕业论文是高等教育自学考试本科专业应考者完成本科阶段学业的最后一个环节，它是应考者的总结性独立作业，目的在于总结学习专业的成果，培养综合运用所学知识解决实际问题的能力。从文体而言，它也是对某一专业领域的现实问题或理论问题进行科学研究探索的具有一定意义的论说文。完成毕业论文的撰写可以分两个步骤，即选择课题和研究课题。首先是选择课题。选题是论文撰写成败的关键。因为，选题是毕业论文撰写的第一步，它实际上就是确定“写什么”的问题，亦即确定科学研究的方向。如果“写什么”不明确，“怎么写”就无从谈起。教育部自学考试办公室有关对毕业论文选题的途径和要求是“为鼓励理论与工作实践结合，应考者可结合本单位或本人从事的工作提出论文题目，报主考学校审查同意后确立。也可由主考学校公布论文题目，由应考者选择。毕业论文的总体要求应与普通全日制高等学校相一致，做到通过论文写作和答辩考核，检验应考者综合运用专业知识的能力”。但不管考生是自己任意选择课题，还是在主考院校公布的指定课题中选择课题，都要坚持选择有科学价值和现实意义的、切实可行的课题。选好课题是毕业论文成功的一半。第一、要坚持选择有科学价值和现实意义的课题。科学研究的目的是为了更好地认识世界、改造世界，以推动社会的不断进步和发展。因此，毕业论文的选题，必须紧密结合社会主义物质文明和精神文明建设的需要，以促进科学事业发展和解决现实存在问题作为出发点和落脚点。选题要符合科学研究的正确方向，要具有新颖性，有创新、有理论价值和现实的指导意义或推动作用，一项毫无意义的研究，即使花很大的精力，表达再完善，也将没有丝毫价值。具体地说，考生可从以下三个方面来选题。首先，要从现实的弊端中选题，学习了专业知识，不能仅停留在书本上和理论上，还要下一番功夫，理论联系实际，用已掌握的专业知识，去寻找和解决工作实践中急待解决的问题。其次，要从寻找科学研究的空白处和边缘领域中选题，科学研究还有许多没有被开垦的处女地，还有许多缺陷和空白，这些都需要填补。应考者应有独特的眼光和超前的意识去思索，去发现，去研究。最后，要从寻找前人研究的不足处和错误处选题，在前人已提出来的研究课题中，许多虽已有初步的研究成果，但随着社会的不断发展，还有待于丰富、完整和发展，这种补充性或纠正性的研究课题，也是有科学价值和现实指导意义的。第二、要根据自己的能力选择切实可行的课题。毕业论文的写作是一种创造性劳动，不但要有考生个人的见解和主张，同时还需要具备一定的客观条件。由于考生个人的主观、客观条件都是各不相同的，因此在选题时，还应结合自己的特长、兴趣及所具备的客观条件来选题。具体地说，考生可从以下三个方面来综合考虑。首先，要有充足的资料来源。“巧妇难为无米之炊”，在缺少资料的情况下，是很难写出高质量的论文的。选择一个具有丰富资料来源的课题，对课题深入研究与开展很有帮助。其次，要有浓厚的研究兴趣，选择自己感兴趣的课题，可以激发自己研究的热情，调动自己的主动性和积极性，能够以专心、细心、恒心和耐心的积极心态去完成。最后，要能结合发挥自己的业务专长，每个考生无论能力水平高低，工作岗位如何，都有自己的业务专长，选择那些能结合自己工作、发挥自己业务专长的课题，对顺利完成课题的研究大有益处。选好课题后，接下来的工作就是研究课题，研究课题一般程序是：搜集资料、研究资料，明确论点和选定材料，最后是执笔撰写、修改定稿。第一、研究课题的基础工作———搜集资料。考生可以从查阅图书馆、资料室的资料，做实地调查研究、实验与观察等三个方面来搜集资料。搜集资料越具体、细致越好，最好把想要搜集资料的文献目录、详细计划都列出来。首先，查阅资料时要熟悉、掌握图书分类法，要善于利用书目、索引，要熟练地使用其他工具书，如年鉴、文摘、表册、数字等。其次，做实地调查研究，调查研究能获得最真实可靠、最丰富的第一手资料，调查研究时要做到目的明确、对象明确、内容明确。调查的方法有：普遍调查、重点调查、典型调查、抽样调查。调查的方式有：开会、访问、问卷。最后，关于实验与观察。实验与观察是搜集科学资料数据、获得感性知识的基本途径，是形成、产生、发展和检验科学理论的实践基础，本方法在理工科、医类等专业研究中较为常用，运用本方法时要认真全面记录。第二、研究课题的重点工作———研究资料。考生要对所搜集到手的资料进行全面浏览，并对不同资料采用不同的阅读方法，如阅读、选读、研读。通读即对全文进行阅读，选读即对有用部分、有用内容进行阅读，研读即对与研究课题有关的内容进行全面、认真、细致、深入、反复的阅读。在研读过程中要积极思考。要以书或论文中的论点、论据、论证方法与研究方法来触发自己的思考，要眼、手、脑并用，发挥想象力，进行新的创造。在研究资料时，还要做好资料的记录。第三、研究课题的核心工作―――明确论点和选定材料。在研究资料的基础上，考生提出自己的观点和见解，根据选题，确立基本论点和分论点。提出自己的观点要突出新创见，创新是灵魂，不能只是重复前人或人云亦云。同时，还要防止贪大求全的倾向，生怕不完整，大段地复述已有的知识，那就体现不出自己研究的特色和成果了。根据已确立的基本论点和分论点选定材料，这些材料是自己在对所搜集的资料加以研究的基础上形成的。组织材料要注意掌握科学的思维方法，注意前后材料的逻辑关系和主次关系。第四、研究课题的关键工作―――执笔撰写。考生下笔时要对以下两个方面加以注意：拟定提纲和基本格式。拟定提纲包括题目、基本论点、内容纲要。内容纲要包括大项目即大段段旨、中项目即段旨、小项目即段中材料或小段段旨。拟定提纲有助于安排好全文的逻辑结构，构建论文的基本框架。基本格式：一般毕业论文由标题、摘要、正文、参考文献等4方面内容构成。标题要求直接、具体、醒目、简明扼要。摘要即摘出论文中的要点放在论文的正文之前，以方便读者阅读，所以要简洁、概括。正文是毕业论文的核心内容，包括绪论、本论、结论三大部分。绪论部分主要说明研究这一课题的理由、意义，要写得简洁。要明确、具体地提出所论述课题，有时要写些历史回顾和现状分析，本人将有哪些补充、纠正或发展，还要简单介绍论证方法。本论部分是论文的主体，即表达作者的研究成果，主要阐述自己的观点及其论据。这部分要以充分有力的材料阐述观点，要准确把握文章内容的层次、大小段落间的内在联系。篇幅较长的论文常用推论式（即由此论点到彼论点逐层展开、步步深入的写法）和分论式（即把从属于基本论点的几个分论点并列起来，一个个分别加以论述）两者结合的方法。结论部分是论文的归结收束部分，要写论证的结果，做到首尾一贯，同时要写对课题研究的展望，提及进一步探讨的问题或可能解决的途径等。参考文献即撰写论文过程中研读的一些文章或资料，要选择主要的列在文后。第五、研究课题的保障工作―――修改定稿。通过这一环节，可以看出写作意图是否表达清楚，基本论点和分论点是否准确、明确，材料用得是否恰当、有说服力，材料的安排与论证是否有逻辑效果，大小段落的结构是否完整、衔接自然，句子词语是否正确妥当，文章是否合乎规范。总之，撰写毕业论文是一种复杂的思维活动，对于缺乏写作经验的自考生来说，确有一定的难度。因此，考生要“学习学习再学习，实践实践再实践”，虚心向指导教师求教。

论文答辩是学生们最头疼的事，想要一篇好的论文还是唐人代写有水平。

论文结构要求学位论文应采用汉语撰写;一般由十一部分组成,依次为:(1)封面,(2)扉页,(3)独创性声明,学位论文使用授权说明,(4)中文摘要,(5)英文摘要,(6)目录,(7)正文,(8)参考文献,(9)发表论文和参加科研情况说明,(10)附录,(11)致谢.各部分具体要求如下:封面(采用天津大学统一印制的封面)论文题目:应是整个论文总体内容的体现,要引人注目,力求简短,严格控制在25字以内.学科专业:以国务院学位委员会发布的学科专业目录中的二级学科为准.指导教师:除工程硕士写两名指导教师外(含一名企业导师),其他一般只能写一名指导教师.(2)扉页(见样例)(3)独创性声明和论文使用授权说明:《独创性声明》和《学位论文版权使用授权书》里的"学位论文作者签名"和"导师签名"均不能为空,否则不提交校学位评定委员会讨论学位.(见样例)(4)中文摘要中文摘要应将学位论文的内容要点简短明了地表达出来,约500~800字左右(限一页),字体为宋体小四号.内容应包括工作目的,研究方法,成果和结论.要突出本论文的创新点,语言力求精炼.为了便于文献检索,应在本页下方另起一行注明论文的关键词(3-7个).(见样例)(5)英文摘要内容应与中文摘要相同.字体为Times New Roman小四号.(见样例)(6)目录标题应简明扼要并标明页号.(7)正文硕士学位论文一般要求不少于3万字;博士学位论文一般不少于5万字.内容一般包括:国内外研究现状,理论分析,计算方法,实验装置和测试方法,实验结果分析与讨论,研究成果,结论及意义.(8)参考文献只列出作者直接阅读过,在正文中被引用过的文献资料.参考文献一律放在论文结束后,不得放在各章之后.(9)发表论文和参加科研情况说明指在学期间发表论文和参加科研情况.(10)附录内容一般包括正文内不便列出的冗长公式推导,辅助性数学工具,符号说明(含缩写),计算程序及说明等.致谢限一页.2,论文书写要求(1) 语言表述a.论文应层次分明,数据可靠,推理严谨,立论正确.论述必须简明扼要,重点突出,对同行专业人员已熟知的常识内容,尽量减少叙述.b.论文中如出现一些非通用性的新名词,新术语或新概念,需立即做出解释.

根据学术堂的了解，硕士毕业论文由五大部分构成1、序言硕士毕业论文的序言主要是表明进行该项研究的原因，目前国内外对于该项研究的研究状况，论文的创新之处，论文框架结构。在语言上表达上应该简明清晰，加深印象与结论相呼应。一般而言，序言部分就可以反映出作者的基础知识、专业知识以及对研究专业的了解程度。2、相关知识背景的阐述当硕士毕业论文涉及其他学科或者专业的知识，需要在论文开始之前预先做介绍。介绍背景知识时，需要通过数据、性能做重点介绍。同时要介绍自己的研究工作，两者尽量结合在一起，做到合理自然。3、论文的主要研究内容这部分是重点，论文需要将研究内容阐述清楚，可能会分为2~3个章节，划分章节时，根据研究工作性质来定，最好根据模块来划分，模块的划分可以按任务划分，可以按性质划分，也可以按结构划分。在介绍自己研究工作过程中，有的部分是利用现成技术和结果的，有的是自己设计、推导或创造的，一定要描述清楚。不少论文对这一部分介绍的很详细，分不清那些工作是作者做的，那些工作是引用他人的。也看不出来特色是什么，能解决什么问题，该细的部分粗略带过，该简要的地方太过冗长。同样，章节不能多于4个，否则造成硕士毕业论文论点太分散，并且自身的工作量也太大，不太可能在一年内完成。4、验证结果硕士毕业论文在做课题时要结合实际(纯理论研究除外)，最好能完整的参与课题的全过程，所以最后的结果应和实际对比，接受实际检验，要通过对比数据说明研究成果的实际效用。充实的实验验证数据无疑增加了论文的价值，也可给读者提供应用的范例。在这一部分应该有分析和结论，因为科学研究本身就是探讨的过程。目前，许多研究工作离不开计算机，用来模拟、仿真、或数据处理等。所以，验证系统是论文的重要组成部分。5、结论部分对硕士毕业论文起总结作用，通过阅读全文，论文的答题就内容就呈现出来了，最后进行收尾，所以，要将主要内容再提纲携领的复述一下，特别要注明论文的创新点。同时，要自己指出研究工作还需要改进的地方，或者今后继续努力的方向。实际上，专家在阅读完论文后，可能已经在脑子里对论文的内容、意义、价值、不足有了基本的印象，通过作者自己的叙述，说明作者对本研究工作还是比较透彻的，成绩和不足是心中有数的。另外，结尾部分和序言部分应该有一定的对应性，作者对结尾部分也应充分重视。

公司决策树毕业论文

方案A的预期货币价值EMV=*200+*80+*(-30)=

方案B的预期货币价值EMV=*100+*40+*0=54

方案C的预期货币价值EMV=*50+*40+*30=

每年预计收益方案A:

每年预计收益方案B:54-90/6=39

每年预计收益方案C:

所以应当选择方案C.

图在WORD中画的，不太好，不过能说问题。符号采用美国项目管理协会规范，你可以根据企业具体标准修改。

这也太难了吧

摘要：运用决策树的方法，通过对企业物流方式的阐述，说明了企业物流自营与外包问题的决策分析过程。首先论述了企业物流自营和外包各自的优势；给出了物流外包决策的三个基本准则；并对企业物流外包进行决策分析；研究了安治化工实施物流外包的实际案例，详细地分析了物流外包的动因及产生的经济效益。最后，进行了总结。关键词：物流自营；物流外包；决策分析目前国内外关于自营与外包的研究绝大多数采用定性分析的方法，这种方法比较直观，但缺乏系统性和精确性，特别是对于比较复杂的决策问题，其决策的科学性受到质疑，决策结果的使用性较差。本文采用决策树的方法对物流自营与外包进行详尽分析，这种方法能够更加准确揭示企业物流运营模式内在机理，给出的企业物流自营与外包问题的决策分析过程更加接近实际，并还以安治化工为例进行了实证研究。1.企业物流外包决策分析物流外包决策是一个复杂的过程，决定是否将企业的物流业务外包，哪些项目外包，采取多大程度的外包？都是企业进行物流外包决策所面临的问题。企业物流外包决策影响因素分析在供应链构建中，具体企业应根据企业的实际情况来确定是否将物流业务外包。笔者认为从分析每一项物流功能的战略性、企业针对此项物流功能的运作水平、运作能力这三个因素来分析是比较合理的。具体因素的意义如下：（1）系统战略性。即判断物流功能是否构成了企业的核心竞争力，对整个企业来说是否具有战略意义。（2）物流运作水平。主要指企业物流运作能力和管理控制能力，即是否具有成熟的物流经验，能否提高服务水平、降低物流成本。（3）企业物流能力。主要指企业开展物流业务的硬件能力，即是否具有设施、资金和人才能力。企业物流外包决策树依据以上三个决策准则，画出物流外包的决策树，如图1所示。其决策结果如表1所示。（1）当物流子功能具有战略重要性，对企业的重要程度大时，一般将采取物流自营；而当物流子功能不具有战略重要性，对企业的重要程度不大时，一般考虑外包，使用第三方物流。针对自身的弱点，寻找合适的合作伙伴，提升竞争力。（2）物流子功能不具有战略重要性，对企业构筑核心竞争力的作用不大，且企业缺乏开展此项物流业务的设施、资金、人力，也没有相关运作经验，运作水平比较低时，就应该选择此项物流功能完全外包，这将有助于企业培养自身的竞争优势，提高客户服务水平。（3）当物流子功能具有战略重要性，对企业构筑核心竞争力的作用很大，且企业具有开展此项物流业务的实施、资金、人力，而且具有成熟的物流运作经验，能够实现成本领先时，就应该自营物流。物流外包的实施策略分析随着外部环境和企业自身资源条件的发展变化，物流地位和物流能力等因素发生变化后，企业的物流策略也会发生相应的改变，但通常情况下将不会构成企业核心竞争力。对企业重要性低且企业本身缺乏物流合作的资金、设施和物流运作能力的物流功能，选择优先外包。随着控制物流外包风险的能力和管理控制第三方物流的水平提高后，逐步扩大外包的程度（如图2）；随着供应链管理的完善，第三方物流服务水平的进一步提高，实践中越来越多的企业使用单一的第三方物流公司提供全方位的系统化物流服务和物流解决方案，一方面便于双方的信息沟通和加强双方的合作关系，另一方面第三方物流服务绩效的评价、监控，能够更加有效地改进合作关系，提高服务水平，供应链管理下的企业物流战略将有新的发展。2.安治化工物流决策分析安治化工简介安治化工NCH CHEMICAL是1919年成立的全球性跨国企业，总部设于美国，于1981年进入中国，总部设在上海。到现在为止，销售服务已遍布全国各大城市。近几年迅速扩张，业务量以每年30%的速度增长，以至于原来的物流体系已经远远跟不上发展的需要，物流运作的瓶颈凸现出来。因此优化价值链、提升企业物流运作水平成为安治化工的战略性选择。安治化工物流外包决策过程原有物流系统运营模式存在的问题及其原因（1）物流活动自营比重大，分散了企业核心业务的精力。从生产厂转运至各办事处及办事处直接发往客户的货物都是由办事处自备车辆完成，因而车辆空返率极高。各办事处为了完成各自的收、发货等服务职能，皆配备有18～20名工作人员，在当地自建或租赁仓库。大量的自备运力和仓储增大了企业物流费用。（2）运输费用没有得到有效控制。由于管理缺乏力度，各办事处有独立的运输成本核算方法，一味的追求及时送货，因此不能做到批量送货，形成没有必要的迂回，造成不必要的浪费。而且由于部分员工乘送货之机办私事也影响了工作效率，增加了运输费用。（3）存在负利润物流。各办事处的销售量各不相同，大的业务量上千万，小的业务量只有几十万。而各办事处物流费用却相差无几，以至于有的办事处物流费用大于其销售收入，形成负利润物流。（4）顾客服务的满意度低。由于办事处过于分散，顾客订单满足率非常低，造成客户流失率升高。因为当同样的库存满足同样的市场需求的时候，库存越集中其满足度就越高。（5）为了提高客户满意度，整个系统库存过高。随着销售额的扩大，各地仓库的要货量也在上升，为了防止大面积缺货，并维持各个仓库的安全库存，从而保证客户满意度，各办事处向总部订货的数量更被放大，这就导致了牛鞭效应———分公司仓库的库存额大幅度增加，因此也就要求租用更大的仓库。（6）物流管理系统不完备。虽然上海总部有订单处理及库存管理系统，但各办事处的电脑、网络与软件基本上处于初级应用阶段，经常帐实不符。有时由于销售员在没有订单的前提下直接私自提货或由于库管人员疏于管理，导致与总部帐实不符情况频繁出现。上述物流活动问题的存在，分散了企业的总体精力，增加了物流费用，降低了生产利润率，严重阻碍了公司的发展。因此，该公司要重新进行物流系统规划，考虑是否将物流业务外包出去，并且如何进行外包。利用决策树进行物流外包决策分析根据前面给出的三个决策准则来判断安治化工究竟要采取哪种决策路径来解决上面出现的种种问题，分析具体情况如表2所示。从表2可以看出，物流子系统对企业发展具有战略重要性，且企业既不具有物流运作水平，又没有物流运作的硬件设施，那么企业就应该寻找强有力的合作伙伴，通过建立战略联盟的伙伴关系来共担风险，共享收益，即选择决策路径4。针对目前物流工作中存在的问题，2006年开始，公司决定将运输和部分仓储外包于宅急送。安治化工问题解决方案安治化工进行了以下几方面的改革，逐步解决以上一系列问题。（1）物流系统重构，建立直达配送体系；（2）实行商物分离，办事处只负责市场推广，取消各自的小仓库；（3）全国设4个区域配送中心，分别设在北京、上海、深圳、武汉；（4）产品从上海工厂经干线运输直接运至4个配送中心，各配送中心只负责本区域的产品配送；（5）与宅急送结成战略联盟伙伴关系，由其负责对安治化工产品的全部配送服务；（6）偏远地区存在的库存盲点以及受季节性波动导致的仓库资源不足，由宅急送负责存储、配送，并且从生产厂下线后直接运到宅急送的仓库。物流外包实效分析实践证明，宅急送在资源管理、生产保证、优化成本方面发挥了重要的作用。宅急送作为第三方物流合作伙伴，通过高水平服务，物流成本最低，生产不停产，满足了安治化工的发展需要，分析如下：（1）建立了高效的、以条形码为核心的物流系统。安治化工投入了近百万元购买了设备和软件系统，实现异地配送中心和总部物流系统形成点对点的对接。一方面是企业决策层可以随时了解总部物流中心和异地配送中心的实时库存，从而保证了库存的最小化，降低库存资金积压；另一方面最大程度缩短了信息交流时间，减少了信息交流成本。（2）物流效率提高。对所有客户基本可以实现自确认客户订单后2天内到货的承诺，部分客户甚至可以实现当天到货，这将大大有利于企业的销售，有利于缩短资金周转周期；同时，有效提高了对高频率、小批量的零散订单的履行能力。原来产品送货单是手工填写，容易出现错误，而且工作量大，现在采用电脑打单，统一了格式，容易跟踪、结算方便。（3）仓库成本下降。首先，由于配送中心减至4个，仓库租金可以大幅下降。再者，由于进出库作业都是在条形码管理基础上完成，所以工作量大幅下降，营运人员由原来全国超过400人，减至现在不足170人，随之产生的人事费用也有显著下降。仓库总成本一年可节约200万元。（4）运输成本总体下降。由于安治化工将配送统一外包给宅急送，一方面降低了企业的管理难度，有利于提高企业的核心竞争力，另一方面实现了规模经济，也降低了物流成本，仅运输成本每年可节约100万元左右。（5）加快建立现代企业制度和推行ISO9000族标准管理模式。打破旧的思维模式，输入强烈的市场经济观念，用现代企业管理制度代替旧的管理模式，规范每一个作业环节、程序和责任人。3.结束语企业物流的外包与自营并不是绝对对立的，两者可以优势互补，共同服务于企业的发展。另外，企业在选择物流方式的时候，应该从实际情况出发，结合自身企业的核心竞争力、现有物流状况和物流外包市场的成熟程度等内外部因素来确定物流外包的范围和程度。一定要视自身的具体情况而定，既不可盲目地仿效大企业投资于自身物流建设，也不可忽视自身物流管理经验的积累和物流人才的培养，以符合企业长远发展的要求。

分类决策树的毕业论文

[TOC]

分类：确定对象属于哪个预定义的目标类（目标类的总体是已知的）。分类问题中，类标号必须是离散属性，这也是区分分类和回归（regression，回归的目标属性是连续的）的关键特征。

分类，classification，通过学习训练样本得到一个目标函数f（target function），把属性集x映射到预先定义的类标号y。

分类模型（classification model）有两个目的：

分类技术特点：适合描述或预测二元或标称类型的数据集，对序数分类不太有效，因为分类技术不考虑隐含在目标类中的序号关系。（即分类器只负责区分元素们属于哪一类，对于某一类中的元素之间的序关系不做表达）

分类方法：决策树分类法、基于规则的分类法、神经网络、支持向量机和朴素贝叶斯分类法。殊途同归，都是通过学习算法（learning algorithm）从训练数据集提炼一种模型拟合输入数据的类标号和属性之间的联系。

泛化：在模型的评估中，泛化是一个重要的概念，它表达通过已知数据建立的模型在应用到未知数据上的时候的有效性。这个泛可以理解为广泛、扩大，从特定的已有的数据一般化到所有的未知的数据。

分类过程：$$训练集（training set)\rightarrow学习模型\rightarrow模型\rightarrow应用模型\rightarrow检验集(test set)$$

模型评估：通过正确和错误的记录数量评估，列一个混淆矩阵（confusion matrix）可清晰算得相应的新能度量（performance metric）。

分类模型误差：

模型拟合不足（model underfitting），训练和泛化误差都很大，原因是模型尚未学到数据的真实结构。

模型过分拟合（model overfitting），树的规模持续变大，训练误差持续降低，但泛化误差开始增大。

泛化误差估计

处理（避免）决策树归纳中的过分拟合

本章描述对某一个分类器的性能的评估方法。

本章描述两个或多个分类器之间的对比方法，针对不同分类方法在不同规模的数据集上的准确性比较。即得到不同分类方法在忽略数据量下的性能对比。

任务一：决策树-最佳属性划分度量-连续属性划分算法，实现二分划分点选择算法，考虑连续属性的多路划分的划分点选择算法【深入研究切入点：算法】。

任务二：决策树-决策树归纳算法

任务三：尝试树剪枝

目录一、决策树算法思想二、决策树学习本质三、总结一、决策树（decision tree）算法思想：决策树是一种基本的分类与回归方法。本文主要讨论分类决策树。决策树模型呈树形结构，在分类问题中，表示基于特征对实例进行分类的过程。它可以看做是if-then的条件集合，也可以认为是定义在特征空间与类空间上的条件概率分布。决策树由结点和有向边组成。结点有两种类型：内部结点和叶结点，内部结点表示一个特征或属性，叶结点表示一个类。（椭圆表示内部结点，方块表示叶结点）决策树与if-then规则的关系决策树可以看做是多个if-then规则的集合。将决策树转换成if-then规则的过程是：由决策树的根结点到叶结点的每一条路径构建一条规则；路径上的内部结点的特征对应着规则的条件，而叶结点的类对应着规则的结论。决策树的路径或其对应的if-then规则集合具有一个重要的性质：互斥且完备。这就是说，每一个实例都被一条路径或一条规则所覆盖，且只被一条路径或一条规则所覆盖。这里的覆盖是指实例的特征与路径上的特征一致或实例满足规则的条件。决策树与条件概率分布的关系决策树还表示给定特征条件下类的条件概率分布。这一条件概率分布定义在特征空间的一个划分上。将特征空间划分为互不相交的单元或区域，并在每个单元定义一个类的概率分布，就构成一个条件概率分布。决策树的一条路径对应于划分中的一个单元。决策树所表示的条件概率分布由各个单元给定条件下类的条件概率分布组成。决策树模型的优点决策树模型具有可读性，分类速度快。学习时，利用训练数据，根据损失函数最小化原则建立决策树模型；预测时，对新的数据，利用决策树模型进行分类。二、决策树学习本质：决策树学习是从训练数据集中归纳一组分类规则、与训练数据集不相矛盾的决策树可能有多个，也可能一个没有。我们需要训练一个与训练数据矛盾较小的决策树，同时具有很好的泛化能力。从另一个角度看决策树学习是训练数据集估计条件概率模型。基于特征空间划分的类的条件概率模型有无穷多个。我们选择的条件概率模型应该是不仅对训练数据有很好的拟合，而且对未知数据有很好的预测。决策树的学习使用损失函数表示这一目标，通常的损失函数是正则化的极大似然函数。决策树的学习策略是以损失函数为目标函数的最小化。当损失函数确定后，决策树学习问题变为损失函数意义下选择最优决策树的问题。这一过程通常是一个递归选择最优特征，并根据特征对训练数据进行分割，使得对各个子数据集有一个最好分类的过程。这一过程对应着特征选择、决策树的生成、决策树的剪枝。特征选择：在于选择对训练数据具有分类能力的特征，这样可以提高决策树的学习效率。决策树的生成：根据不同特征作为根结点，划分不同子结点构成不同的决策树。决策树的选择：哪种特征作为根结点的决策树信息增益值最大，作为最终的决策树（最佳分类特征）。信息熵：在信息论与概率统计中，熵是表示随机变量不确定性的度量。设X是一个取有限个值的离散随机变量，其概率分布为P(X= ) = ，i=1，2，3...n，则随机变量X的熵定义为 H(X) = — ，0 <= H(X) <= 1，熵越大，随机变量的不确定性就越大。条件熵（Y|X）：表示在已知随机变量X的条件下随机变量Y的不确定性。信息增益：表示得知特征X的信息而使得类Y的信息的不确定性减少的程度。信息增益 = 信息熵(父结点熵 ) — 条件熵（子结点加权熵）三、总结：优点 1、可解释性高，能处理非线性的数据，不需要做数据归一化，对数据分布没有偏好。 2、可用于特征工程，特征选择。 3、可转化为规则引擎。缺点 1、启发式生成，不是最优解。 2、容易过拟合。 3、微小的数据改变会改变整个数的形状。 4、对类别不平衡的数据不友好。

毕业论文

遥感决策树模型毕业论文