首页职称论文 生物信息研究中的统计推断论文

生物信息研究中的统计推断论文

会计信息系统的研究论文信息系统审计研究论文生物信息研究中的统计推断论文

鱿鱼女王 2023-12-12 08:32:43

共3条回答217浏览

shuijing217

1小时前发布
- 谁一个、、论文不才交么……生物信息在生物学研究中的作用。生物信息是指生物体中包含的全部信息，如基因组信息、蛋白质、核酸、糖类等生物大分子的结构等。生物信息对生物体的生存、繁殖都起着重要作用。生物信息包含的范围很广，除遗传物质、神经电冲动和激素之外，生物体发出的声音、气味、颜色以及生物的行为本身都含有信息，都对生物的个体和群体产生影响，和生物的生存与进化密不可分。生物信息的特点是消耗极少的能量和物质即可产生极大的生物效应。生物信息一般可分为遗传信息、神经和感觉信息及化学信息。虽然遗传信息和神经感觉信息的载体都属于化学物质，但通常所指的化学信息是除以上两类物质以外的化学物质所携带和传递的信息。高等生物的激素及昆虫外激素都属于这一类。遗传信息是指生物为复制与自己相同的东西、由亲代传递给子代、或各细胞每次分裂时由细胞传递给细胞的信息, 即碱基对的排列顺序(或指DNA分子的脱氧核苷酸的排列顺序）。遗传信息以密码形式存储在DNA分子上，通过DNA的复制传递给子代。在后代生长发育过程中，遗传信息自DNA转录给RNA，后翻译成特异的蛋白质，以执行各种生命功能。从历史上看，首先是由（1866）的研究形成了概念，即相应于生物各种性状的因素（现在称为基因）中包含着相应的信息（以后等人（1941）所开创了遗传生物化学的研究，描绘出这样一个轮廓：基因和决定生物结构与功能的蛋白质之间具有一对一的对应关系。关于基因的化学本质方面，根据等（1944）进行的转化实验，以及和（1952）用大肠杆菌噬菌体的DNA进行的性状表达实验，已阐明DNA是遗传信息的载体。附着DNA结构研究的进展，现在已经确立了这样的概念，即基因所具有的信息可将DNA的碱基排列进行符号化。信息在表达时，DNA的碱基排列首先被转录成RNA的碱基排列，然后再根据这种排列合成蛋白质。有的病毒的遗传信息的载体不是DNA，而是RNA。遗传信息不仅有相应于蛋白质的基因信息，也包括对信息解读所必需的信息、控制信息表达所必需的信息，以及生物为了复制与自己相同结构所必需的一切信息。神经和感觉信息靠电脉冲和神经递质携带和传递。神经系统接受内外环境中的信息，进行加工处理，调节和控制机体各部分功能。生物靠神经系统电脉冲和神经递质携带和传递。神经系统的功能是接收、传递内外环境中的信息，加以处理、分析,从而控制和调节机体各部功能,对环境作出适当的反应。因此，神经信息对于有机体的生存以及正常生活起着至关重要的作用。化学信息是除上述两类物质外由化学介质传递的信息。生物体的各种功能能够有条不紊地进行，对环境能及时做出反应，是由于生物体内存在着通过各种各样的化学信息分子进行传递的信息系统。生物信息在生物研究中有重要作用，然而，原始的生物信息资源挖掘出来后，生命科学工作者面临着严峻的挑战：数以亿计的ACGT序列中包涵着什么信息？基因组中的这些信息怎样控制有机体的发育？基因组本身又是怎样进化的？生物信息学产业的高级阶段体现于此，人类从此进入了以生物信息学为中心的后基因组时代。结合生物信息学的新药创新工程即是这一阶段的典型应用。因此，生物信息学便是生物信息在生物研究中重要应用。生物信息学是在生命科学的研究中，以计算机为工具对生物信息进行储存、检索和分析的科学。生物信息学研究对象是生物信息。其研究重点主要体现在基因组学和蛋白学两方面，具体说就是从核酸和蛋白质序列出发，分析序列中表达的结构功能的生物信息。具体而言，生物信息学作为一门新的学科领域，它是把基因组DNA序列信息分析作为源头，在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测，然后依据特定蛋白质的功能进行必要的药物设计。基因组信息学,蛋白质空间结构模拟以及药物设计构成了生物信息学的3个重要组成部分。从生物信息学研究的具体内容上看，生物信息学应包括这3个主要部分：(1)新算法和统计学方法研究；(2)各类数据的分析和解释；(3)研制有效利用和管理数据新工具。生物信息学作为基因组研究的有力武器，被广泛地用来加快新基因的寻找过程，以达到将“有用”新基因抢先注册专利的目的。在这场世界范围内的竞争中，中国科学家以及科研资金投向的决策部门如何结合我国科研水平的现状、优势领域等客观情况将有限的投资投入以求获得最大可能的科学研究以及商业回报，是一个无法回避的新课题。生物信息学的主要研究方向：基因组学 - 蛋白质组学 - 系统生物学 - 比较基因组学，随着包括人类基因组计划在内的生物基因组测序工程的里程碑式的进展，由此产生的包括生物体生老病死的生物数据以前所未有的速度递增，目前已达到每14个月翻一番的速度。同时随着互联网的普及，数以百计的生物学数据库如雨后春笋般迅速出现和成长。然而这些仅仅是原始生物信息的获取，是生物信息学产业发展的初组阶段，这一阶段的生物信息学企业大都以出售生物数据库为生。以人类基因组测序而闻名的塞莱拉公司即是这一阶段的成功代表。综上所述,对生物信息的研究对生物学的蓬勃发展具有重要作用。
136 评论
江南Andy

11小时前发布
- 1,序列比对(Sequence Alignment) 序列比对的基本问题是比较两个或两个以上符号序列的相似性或不相似性.从生物学的初衷来看,这一问题包含了以下几个意义:从相互重叠的序列片断中重构DNA的完整序列.在各种试验条件下从探测数据(probe data)中决定物理和基因图存贮,遍历和比较数据库中的DNA序列比较两个或多个序列的相似性在数据库中搜索相关序列和子序列寻找核苷酸(nucleotides)的连续产生模式找出蛋白质和DNA序列中的信息成分序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除(前两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等.两个序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海量基因序列(如人的DNA序列高达109bp),这一方法就不太适用,甚至采用算法复杂性为线性的也难以奏效.因此,启发式方法的引入势在必然,著名的BALST和FASTA算法及相应的改进方法均是从此前提出发的. 2, 蛋白质结构比对和预测基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性.蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般相似.蛋白质是由氨基酸组成的长链,长度从50到1000~3000AA(Amino Acids),蛋白质具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等.氨基酸的序列内在的决定了蛋白质的3维结构.一般认为,蛋白质有四级不同的结构.研究蛋白质结构和预测的理由是:医药上可以理解生物的功能,寻找dockingdrugs的目标,农业上获得更好的农作物的基因工程,工业上有利用酶的合成.直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构在进化中更稳定的保留,同时也包含了较AA序列更多的信息.蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应(不一定全真),物理上可用最小能量来解释.从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构.同源建模(homology modeling)和指认(Threading)方法属于这一范畴.同源建模用于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较进化族中不同的蛋白质结构.然而,蛋白结构预测研究现状还远远不能满足实际需要. 3, 基因识别,非编码区分析研究. 基因识别的基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置.非编码区由内含子组成(introns),一般在形成蛋白质后被丢弃,但从实验中,如果去除非编码区,又不能完成基因的复制.显然,DNA序列作为一种遗传语言,既包含在编码区,又隐含在非编码序列中.分析非编码区DNA序列目前没有一般性的指导方法.在人类基因组中,并非所有的序列均被编码,即是某种蛋白质的模板,已完成编码部分仅占人类基因总序列的3~5%,显然,手工的搜索如此大的基因序列是难以想象的.侦测密码区的方法包括测量密码区密码子(codon)的频率,一阶和二阶马尔可夫链,ORF(Open Reading Frames),启动子(promoter)识别,HMM(Hidden Markov Model)和GENSCAN,Splice Alignment等等. 4, 分子进化和比较基因组学分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进化树.既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化,其前提假定是相似种族在基因上具有相似性.通过比较可以在基因组层面上发现哪些是不同种族中共同的,哪些是不同的.早期研究方法常采用外在的因素,如大小,肤色,肢体的数量等等作为进化的依据.近年来较多模式生物基因组测序任务的完成,人们可从整个基因组的角度来研究分子进化.在匹配不同种族的基因时,一般须处理三种情况:Orthologous: 不同种族,相同功能的基因；Paralogous: 相同种族,不同功能的基因；Xenologs: 有机体间采用其他方式传递的基因,如被病毒注入的基因.这一领域常采用的方法是构造进化树,通过基于特征(即DNA序列或蛋白质中的氨基酸的碱基的特定位置)和基于距离(对齐的分数)的方法和一些传统的聚类方法(如UPGMA)来实现. 5, 序列重叠群(Contigs)装配根据现行的测序技术,每次反应只能测出500 或更多一些碱基对的序列,如人类基因的测量就采用了短枪(shortgun)方法,这就要求把大量的较短的序列全体构成了重叠群(Contigs).逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配.从算法层次来看,序列的重叠群是一个NP-完全问题. 6, 遗传密码的起源通常对遗传密码的研究认为,密码子与氨基酸之间的关系是生物进化历史上一次偶然的事件而造成的,并被固定在现代生物的共同祖先里,一直延续至今.不同于这种"冻结"理论,有人曾分别提出过选择优化,化学和历史等三种学说来解释遗传密码.随着各种生物基因组测序任务的完成,为研究遗传密码的起源和检验上述理论的真伪提供了新的素材. 7, 基于结构的药物设计人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构,功能,相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗.基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要的研究领域.为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础上,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物.这一领域目的是发现新的基因药物,有着巨大的经济效益. 8.生物系统的建模和仿真随着大规模实验技术的发展和数据累积，从全局和系统水平研究和分析生物学系统，揭示其发展规律已经成为后基因组时代的另外一个研究热点-系统生物学。目前来看，其研究内容包括生物系统的模拟（Curr Opin Rheumatol，2007，463-70），系统稳定性分析（Nonlinear Dynamics Psychol Life Sci，2007，413-33），系统鲁棒性分析（Ernst Schering Res Found Workshop， 2007，69-88）等方面。以SBML（Bioinformatics，2007，1297-8）为代表的建模语言在迅速发展之中，以布尔网络（PLoS Comput Biol，2007，e163）、微分方程（Mol Biol Cell，2004，3841-62）、随机过程（Neural Comput，2007，3262-92）、离散动态事件系统等（Bioinformatics，2007，336-43）方法在系统分析中已经得到应用。很多模型的建立借鉴了电路和其它物理系统建模的方法，很多研究试图从信息流、熵和能量流等宏观分析思想来解决系统的复杂性问题（Anal Quant Cytol Histol，2007，296-308）。当然，建立生物系统的理论模型还需要很长时间的努力，现在实验观测数据虽然在海量增加，但是生物系统的模型辨识所需要的数据远远超过了目前数据的产出能力。例如，对于时间序列的芯片数据，采样点的数量还不足以使用传统的时间序列建模方法，巨大的实验代价是目前系统建模主要困难。系统描述和建模方法也需要开创性的发展。 9.生物信息学技术方法的研究生物信息学不仅仅是生物学知识的简单整理和、数学、物理学、信息科学等学科知识的简单应用。海量数据和复杂的背景导致机器学习、统计数据分析和系统描述等方法需要在生物信息学所面临的背景之中迅速发展。巨大的计算量、复杂的噪声模式、海量的时变数据给传统的统计分析带来了巨大的困难，需要像非参数统计（BMC Bioinformatics，2007，339）、聚类分析（Qual Life Res，2007，1655-63）等更加灵活的数据分析技术。高维数据的分析需要偏最小二乘（partial least squares，PLS）等特征空间的压缩技术。在计算机算法的开发中，需要充分考虑算法的时间和空间复杂度，使用并行计算、网格计算等技术来拓展算法的可实现性。 10, 生物图像没有血缘关系的人，为什么长得那么像呢？外貌是像点组成的，像点愈重合两人长得愈像，那两个没有血缘关系的人像点为什么重合？有什么生物学基础？基因是不是相似？我不知道，希望专家解答。 11, 其他如基因表达谱分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域;在学科方面,由生物信息学衍生的学科包括结构基因组学,功能基因组学,比较基因组学,蛋白质学,药物基因组学,中药基因组学,肿瘤基因组学,分子流行病学和环境基因组学,成为系统生物学的重要研究方法.从现在的发展不难看出,基因工程已经进入了后基因组时代.我们也有应对与生物信息学密切相关的如机器学习,和数学中可能存在的误导有一个清楚的认识.
153 评论
我是小鹿呀

11小时前发布
- 统计分析是运用统计方法与分析对象有关的知识，从定量与定性的结合上进行的研究活动。下文是我为大家整理的关于统计分析论文的范文，欢迎大家阅读参考!
  
  浅谈统计分析与决策
  
  [摘要] 统计分析与决策二者有联系又有区别。统计要参与决策，必须搞好统计分析。搞好统计分析，需要解决选题、分析、撰写报告三个问题。
  
  [关键词] 统计分析分析方法决策
  
  统计工作的全过程分为四个阶段，即统计设计，统计调查，统计整理，统计分析。其中，统计分析是统计工作的最后一个阶段，是出统计成果的阶段。现在倡导统计要参与决策，这是不是说统计工作还要增加一个决策阶段呢?如果不是，那么，统计分析与决策是什么关系呢?
  
  狭义的说，统计分析与决策是有区别的。统计分析是以统计数字为基础，以统计方法为手段，对社会经济情况进行科学的分析和综合研究，以认识其本质和规律的过程。而决策则是为了达到某一预定目标，运用逻辑方法和统计方法，对两种或两种以上可能采取的方案进行比较、分析、研究，以做出合理的、科学的抉择的行为过程。假若把统计分析与决策比作医生看病，统计分析就是对病情的诊断，决策就是开处方，“诊断”和“处方”是有区别的。
  
  广义的讲，统计分析与决策是密不可分的。一方面，统计分析贯穿于决策过程之中。一个决策过程大体上可分为下列三个大步骤：第一，诊断问题所在，确定决策目标;第二，探索和拟定各种可能的备选方案;第三，从各种备选方案中选出最合适的方案。从这三大步骤看，尽管要用到多种方法和手段，但哪一步也离不开统计分析，第一步就是通过统计分析，诊断问题所在，并在分析的基础上确定决策目标;第二步拟定备选方案，要经过“轮廊设想”和“细部设计”这个阶段对轮廊设想的方案要做初步筛选，对每一方案要充实具体内容，“筛选”和“充实”都要经过统计分析;第三步选择最佳方案，首先要对各个备选方案进行评价、论证，这又需要统计分析。因此可以说，没有统计分析，也就没有科学决策。另一方面，从某种意义上讲，决策是统计分析的结果。一般来说，统计分析报告是提出问题、分析问题、指出解决问题的办法，其实，决策方案也就是解决问题实现决策目标的办法，只不过比“今后意见”“几条措施 ”之类的办法更全面、更详细、更科学罢了。医生诊断是为了正确处方，治病救人，不能只诊断不处方。统计分析是为了发现问题，解决问题，推动社会经济的顺利发展;也不能只提出问题，而不寻找解决问题的办法。从这个意义上讲，统计分析也就包括预测和决策。我们不能为统计而统计，也不能为分析而分析。统计应该参与决策，为了决策科学化，必须搞好统计分析。
  
  搞好统计分析，需要解决选题、分析、撰写报告三个问题。
  
  一、统计分析选题
  
  所谓选题，就是在复杂的社会经济现象中,确定统计分析的内容和范围。进行统计分析,选题很重要。成功的选题是成功的分析的前提。
  
  怎样选好题呢?选好题标准有两条:―是分析对象有意义，二是适合决策层和群众需要。关键是抓住党和国家的方针政策和企业的经济效益。
  
  统计分析课题是很广泛的。工业统计分析课题如：计划执行情况分析、工业净产值统计分析、工业产品销售统计分析、工业原材料供应和消耗统计分析、工业能源消耗统计分析、工业生产设备统计分析、工业劳动与工资统计分析、成本利润统计分析、综合经济效益统计分析等。商品流通企业统计分析课题如：市场供求状况分析、市场占有率分析、主要商品经济寿命周期分析、市场商品价格分析、计划执行情况分析、购销合同执行情况分析、商品购进质量分析、商品销售动态分析、商品销售构成分析、商品库存分析、企业经济效益分析等。对于以上内容，可根据不同的时间、地点、条件，按两条选题标准适当选择。
  
  统计分析有专题分析与综合分析之分。在一定的总体范围内，研究总体的各个方面及其相互关系，或研究总体的主要方面的统计分析，属于综合分析;只研究其中某一方面，或某一部分的统计分析，属于专题分析。两者各有不同的特点，都是必要的，但专题分析宜多，综合分析宜少。
  
  二、统计分析方法
  
  统计分析的关键是分析，怎样进行统计分析呢?统计分析有两个特点:一是以统计数字为基础,二是以统计方法为手段。因此,统计分析在选题之后,就要根据分析的需要,搜集整理有关数字资料及具体情况,在充分占有材料的基础上,灵活运用统计方法进行分析。
  
  统计分析方法很多。统计学原理中除了有关统计调查、统计整理的内容外,综合指标、统计指数、时间数列、抽样推断等内容全部是统计分析方法。从方法角度上讲，统计分析就是统计学原理的运用。
  
  统计方法与人们的认识过程是相适应的。人们的认识分感性认识和理性认识两个阶段。感性认识阶段所认识的是事物的现象，可采用统计调查和统计整理。理性认识阶段所认识的是事物的本质和规律，这个阶段要经过形成概念、进行判断和推理等思维活动。与此相适应，要分别采用不同的统计分析方法。
  
  形成概念一般用描述性的综合指标法，即总量指标、相对指标和平均指标，以说明现象的规模大小、水平高低、速度快慢、内部结构以及比例关系等。判断推理就是要判断事物的性质，分析事物变化的原因，找出事物发展的规律。这一般要用分组分析法、动态分析法、因素分析法、相关回归分析法、平衡分析法等。
  
  对统计学原理中的各种统计分析方法要熟练地掌握，灵活地运用。怎样灵活运用呢?这里有个技巧问题。技巧就是定性分析与定量分析巧妙结合。
  
  所谓定性分析是指对事物的性质和影响事物发展变化的因素进行分析。定量分析就是分析事物的规模、水平、速度、结构、比例，以及各个因素对事物总体变化的影响方向和影响程度。定性分析与定量分析巧妙结合有两层含义，一是二者不可偏废，二是二者密不可分，
  
  没有定性分析,定量分析就没有方向。没有定量分析,定性分析就不准确。结合的目的是在质与量的辩证统一中探寻事物的内在联系。
  
  从根本上讲，统计分析就是完成从感性认识到理性认识，从现象到本质的飞跃。完成了这―飞跃，才是高质量的统计分析。有些统计分析质量不高，往往就是没有完成这一飞跃，仍然停留在表面现象上。
  
  三、统计分析报告的撰写
  
  统计分析报告是统计的最终产品。如果说统计数字的准确性是统计的生命，那么，统计分析报告的质量则关系到统计作用的发挥。对高质量的统计分析报告的要求，可以概括为五个字，就是“准、快、新、深、活”。
  
  准:就是实事求是地反映客观实际。做到数字准确，情况准确，论点准确。
  
  快:就是在决策层决策之前，不失时机地及时提供分析报告。
  
  新:就是不断创新。要求不断开拓新领域，钻研新课题，反映新情况和新问题。
  
  深:就是要在充分占有材料的基础上，提高分析的深度，使认识不只停留在反映现象上，而要揭示事物的本质和规律，并且用观点统帅材料，用材料说明观点，做到材料和观点的统一。
  
  活:就是文字生动活泼，形式灵活多样。资料要多样化和生动具体，要有群众语言，要通俗易懂，文字要精精炼。
  
  统计分析报告是在统计分析的基础上撰写出来的。没有好的分析，不可能写出好的报告。经过分析阶段，弄清了事实，判明了性质，探索出规律，得出了结论，在此基础上就可以撰写统计分析报告。但分析得好，并不等于报告写得好，这里还有个撰写的技巧问题，那就是准确地表述事实，透彻地阐明本质，深刻地揭示规律，恰当地提出建议。
  
  1.准确地表述事实
  
  每一篇统计分析报告，都需要表述所分析的现象，即说明“是什么”。准确地表述事实，才能给读者一个明确的概念。为此，须注意如下几点:(1)数字要真实;(2)运用数字要适当，不要堆砌数字，搞数字文字化;(3)语言要素准确。
  
  2.透彻地阐明本质
  
  现象只说明事物的各个片面，本质才说明事物的整体。撰写统计分析报告，必须深刻地揭示事物的本质，它是统计认识事物的正确程度和深度的反映。如果不能深刻地阐明事物的本质，那只能是现象罗列，没有多大价值。
  
  阐明事物的本质，也就是阐明事物的基本性质。事物的性质是由事物内部矛盾的主要方面决定的。例如，某企业利润增加，是靠涨价，还是靠降低成本?经过分析，认识到利润增加主要是靠降低成本，这是矛盾的主要方面，这就反映出事物的性质。因此，在报告中就应阐明降低成本在提高经济效益中的重要作用。再如某企业，本质问题是钢材浪费严重，在报告中就应揭示浪费的若干方面和严重程度。
  
  3.深刻地揭示规律
  
  规律是事物内部固有的、本质的、必然联系。成本高低与产量多少有联系，经过推理，这种联系是事物内部固有的、本质的必然联系，反映了事物发展变化的规律性，而且存在一定的回归关系。而回归方程反映这种关系，所以在统计分析报告中，要利用回归方程揭示这种必然联系及其回归关系。
  
  4.恰当地提出建议
  
  认识世界的目的是为了改造世界。经过统计分析,透过现象认识到事物的本质和规律,还必须提出解决问题的建议,如“今后意见”、“几点建议”、“决策方案”等等。怎样才算恰当地建议呢?恰当的建议要符合三个条件:(1)符合分析目的;(2)合乎客观规律;(3)切实可行。
  
  以上四点,一般可以作为分析报告的结构和顺序,但不能千篇一律。
  
  统计分析报告是统计分析结果的反映。既要注意提高写作水平，更要努力锻炼分析问题和解决问题的能力。
  
  试谈统计分析方法应用
  
  【摘要】统计分析方法应用于各个领域，解决了很多工业、农业、经济、医学等领域的实际问题，本文分析多元统计分析方法的主要应用和构建多元统计方法检验体系的必要性，针对性的提出了需要引起注意的共性问题，具有很强的现实意义。
  
  【关键词】统计分析方法;应用;检验体系;共性问题;现实意义前言
  
  随着信息技术的普及和广泛应用，它推动了社会、经济和科学技术的发展，多元统计分析方法的难题得到了攻破，各个领域广泛采用，推动了各行各业经济的快速发展。
  
  二、多元统计分析方法的主要应用
  
  统计方法是科学研究的一种重要工具，其应用颇为广泛。在工业，农业，经济，生物和医学等领域的实际问题中，常常需要处理多个变量的观测数据，因此对多个变量进行综合处理的多元统计分析方法显得尤为重要。随着电子计算机技术的普及，以及社会，经济和科学技术的发展，过去被认为具有数学难度的多元统计分析方法，已越来越广泛地应用于实际。
  
  聚类分析
  
  它是研究分类问题的一种多元统计方法，聚类分析的基本思想是首先将每个样本当作一类，然后根据样本之间的相似程度并类计算新类与其它类之间距离，再选择近似者并类每合并一次减少一类，继续这一过程直到所有样本都合并成为一类为止。所以聚类分析依赖于对观测间的接近程度或相似程度的理解，定义不同的距离量度和相似性量度就可以产生不同的聚类结果。企业制定市场营销战略时要弄清在同一市场中哪些企业是直接竞争者，哪些是间接竞争者是非常关键的一个环节。要解决这个问题，企业首先可以通过市场调查，获取自己和所有主要竟争者，从而寻找企业在市场中的机会。
  
  判别分析
  
  判别分析是已知研究对象分成若干类型，并取得各种类型的一批已知样品的观测数据、在此基础上根据某些准则建立判别式，然后对未知类型的样品进行判别分析，企业在市场预测中往往根据以往所调查的种种指标，用判别分析方法判断下季度产品是畅销平销或滞销。一般情况下判别分析经常与聚类分析联合起来使用。
  
  主成分分析
  
  主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标，来代替原来指标，同时根据实际需要从中可取几个较少的综台指标，尽可能多反映原来指标的信息，在市场研究中常常利用主成分析方法分析顾客的偏好和当前市场的产品与顾客之间的差别，从而提供给生产企业新产品开发方向的信息。
  
  因子分析
  
  因子分析是主成分分析的推广和应用。它是将错综复杂的随机变量综合为数量较少的随机变量去描述，多个变量之间的相关关系以再现原始指标与因子之间的相互关系。也可以认为因子分析是将指标按原始数据的内在结构分类。例如:对Y个调查区的商业网点数、人口数、金融机构服务数、收入情况等N个指标进行因子分析，如果按照一般的分析方法，我们就需要处理N个指标，并给它们以不同的权重。这样不仅工作量变大而且由干指标之间存在比较高的相关性，会给分析结果带来偏差另外给具有较高相关性的众多指标，从而计算出各个调查区平均综合实力得分以便决定在某个调查区拟建何种类型的销售点。
  
  三、构建多元统计分析方法检验体系的必要性
  
  (一)构建多元统计分析方法检验体系，提高多元统计分析应用质量
  
  多元统计分析方法已经越来越为人们广泛应用，但应用中盲目套用分析方法的情况很多，只关心模型方法的应用。许多教科书也只侧重介绍多元统计分析方法的思想、原理和分析步骤，对多元统计分析方法应用结果的统计检验叙述不多。这就直接影响了多元统计分析方法的应用效果和可信性。因此，本文拟对多元统计分析方法的统计检验问题进行探讨。构建多元统计分析方法检验体系的目的在于进一步丰富和完善多元统计分析方法的内容体系;实践上，使多元统计分析方法的应用更加合理、规范。推动多元统计分析方法应用质量的提高，推动多元统计分析方法获得更广泛的应用。
  
  (二)多元统计分析统计检验体系的基础理论
  
  多元正态分布总体的样本分布，即维希特分布，霍特林分布，威尔克斯分布,多元正态总体均值向量假设检验，包括一个正态总体均值向量假设检验，两个正态总体均值向量假设检验，多个正态总体均值向量假设检验;多元正态总体协方差阵假设检验，包括一个正态总体协方差阵假设检验，多个协差阵相等假设检验。
  
  (三)关于统计检验体系
  
  将上述统计检验体系有机结合在一起，就构成了多元统计分析方法检验体系的基本框架。多元统计分析方法检验体系的构建,用多元统计分析方法，充分发挥多元统计分析方法的应用价值，提高应用质量，我们建议，在应用时，应该按照上述框架进行相应的统计检验。当然。上述统计检验体系还是一个初步的框架，随着多元统计分析方法理论的逐步完善，上述检验体系也需要不断完善，也需要更多的同行关注此类问题并不断加以研究。另一方面，在实际应用中，即便是某种方法根据上述内容都进行了统计检验，由于各种方法自身存在的缺陷或局限性，也还会存在许多应用中考虑不周之处。应该引起注意。但是，因子分析结果还是具有较大主观性。特别是对公共主因子在专业方面实际意义的解释上，仍然保留着一种艺术气息，并没有统一做法，因此很多情况下也是不能令人满意的。总之，我们在应用时，对因子分析的适用性、公因子的估计方法、公因子选取的数目。公因子的实际意义的解释等一系列问题都要引起足够注意。检验体系有如下几个分类：
  
  a.主成分分析统计检验体系
  
  b.因子分析统计检验体裂引
  
  c.系统聚类分析统计检验体系
  
  d.判别分析统计检验体裂
  
  e.对应分析统计检验体系
  
  f.典型相关分析统计检验体系
  
  四、多元统计分析方法应用中需要注意的几个共性问题
  
  1.关于原始数据变量的总体分布问题。
  
  对原始变量的总体分布各种方法各有不同的要求。有的方法对原始数据变量总体分布没有特殊的要求，如主成分分析、聚类分析、对应分析。有的方法在不同情况下，对原始变量分布有不同的要求，如因子分析中，公共因子的估计方法不同，对原始变量分布要求不同，采用极大似然估计方法估计主因子时，是假定原始变量是服从多元正态分布的，因此，应用时要引起重视，如典型相关分析要求原始变量服从正态分布，但在严格意义上，如果变量的分布形式比如高度偏态不会降低其他变量的相关关系，典型相关分析是可以包含这种非正态变量的。
  
  样本容量问题。
  
  进行多元统计分析时，样本容量n达到多少为宜，目前尚没有统一的结论。有的认为样本容量应是变量个数的10～20倍，有的认为样本容量要在100以上比较合适，有的认为进行巴特莱特检验时的样本容量应该大于150方可，也有的认为不必苛求太多的样本容量，如在进行主成分分析和因子分析时当原始变量之间的相关性很小时，即使再扩大样本容量，也难以得到满意效果。
  
  原始变量之间的相关性以及非线性关系问题。
  
  多元统计分析方法中，有的是的要求原始变量中要具有相关性。有的则不要求原始变量具有相关性。如聚类分析中，进行Q型系统聚类分析时对原始数据变量之间的相关性也是有要求的，如选择欧式距离、明氏距离、兰氏距离时，则要求原始变量之间是不相关的。只有对原始数据的相关性进行了处理后，才可以选择使用上述距离。若原始变量存在相关性，则选择马氏距离比较合适。另外原始变量之间的非线性关系也是需要注意的问题。如主成分分析、因子分析以及典型相关分析当基于相关矩阵来进行计算时，这里的相关矩阵实际上是Pearson的积差相关。但是，如果变量之间的关系不是线性的，而是非性相关关系，于是，所进行的分析以及结论也就失去应有的意义了。
  
  数据处理问题。
  
  多元统计分析中涉及多个变量，不同变量往往具有不同的量纲及不同的数量级别。在分析时，具有不同量纲的变量进行线性组合是没有意义的，不同的数量级别的变量之间进行分析时。会导致“以大吃小”，即数量级的变量的影响会被忽略，从而影响了分析结果的合理性。因此。为了消除量纲和数量级别的影响，进行多元统计分析时，必须对原始数据进行处里，最常用的是先作标准化变换处理，然后再作相应的分析。
  
  五、结束语
  
  在统计分析方法的应用中，会涉及到多个变量，因此，必须根据原来有的数量进行处理，然后才能得出相应的分析结论。本文结合多元统计分析方法的理论基础，对相关检验体系和分析体系进行了分析，具有现实的理论指导意义。
  
  【参考文献】
  
  [1]于秀林.多元统计分析[M].北京,中国统计出版社，1999：223—224.
  
  [2]高惠璇.应用多元统计分析[M].北京,北京大学出版社，2005：343—366.
  
  [3]郭志刚.社会科学分析方法一SPSS软件应用[M].,中国人民大学出版社，1999.
  
  [4]傅德印.主成分分析中的统计检验问题 [J].统计教育，2007(9)：4—7.
167 评论

相关问题

热门问题