流行病学与统计 医学统计学:根据统计学的原理和方法,研究医学数据收集、表达和分析的一门应用各学科。 医学统计的主要内容: 研究对象:医学数据 统计设计:调查设计和实验设计 统计描述:率、均数 统计推断:对统计指标的差别和关联性进行分析和推断 医学统计资料的类型 统计工作的基本步骤包括: 1. 研究设计 2. 收集资料:来源:经常性资料【医疗卫生工作记录(病历、医学检查记录、出生死亡报表等)健康检查记录】;一时性资料【专题调查或实验研究】。要求:完整、正确和及时;足够数量;代表性和可比性 3. 整理资料:原始数据的检查与核对:常规检查;取值范围检错;逻辑检错 数据的分组设计和归纳汇总。4. 分析资料:统计描述;统计推断(区间估计、假设检验) 统计工作的基本步骤包括: A .实验和调查 B.统计设计 C.收集资料 D.整理资料 E.分析资料 统计工作中,分析资料指的是: A .统计设计 B.收集资料 C.整理资料 D.统计描述 E.统计推断 总体:根据研究目的而确定的同质观察单位的全体。有限总体和无限总体。 样本:是从总体中随机抽取有代表性的部分观察单位变量值的集合。 参数:指总体指标。如总体均数μ,总体标准差σ,总体率π。 统计量:指样本指标。如样本均数 ,样本标准差S ,样本率p 。 误差:指实际值与真实值之差。分为随机误差(随机测量误差和抽样误差)、非随机误差(主要是系统误差) 概率是对总体而言。是某随机事件发生的可能性大小的数值,常用符号P 表示。取值范围0~1。 在统计学中,误差的种类有 A .标准误差 B.计算误差 C .系统误差√ D .随机测量误差√ E .抽样误差√ 统计学上的误差主要有 A. 系统误差 B.标准误差 C.随机测量误差 D.抽样误差 E.计算错误误差 算术均数: 简称均数,用于描述对称分布或近似正态分布的资料。 描述正态分布资料集中趋势的指标是 A. 百分位数 B.中位数 C.算术均数 D.几何均数 描述正态分布资料集中趋势的指标是 A. 中位数 B.几何均数 C.算术平均数 D.标准差 有9名健康成人的空腹胆固醇测定值(mmol/L)为,,,,,,,,。求算术均数。 有7份血清的抗体效价分别为1:2, 1:4, 1:8, 1:16, 1:32, 1:64, 1:128,求平均抗体效价。 n 5. 61+3. 96+3. 67+4. 99+4. 24+5. 06+5. 20+4. 79+5. 93= 9 43. 45= 9 =4. 83(m m ol /L ) X = G =lg -1( 血清抗体平均效价为1:16 注意:变量值中不能有0;不能同时出现负数和正数;若全为负数,计算时先把符号去掉计算 中位数(median, M):可用于任何分布的计量资料 有7名正常人的血压(舒张压)测定值(mmHg )为:72,75,76,77,81,82,86,87求中位数。 M =(77+81)/2=79 一组从小到大排列的定量变量,位次居中的指标是 A .算术均数 B.几何均数 C.中位数 D.百分位数 描述离散趋势的指标是 A. 标准差 B.中位数 C. 几何均数 D.算术均数 n lg 2+lg 4+lg 8+lg 16+lg 32+lg 64+lg 128 =lg -1() 7 =lg -1(1. 204) =16 lg X ) 方差(variance )与标准差(standard deviation):表示数据的平均离散情况,常用于描述服从正态分布的资料的离散程度。 某地20岁男子160人 某地不同年龄女童身高(cm )的变异程度 统计表的基本结构与要求:标题、标目、线条、数字4部分组成。表中数字区不插入文字,不列备注项。必须说明者表“*”号等,在表下方说明。 统计表的基本结构为 A .标题、横标目、纵标目、线条 B.标题、横标目、纵标目、数字 C .标题、横标目、纵标目、备注 D.标题、标目、线条、数字 统计表的基本构成有 A .标题 B.横标目 C.纵标目 D .线条 E.数字 统计表内不列的项是 A. 标目 B. 线条 C.数字 D.备注 制图的基本要求 (1)根据资料的性质和分析目的,选择合适的图形。 (2)基本结构:标题、标目、刻度、图例4部分组成。 标题:一般放在图的下方,左侧加图号 标目:分为横标目和纵标目,分别表示横轴和纵轴数字刻度的意义 刻度: 图例:说明统计图中各种图形锁代表的事物。放在右上角或下方中间 比较两家医院15年床位数的增加速度,可选用的统计图是 A .构成图 B .直条图 C .线图 D .直方图 某医院拟表示一年中各月病床使用率的变化趋势,应选用的统计图是 A .普通线图 B .直条图 C .散点图 D .直方图 比较某地2001年和2011年结核、心脏病和肿瘤的死亡率,可选择的统计图是 A. 单式条图 B.复式条图 C.普通线图 D.半对数线图 分析某医院1998年住院病人5种疾病构成比可选用的统计图是 A. 单式直条图 B. 复式直条图 C.圆图 D. 线图 分析某医院1998年和2008年住院病人5种疾病构成比可选用的统计图是 A .单式直条图 B.复式直条图 C.百分比条图 D.统计地图 观察某地十年肺结核患病率的变化趋势,可选择的统计图是 A. 条图 B.圆图 C.线图 D.直方图 比较某地2001年和2011年结核、心脏病和肿瘤的死亡率,可选择的统计图是 A. 单式条图 B.复式条图 C.普通线图 D.半对数线图 假设检验的基本步骤 1. 建立假设检验,确定检验水准 (1)根据统计推断目的提出对总体特征的假设 无效假设,或称为零假设,记作H0,即假设差异是由于抽样误差所致,总体参数相同 备择假设,记作H1,即差别不是由于抽样误差所致,总体参数不同 (2)确定检验水准亦称显著性水准,用α表示 2. 选定检验方法,计算检验统计量(卡方、t 值、F 值) 3. 确定P 值,做出统计推断结论 注意:假设检验是针对总体而言的 假设检验的注意事项 1.. 检验方法的正确选择 定量资料 两个独立样本均数比较:t 检验 多个独立样本均数比较:方差分析 配对设计:配对t 检验 随机区组资料:随机区组设计方差分析 2. 结果的解释:差别有统计学意义与有无实际意义的关系 I 型错误(第一类错误):指拒绝了实际上是成立的H0。用α表示。 II 型错误(第二类错误):指不拒绝实际上是不成立的H0。用β表示。 1. 流行病学研究的对象是( ) A.病人 B.健康人 C.人群 D.亚健康人 E.亚临床的人 下列哪一项是分析流行病学方法( ) A.横断面研究 B.生态学研究 C.疾病监测 D.病例对照研究 E.社区干预试验 有学者通过调查肺癌病人和非肺癌的人过去的吸烟情况,来研究吸烟和肺癌的关系。这种方法称为: A.现况调查 B.描述性研究 C.筛检试验 D.病例对照研究 E.队列研究 有学者对某人群进行了高血压的调查,获得了该人群高血压的患病率,并对不同年龄组的高血压患病情况进行了分析。这种调查研究属于: A.探讨疾病的病因 B.探讨发病机制 C.描述疾病的分布 D.研究疾病自然史 E.疾病筛检 计算患病率的分子是( ) A .观察期间某病的新发病例数 B.观察期间某病的新旧病例数 C .观察期间之后某病的患病人数 D.观察期间某病的暴露人口数 E .观察期间所有人口数 某地区在1个月内进行了糖尿病的普查,可计算当地糖尿病的( ) A .发病率 B.死亡率 C.患病率 D.二代发病率 E.罹患率 下面哪一个公式用于计算发病率(E ) A .(受检者中阳性人数/受检人数)×100% B.(受检者中阳性人数/同期暴露人数)×100% C .(受检者中阳性人数/受检者人数)×100% D.(受检者中阴性人数/受检者人数)×100% E.(某一时期内新病例数/同期暴露人数)×100% 一个地区通过首次高血压普查,可计算当地的( ) A .高血压患病率 B.高血压罹患率 C.高血压发病率 D.高血压病死率 E.家庭续发率 某地区1960年度疫情资料统计,狂犬病患者100人全部死亡,此资料可计算 A .粗死亡率 B.死亡专率C .标化死亡率 D.病死率 E.此资料不全难以计算 下列叙述中,不属于病例对照研究优点的是( ) A .资料收集后可在短时间内得到结果 B.特别适用于罕见病的研究 C .一次调查可同时研究一种疾病与多个因素的关系 D.可直接获得发病率资料 E .所需研究对象的数量相对较少 病例对照研究中的调查对象是( ) A .病例组是怀疑患有欲研究疾病的病人,对照组是未患该病的人 B .病例组是具有某种暴露的人,对照组是未有该暴露的人 C .病例组是确诊患有欲研究疾病的病人,对照组是未患该病的人 D .病例组和对照组均是具有某种暴露的人 E.病例组是确诊患有欲研究疾病的病人,对照组是怀疑患有该病的 在病例对照研究中,若病例组某危险因素暴露史的比例在统计学上明显高于对照组,则表明( D ) A .该因素与疾病有统计学关联 B.该因素与疾病有因果关联 C .该因素是疾病的病因 D.该因素与疾病无关联 E.该病由该因素引起 下列关于病例对照研究特点的说法中,正确的为( C ) A .暴露与疾病都是现在的情况 B.能够确证因素与疾病的因果关联 C .由因及果的研究 D.需要随机分组 E.属于观察法 OR 主要应用于( A ) A .现况研究 B.生态学研究 C.现场试验 D.病例对照研究 E. 队列研究 属于病例对照研究缺点的是( E ) A .不能分析疾病与多种因素的关联 B.不能估计RR C.样本含量要求很大 D .容易产生医德问题 E.回忆信息时,易出现错误 下列说法中,不属于队列研究特点的是( B ) A .由因及果,前瞻性研究 B.属于描述性研究 C.能同时研究一种因素与多种疾病的关系 D .需要设立对照组 E.因果关联的说服力大于病例对照研究 队列研究中的研究对象为( C ) A .在一般人群中选取有、无某暴露因素的两个组 B.在患有某病者中选择有、无某暴露因素的两个组 C .在未患该病人群中选择有、无某暴露因素的两个组 D.患有某种疾病的人群随机分成的两组 E .一组患有某种疾病者,一组为未患有该种疾病者 在队列研究中,暴露组的疾病发病率与对照组的疾病发病率的差值称为 ( A ) A . AR B. RR C.OR D.PAR E. AR% 队列研究属于( B ) A .相关性研究 B.分析性研究 C.描述性研究 D.理论性研究 E.实验性研究 在队列研究中,估计某因素与某疾病关联强度的指标为( E ) A .总人群中该病的发病率 B.暴露人群中该病的发病率 C .人群中危险因素的暴露率 D.OR E. RR 在队列研究中,研究对象的分组原则是按( A ) A .是否暴露于某因素分组 B.随机分组 C.是否患病分组 D.人为随意分组 E.领导意图分组 属于实验流行病学特征的是(E ) A .由果及因,回顾性研究 B.属于观察法 C.获得因素与疾病联系强度的指标主要为比值比 D .不能确证因果关联 E.人为施加干预措施 关于临床试验中的对照组,正确的说法为( B ) A .是人群中的非患欲研究疾病者 B.是患欲研究疾病者,但在处理上不同于实验组 C .不具有某种暴露因素的人 D.与患欲研究疾病者同时入院的其它患者 E.所欲研究疾病的轻型患者 多选题: 下列所述中属于抽样调查优点的有( A C D ) A .工作量小 B.工作量大 C.省时间和人力、物力 D.工作易做到细致 E .特别适用于患病率很低的疾病调查 属于队列研究缺点的为( A C D ) A .观察时间长,花费大 B.易出现回忆偏倚 C.不宜用于研究发病率很低的疾病 D .设计的要求高,实施复杂 E.不能计算发病率、死亡率等 属于实验流行病学方法的有( A/C ) A .临床试验 B.普查 C.社区试验 D.队列研究 E.个体试验 反映诊断试验可靠性的指标是( E) A .灵敏度 B.特异度 C.约登指数 D.阳性似然比 E.符合率 为提高诊断试验的灵敏度, 对几个独立试验可(B ) A .串联使用 B.并联使用 C.先串联后并联使用 D .要求每个试验假阳性率低 E.要求每个试验特异度低 某病早期治疗效果好,漏诊后果严重,对此病的试验诊断应(A ) A .提高灵敏度 B.提高特异度 C.降低诊断的截断值 D.提高阳性预测值 E.提高阴性预测值 诊断试验的真实性是指(A ) A .被试验的测定值与实际值的符合程度 B.是重复试验获得相同结果的稳定程度 C .是观察者对测量结果判断的一致程度 D.是试验结果表明有无疾病的概率 E.指病例被试验判为阳性的百分比 流行病学是研究疾病、健康状态和事件在人群中的分布、影响和决定因素,用以预防科控制疾病、促进健康的学科。 流行病学研究的方法: 观察性研究 实验性研究 理论性研究 观察性研究: 描述性研究 (横断面研究(现况调查)比例死亡比研究 生态学研究) 、 分析性研究 (病例对照研究 队列研究(随访研究)) 实验性研究:临床实验、现场试验、社区干预试验和整群随机试验 理论性研究:流行病学方法研究理论流行病学 比例:是表示同意事物局部与总体之间数量上的比值,分子和分母的单位相同,且分子包含于分母之中。(构成比) 某医院住院病人中有15%的胃癌患者,该15%是: A. 患病率 B.发病率 C.构成比 D.相对比 例:某病患者409人,其中男性170人,女性239人,男女性构成比见右侧表所示。具体计算: 表 409名患者性别构成 男性患者数 男性构成比=⨯100% 男女性患者总数170 =⨯100%= 170+239 构成比的特点是各组成部分的构成比之和为100% 例如,某年某地出生婴儿中,男性婴儿有185人,女性婴儿有176人,则: 出生婴儿性别比= 男性婴儿数女性婴儿数 = 185176 = .比或相对比:是两个相关指标之比,说明两指标间的比例关系。两个指标可以是性质相同,如不同时期发病数之比;也可以性质不同,如医院的门诊人次与病床数之比。常用倍数或百分数表示。 两指标可以是绝对数、相对数或平均数。 相对比= 甲指标 ⨯100%)乙指标 3.率:表示一定时间内,实际发生某现象的例数与可能发生该现象的总例数之比,用以说明某现象发生的频率或强度,常用百分率(%)、千分率(‰)、万分率(1/万) 或十万分率(1/10万)等表示。 率= 说明某现象发生频率或强度的相对数是 某现象实际发生的例数 ⨯k 可能发生该现象的总例数 A. 率 B.构成比 C.相对比 D.百分位数 发病率 发病率= 一定时期内某人群某病新病例数 ⨯k 同期暴露人口数 用途:反映该病的风险。用来描述疾病的分布、探讨发病因素、提出病因假设、评价防治效果 1.描述疾病的发病率指标,计算时分子应为 A .新发病例数 B.新旧病例数 C.受检者中阳性人数 D.易感接触者中发病人数 2.发病率的分子是 A .患病人数之和 B.新病人数之和 C.感染人数之和 D.死亡人数之和 1. 描述疾病的患病率指标,计算时分子应为:B A. 新发病例数 B.新旧病例数 C.受检者中阳性人数 D.易感接触者中发病人数 2. 患病率:又称现患率或流行率。 患病率= 特定时间点某人群中某病新旧病例数 ⨯k 同期观察人口数 K=100%,1000‰,10 000/万或100 000/10万 时点患病率:调查时间一般在1个月内 期间患病率:调查时间超过1个月 影响因素:患病率=发病率×病程 用途:患病率通常用来描述病程较长的慢性病发生或流行情况 黄炳率与发病率的区别 1. 死亡率:指某人群在一定期间内(1年)死于所有原因的人数在该人群中所占比例。 K=1000或100 000/10万 死亡率= 某时期内死亡总数 ⨯k 同期平均人口数 2. 病死率:在一定时间内患某病的全部患者中因该病而死亡的比例。多用于病程短的急性病。表明疾病的严重程度。 病死率= 某时期因某病死亡的人数 ⨯100% 同期患某病的人数 3. 生存率:又称存活率。指患某病的人(或接受某种治疗措施的患者)经n 年随访,到随访结束时仍存活的病例数与随访病例的总数之比 n年生存率是评价慢性、病死率高的疾病远期疗效的重要指标。 n 年生存率= 1. 相对危险度(RR )或率比:指暴露组发病率与非暴露组发病率之比。反映了暴露于疾病的关联强度。RR= Ie/I0 RR=1,暴露与疾病无联系 RR1,暴露与疾病存在正联系(暴露是危险因子) 例:Doll 和Hill 调查了英国35岁以上男性吸烟习惯与肺癌死亡率的关系,不吸烟人群的肺癌死亡率为‰,中度吸烟者(15-24支/日)的肺癌死亡率为‰。RR= 说明吸烟者死于肺癌的危险性是不吸烟者的倍。 2. 比值比(OR ):又称优势比、交叉乘积比。指病例组中暴露人数与非暴露人数的比值除以对照组中暴露人数与非暴露人数的比值。 发病率(死亡率)很低;研究对象代表性好—— OR≈RR 归因危险度(AR )或率差(RD ):是指暴露组发病率与非暴露组发病率之差,反映发病归因于暴露因素的 随访满n 年后仍存活的病例数 ⨯100% 随访满n 年的该病病例数 程度。AR= Ie-I0 =RR×I0-I0 =I0 (RR-1) AR 意义:暴露者中完全由某暴露因素所致的发病率或死亡率。 例:AR=‰‰=‰。表明在每日吸15-24支香烟当中由于吸烟所致的肺癌死亡率为‰ 归因危险度百分比(AR%):指暴露人群中有暴露因素引起的发病在所有发病中所占的百分比。 AR%= (Ie-I0)/Ie×100% 例:AR%=()/×100%= 表示在每日吸15-24支香烟者中有的肺癌是由吸烟所致。 现况调查:在某一人群中应用普查或抽样调查等方法收集特定时间内有关变量、疾病或健康状况的资料,以描述目前疾病或健康状况的分布及某因素与疾病的关联。 现况调查的种类 (!)普查:指在特定时间内,对特定范围人群的每一个成员所进行的调查,也称全面调查。 (2)抽样调查:是从总体人群中随机抽取有代表性的一部分人(样本)进行调查,以样本结果来估计总体人群的疾病或健康状况的一种调查方法。 抽样方法:非随机和随机抽样 现况调查优缺点 (1)优点:研究结果有较强的推广意义;可形成同期对照;是病因探索中的基础性工作 (2)局限性:难以确定心因后果;不能获得发病率资料;有可能低估患病水平 队列研究的原理是将特定的人群按其是否暴露于某因素或按不同暴露水平分为n 个群组或队列,追踪观察一段时期,比较两组或各组发病率或死亡率的差异,以检验该因素与某疾病有无因果联系及联系强度大小的一种观察性研究方法。 1. 队列研究主要用于: A .研究发病机理 B.研究职业种类 C .验证某种暴露因素对发病率或死亡率的影响 D.研究个体基因突变性 队列研究的特点: 时序是前瞻性研究 观察性对比研究 暴露组否分组 研究方向由“因”推“果” 追踪观察的两组间的发病率或死亡率差异,RR=[a/(a+b)/[c/(c+d)] 1. 队列研究的特点有 A. 属于观察法√ B.属于实验法 C.设立对照√ D.研究方向由因推果√ E.研究方向由果追因 队列研究的优缺点: (1)优点: 研究对象在疾病发生前按暴露情况分组且进行随访,所获资料完整可靠,无回忆偏倚可直接计算发病率或死亡率,因而能计算相对危险度和特异危险度等指标,直接估计暴露于疾病的联系强度大小可同时研究一种因素与多个疾病的关系, 有助于了解疾病自然史。暴露因素与疾病的时间先后顺序清晰,因此论证因果关系的 能力强。暴露因素的作用可分等级,便于计算剂量-效应关系。样本量大,结果较稳定。在有完整资料记录的条件下,可做回顾性历史队列研究。 (2)局限性: 观察时间长,费人力、费钱,不能在较短时间内得到结果;准备工作繁重,设计的科学性要求高,实施难度大。暴露人年计算工作量较为繁重。不适于研究发病率很低的疾病。由于随访时间长,所以容易产生失访偏倚 多选 1. 队列研究的用途有( ) A. 用于验证某种暴露因素对发病率的影响 B.用于传染病发病机理研究 C.用于检验职业人群 D. 用于人群干预研究 E.描述疾病的自然发展过程 病例对照研究: 选择患有所研究疾病的患者作为病例组,同时选择未患该病的人作为对照组,调查两组人群发病前对某个(些)因素的暴露状况,比较两组暴露率和暴露水平的差异,以研究该疾病与这个(些)因素的关系。 病例研究的优点 1. 在疾病发生后进行,研究开始时已有一批可供选择的病例 2. 研究对象按发病与否分成病例组与对照组 3. 研究因素的暴露状况是通过回顾获得的 4. 由果及因的推理顺序 5. 比较两组暴露率或暴露水平,分析暴露于疾病的联系。OR=ad/bc 1. 病例对照研究的因果顺序是:c A .由因追果 B.由因追因 C.由果追因 D.由果追果 2. 病例对照研究在时间上属于: b A. 现况性研究 B.回顾性研究 C.前瞻性研究 D.回顾加前瞻性研究 实例 目的:A 型性格与冠状动脉病变的关系 研究对象: 病例组:经冠状动脉造影确诊的冠心病患者 对照组: 医院对照(内对照):冠状动脉造影正常+ECG平板运动试验阴性的其他科室住院者 人群对照(外对照):中型企业健康普查人群完全随机抽样( ECG平板运动试验阴性) 信息采集: 信息采集: A 型性格:全国冠心病与A 型行为类型协作组1985年制定的《A 型性格问卷》,按确诊冠心病前两年的情况 其他危险因素:一般人口学特征,既往高血压、高血脂等心血管疾病史及家族史,烟酒及膳食习惯等。 冠状动脉病变指数:按造影所示病变部位及支数、狭窄程度及范围,结合美国心脏病协会规定的节段法进行评判。 研究对象例数:实际分析339人 病例组139人 医院对照83人 人群对照117人 主要结果: 病例组与医院和人群对照组之间在年龄、性别、居住地及工作年限、职业构成等方面经检验,均无显著性差异,说明各组间可比性较好 A 型性格发生冠心病的危险性: 男性:OR 值(95%CI:) 女性: OR值(95%CI:) 性格评分等级与冠状动脉病变的关系:呈明显剂量-效应关系 控制和调整了各因素的混杂后,A 型性格与冠状动脉病变的发生依然密切相关 表6-2 性格类型与冠状动脉疾病程度间关系的对比分析 实验性研究:又称干预研究,基本性质是研究者在一定程度上掌握着实验的条件,主动给予研究对象某种干预措施。 主要类型:临床试验、现场试验、社区试验、类实验 实验研究的特点: 1. 前瞻性研究:干预在前,效应在后 2.随机分组: 3. 设立对照组:来自同一总体 4.有干预措施:容易产生伦理学问题 临床试验是按实验法,运用随机分配的原则将试验对象分为试验组和对照组,给实验组某种治疗措施,不给对照组该措施或给予安慰剂(placebo ),经过一段时间后评价两种措施产生的效应,从而评价临床治疗、 预防措施的效果和进行病因研究。 诊断指标: 客观指标:仪器测定指标 主观指标:患者主诉 半客观指标:诊断者的主观感知(肿物的硬度、大小) 诊断标准:生物统计学方法、临床判断法、ROC 曲线法 真实性:有效性、效度或准确性。是指待评价试验所获得的测量值与实际情况(金标准测量值)符合程度。 灵敏度(真阳性率) 特异度(真阴性率) 误诊率(假阳性率) 漏诊率(假阴性率) 似然比 正确诊断指数 练习题 提高诊断试验灵敏度的办法是( ) A. 串联试验 B.并联试验 C.先串联后并联 D.先并联后串联 筛检试验:通过快速的检验、检查或其他措施,将可能有病但表面上健康的人,同那些可能无病的人区分开。 筛检的主要用途: 早发现临床前期的可疑患者(二级预防) 发现高危个体(一级预防) 流行病学监测 了解疾病的自然史 小王是北京海淀区万寿路社区卫生服务中心的一名健康管理师,需要针对本社区老年常见慢性病患者进行健康管理,计划两年之内增加高血压、糖尿病等的检出率、建档率和随访干预覆盖率,五年之内减少因高血压、糖尿病发病和死亡等指标,那么他应该从什么地方开始动手呢? 该小区人群一般人口学特征(如年龄、职业、婚姻状况、性别等)情况如何分布? 该小区人群常见慢性病(高血压、糖尿病、周围血管疾病、冠心病等)患病率如何? 影响这些慢性病患者的危险因素有哪些?如何进行干预? 社区中高血压、糖尿病患者的远期心血管病(主要是冠心病和脑卒中)发病和死亡风险如何,怎样预测?在进行12个月的干预后,如何评价效果?
统计分析是运用统计 方法 与分析对象有关的知识,从定量与定性的结合上进行的研究活动。下文是我为大家整理的关于统计分析论文的 范文 ,欢迎大家阅读参考!
浅谈统计分析与决策
[摘要] 统计分析与决策二者有联系又有区别。统计要参与决策,必须搞好统计分析。搞好统计分析,需要解决选题、分析、撰写 报告 三个问题。
[关键词] 统计分析 分析方法 决策
统计工作的全过程分为四个阶段,即统计设计,统计调查,统计整理,统计分析。其中,统计分析是统计工作的最后一个阶段,是出统计成果的阶段。现在倡导统计要参与决策,这是不是说统计工作还要增加一个决策阶段呢?如果不是,那么,统计分析与决策是什么关系呢?
狭义的说,统计分析与决策是有区别的。统计分析是以统计数字为基础,以统计方法为手段,对社会经济情况进行科学的分析和综合研究,以认识其本质和规律的过程。而决策则是为了达到某一预定目标,运用逻辑方法和统计方法,对两种或两种以上可能采取的方案进行比较、分析、研究,以做出合理的、科学的抉择的行为过程。假若把统计分析与决策比作医生看病,统计分析就是对病情的诊断,决策就是开处方,“诊断”和“处方”是有区别的。
广义的讲,统计分析与决策是密不可分的。一方面,统计分析贯穿于决策过程之中。一个决策过程大体上可分为下列三个大步骤:第一,诊断问题所在,确定决策目标;第二,探索和拟定各种可能的备选方案;第三,从各种备选方案中选出最合适的方案。从这三大步骤看,尽管要用到多种方法和手段,但哪一步也离不开统计分析,第一步就是通过统计分析,诊断问题所在,并在分析的基础上确定决策目标;第二步拟定备选方案,要经过“轮廊设想”和“细部设计”这个阶段对轮廊设想的方案要做初步筛选,对每一方案要充实具体内容,“筛选”和“充实”都要经过统计分析;第三步选择最佳方案,首先要对各个备选方案进行评价、论证,这又需要统计分析。因此可以说,没有统计分析,也就没有科学决策。另一方面,从某种意义上讲,决策是统计分析的结果。一般来说,统计分析报告是提出问题、分析问题、指出解决问题的办法,其实,决策方案也就是解决问题实现决策目标的办法,只不过比“今后意见”“几条 措施 ”之类的办法更全面、更详细、更科学罢了。医生诊断是为了正确处方,治病救人,不能只诊断不处方。统计分析是为了发现问题,解决问题,推动社会经济的顺利发展;也不能只提出问题,而不寻找解决问题的办法。从这个意义上讲,统计分析也就包括预测和决策。我们不能为统计而统计,也不能为分析而分析。统计应该参与决策,为了决策科学化,必须搞好统计分析。
搞好统计分析,需要解决选题、分析、撰写报告三个问题。
一、统计分析选题
所谓选题,就是在复杂的社会经济现象中,确定统计分析的内容和范围。进行统计分析,选题很重要。成功的选题是成功的分析的前提。
怎样选好题呢?选好题标准有两条:―是分析对象有意义,二是适合决策层和群众需要。关键是抓住党和国家的方针政策和企业的经济效益。
统计分析课题是很广泛的。工业统计分析课题如:计划执行情况分析、工业净产值统计分析、工业产品销售统计分析、工业原材料供应和消耗统计分析、工业能源消耗统计分析、工业生产设备统计分析、工业劳动与工资统计分析、成本利润统计分析、综合经济效益统计分析等。商品流通企业统计分析课题如:市场供求状况分析、市场占有率分析、主要商品经济寿命周期分析、市场商品价格分析、计划执行情况分析、购销合同执行情况分析、商品购进质量分析、商品销售动态分析、商品销售构成分析、商品库存分析、企业经济效益分析等。对于以上内容,可根据不同的时间、地点、条件,按两条选题标准适当选择。
统计分析有专题分析与综合分析之分。在一定的总体范围内,研究总体的各个方面及其相互关系,或研究总体的主要方面的统计分析,属于综合分析;只研究其中某一方面,或某一部分的统计分析,属于专题分析。两者各有不同的特点,都是必要的,但专题分析宜多,综合分析宜少。
二、统计分析方法
统计分析的关键是分析,怎样进行统计分析呢?统计分析有两个特点:一是以统计数字为基础,二是以统计方法为手段。因此,统计分析在选题之后,就要根据分析的需要,搜集整理有关数字资料及具体情况,在充分占有材料的基础上,灵活运用统计方法进行分析。
统计分析方法很多。统计学原理中除了有关统计调查、统计整理的内容外,综合指标、统计指数、时间数列、抽样推断等内容全部是统计分析方法。从方法角度上讲,统计分析就是统计学原理的运用。
统计方法与人们的认识过程是相适应的。人们的认识分感性认识和理性认识两个阶段。感性认识阶段所认识的是事物的现象,可采用统计调查和统计整理。理性认识阶段所认识的是事物的本质和规律,这个阶段要经过形成概念、进行判断和推理等思维活动。与此相适应,要分别采用不同的统计分析方法。
形成概念一般用描述性的综合指标法,即总量指标、相对指标和平均指标,以说明现象的规模大小、水平高低、速度快慢、内部结构以及比例关系等。判断推理就是要判断事物的性质,分析事物变化的原因,找出事物发展的规律。这一般要用分组分析法、动态分析法、因素分析法、相关回归分析法、平衡分析法等。
对统计学原理中的各种统计分析方法要熟练地掌握,灵活地运用。怎样灵活运用呢?这里有个技巧问题。技巧就是定性分析与定量分析巧妙结合。
所谓定性分析是指对事物的性质和影响事物发展变化的因素进行分析。定量分析就是分析事物的规模、水平、速度、结构、比例,以及各个因素对事物总体变化的影响方向和影响程度。定性分析与定量分析巧妙结合有两层含义,一是二者不可偏废,二是二者密不可分,
没有定性分析,定量分析就没有方向。没有定量分析,定性分析就不准确。结合的目的是在质与量的辩证统一中探寻事物的内在联系。
从根本上讲,统计分析就是完成从感性认识到理性认识,从现象到本质的飞跃。完成了这―飞跃,才是高质量的统计分析。有些统计分析质量不高,往往就是没有完成这一飞跃,仍然停留在表面现象上。
三、统计分析报告的撰写
统计分析报告是统计的最终产品。如果说统计数字的准确性是统计的生命,那么,统计分析报告的质量则关系到统计作用的发挥。对高质量的统计分析报告的要求,可以概括为五个字,就是“准、快、新、深、活”。
准:就是实事求是地反映客观实际。做到数字准确,情况准确,论点准确。
快:就是在决策层决策之前,不失时机地及时提供分析报告。
新:就是不断创新。要求不断开拓新领域,钻研新课题,反映新情况和新问题。
深:就是要在充分占有材料的基础上,提高分析的深度,使认识不只停留在反映现象上,而要揭示事物的本质和规律,并且用观点统帅材料,用材料说明观点,做到材料和观点的统一。
活:就是文字生动活泼,形式灵活多样。资料要多样化和生动具体,要有群众语言,要通俗易懂,文字要精精炼。
统计分析报告是在统计分析的基础上撰写出来的。没有好的分析,不可能写出好的报告。经过分析阶段,弄清了事实,判明了性质,探索出规律,得出了结论,在此基础上就可以撰写统计分析报告。但分析得好,并不等于报告写得好,这里还有个撰写的技巧问题,那就是准确地表述事实,透彻地阐明本质,深刻地揭示规律,恰当地提出建议。
1.准确地表述事实
每一篇统计分析报告,都需要表述所分析的现象,即说明“是什么”。准确地表述事实,才能给读者一个明确的概念。为此,须注意如下几点:(1)数字要真实;(2)运用数字要适当,不要堆砌数字,搞数字文字化;(3)语言要素准确。
2.透彻地阐明本质
现象只说明事物的各个片面,本质才说明事物的整体。撰写统计分析报告,必须深刻地揭示事物的本质,它是统计认识事物的正确程度和深度的反映。如果不能深刻地阐明事物的本质,那只能是现象罗列,没有多大价值。
阐明事物的本质,也就是阐明事物的基本性质。事物的性质是由事物内部矛盾的主要方面决定的。例如,某企业利润增加,是靠涨价,还是靠降低成本?经过分析,认识到利润增加主要是靠降低成本,这是矛盾的主要方面,这就反映出事物的性质。因此,在报告中就应阐明降低成本在提高经济效益中的重要作用。再如某企业,本质问题是钢材浪费严重,在报告中就应揭示浪费的若干方面和严重程度。
3.深刻地揭示规律
规律是事物内部固有的、本质的、必然联系。成本高低与产量多少有联系,经过推理,这种联系是事物内部固有的、本质的必然联系,反映了事物发展变化的规律性,而且存在一定的回归关系。而回归方程反映这种关系,所以在统计分析报告中,要利用回归方程揭示这种必然联系及其回归关系。
4.恰当地提出建议
认识世界的目的是为了改造世界。经过统计分析,透过现象认识到事物的本质和规律,还必须提出解决问题的建议,如“今后意见”、“几点建议”、“决策方案”等等。怎样才算恰当地建议呢?恰当的建议要符合三个条件:(1)符合分析目的;(2)合乎客观规律;(3)切实可行。
以上四点,一般可以作为分析报告的结构和顺序,但不能千篇一律。
统计分析报告是统计分析结果的反映。既要注意提高写作水平,更要努力锻炼分析问题和解决问题的能力。
试谈统计分析方法应用
【摘要】统计分析方法应用于各个领域,解决了很多工业、农业、经济、医学等领域的实际问题,本文分析多元统计分析方法的主要应用和构建多元统计方法检验体系的必要性,针对性的提出了需要引起注意的共性问题,具有很强的现实意义。
【关键词】统计分析方法;应用;检验体系;共性问题;现实意义前言
随着信息技术的普及和广泛应用,它推动了社会、经济和科学技术的发展,多元统计分析方法的难题得到了攻破,各个领域广泛采用,推动了各行各业经济的快速发展。
二、多元统计分析方法的主要应用
统计方法是科学研究的一种重要工具,其应用颇为广泛。在工业,农业,经济,生物和医学等领域的实际问题中,常常需要处理多个变量的观测数据,因此对多个变量进行综合处理的多元统计分析方法显得尤为重要。随着电子计算机技术的普及,以及社会,经济和科学技术的发展,过去被认为具有数学难度的多元统计分析方法,已越来越广泛地应用于实际。
聚类分析
它是研究分类问题的一种多元统计方法,聚类分析的基本思想是首先将每个样本当作一类,然后根据样本之间的相似程度并类计算新类与 其它 类之间距离,再选择近似者并类每合并一次减少一类,继续这一过程直到所有样本都合并成为一类为止。所以聚类分析依赖于对观测间的接近程度或相似程度的理解,定义不同的距离量度和相似性量度就可以产生不同的聚类结果。企业制定 市场营销 战略时要弄清在同一市场中哪些企业是直接竞争者,哪些是间接竞争者是非常关键的一个环节。要解决这个问题,企业首先可以通过 市场调查 ,获取自己和所有主要竟争者,从而寻找企业在市场中的机会。
判别分析
判别分析是已知研究对象分成若干类型,并取得各种类型的一批已知样品的观测数据、在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分析,企业在市场预测中往往根据以往所调查的种种指标,用判别分析方法判断下季度产品是畅销平销或滞销。一般情况下判别分析经常与聚类分析联合起来使用。
主成分分析
主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标,来代替原来指标,同时根据实际需要从中可取几个较少的综台指标,尽可能多反映原来指标的信息,在市场研究中常常利用主成分析方法分析顾客的偏好和当前市场的产品与顾客之间的差别,从而提供给生产企业新产品开发方向的信息。
因子分析
因子分析是主成分分析的推广和应用。它是将错综复杂的随机变量综合为数量较少的随机变量去描述,多个变量之间的相关关系以再现原始指标与因子之间的相互关系。也可以认为因子分析是将指标按原始数据的内在结构分类。例如:对Y个调查区的商业网点数、人口数、金融机构服务数、收入情况等N个指标进行因子分析,如果按照一般的分析方法,我们就需要处理N个指标,并给它们以不同的权重。这样不仅工作量变大而且由干指标之间存在比较高的相关性,会给分析结果带来偏差另外给具有较高相关性的众多指标,从而计算出各个调查区平均综合实力得分以便决定在某个调查区拟建何种类型的销售点。
三、构建多元统计分析方法检验体系的必要性
(一)构建多元统计分析方法检验体系,提高多元统计分析应用质量
多元统计分析方法已经越来越为人们广泛应用,但应用中盲目套用分析方法的情况很多,只关心模型方法的应用。许多教科书也只侧重介绍多元统计分析方法的思想、原理和分析步骤,对多元统计分析方法应用结果的统计检验叙述不多。这就直接影响了多元统计分析方法的应用效果和可信性。因此,本文拟对多元统计分析方法的统计检验问题进行探讨。构建多元统计分析方法检验体系的目的在于进一步丰富和完善多元统计分析方法的内容体系;实践上,使多元统计分析方法的应用更加合理、规范。推动多元统计分析方法应用质量的提高,推动多元统计分析方法获得更广泛的应用。
(二)多元统计分析统计检验体系的基础理论
多元正态分布总体的样本分布,即维希特分布,霍特林分布,威尔克斯分布,多元正态总体均值向量假设检验,包括一个正态总体均值向量假设检验,两个正态总体均值向量假设检验,多个正态总体均值向量假设检验;多元正态总体协方差阵假设检验,包括一个正态总体协方差阵假设检验,多个协差阵相等假设检验。
(三)关于统计检验体系
将上述统计检验体系有机结合在一起,就构成了多元统计分析方法检验体系的基本框架。多元统计分析方法检验体系的构建,用多元统计分析方法,充分发挥多元统计分析方法的应用价值,提高应用质量,我们建议,在应用时,应该按照上述框架进行相应的统计检验。当然。上述统计检验体系还是一个初步的框架,随着多元统计分析方法理论的逐步完善,上述检验体系也需要不断完善,也需要更多的同行关注此类问题并不断加以研究。另一方面,在实际应用中,即便是某种方法根据上述内容都进行了统计检验,由于各种方法自身存在的缺陷或局限性,也还会存在许多应用中考虑不周之处。应该引起注意。但是,因子分析结果还是具有较大主观性。特别是对公共主因子在专业方面实际意义的解释上,仍然保留着一种艺术气息,并没有统一做法,因此很多情况下也是不能令人满意的。总之,我们在应用时,对因子分析的适用性、公因子的估计方法、公因子选取的数目。公因子的实际意义的解释等一系列问题都要引起足够注意。检验体系有如下几个分类:
a.主成分分析统计检验体系
b.因子分析统计检验体裂引
c.系统聚类分析统计检验体系
d.判别分析统计检验体裂
e.对应分析统计检验体系
f.典型相关分析统计检验体系
四、多元统计分析方法应用中需要注意的几个共性问题
1.关于原始数据变量的总体分布问题。
对原始变量的总体分布各种方法各有不同的要求。有的方法对原始数据变量总体分布没有特殊的要求,如主成分分析、聚类分析、对应分析。有的方法在不同情况下,对原始变量分布有不同的要求,如因子分析中,公共因子的估计方法不同,对原始变量分布要求不同,采用极大似然估计方法估计主因子时,是假定原始变量是服从多元正态分布的,因此,应用时要引起重视,如典型相关分析要求原始变量服从正态分布,但在严格意义上,如果变量的分布形式比如高度偏态不会降低其他变量的相关关系,典型相关分析是可以包含这种非正态变量的。
样本容量问题。
进行多元统计分析时,样本容量n达到多少为宜,目前尚没有统一的结论。有的认为样本容量应是变量个数的10~20倍,有的认为样本容量要在100以上比较合适,有的认为进行巴特莱特检验时的样本容量应该大于150方可,也有的认为不必苛求太多的样本容量,如在进行主成分分析和因子分析时当原始变量之间的相关性很小时,即使再扩大样本容量,也难以得到满意效果。
原始变量之间的相关性以及非线性关系问题。
多元统计分析方法中,有的是的要求原始变量中要具有相关性。有的则不要求原始变量具有相关性。如聚类分析中,进行Q型系统聚类分析时对原始数据变量之间的相关性也是有要求的,如选择欧式距离、明氏距离、兰氏距离时,则要求原始变量之间是不相关的。只有对原始数据的相关性进行了处理后,才可以选择使用上述距离。若原始变量存在相关性,则选择马氏距离比较合适。另外原始变量之间的非线性关系也是需要注意的问题。如主成分分析、因子分析以及典型相关分析当基于相关矩阵来进行计算时,这里的相关矩阵实际上是Pearson的积差相关。但是,如果变量之间的关系不是线性的,而是非性相关关系,于是,所进行的分析以及结论也就失去应有的意义了。
数据处理问题。
多元统计分析中涉及多个变量,不同变量往往具有不同的量纲及不同的数量级别。在分析时,具有不同量纲的变量进行线性组合是没有意义的,不同的数量级别的变量之间进行分析时。会导致“以大吃小”,即数量级的变量的影响会被忽略,从而影响了分析结果的合理性。因此。为了消除量纲和数量级别的影响,进行多元统计分析时,必须对原始数据进行处里,最常用的是先作标准化变换处理,然后再作相应的分析。
五、结束语
在统计分析方法的应用中,会涉及到多个变量,因此,必须根据原来有的数量进行处理,然后才能得出相应的分析结论。本文结合多元统计分析方法的理论基础,对相关检验体系和分析体系进行了分析,具有现实的理论指导意义。
【参考文献】
[1]于秀林.多元统计分析[M].北京,中国统计出版社,1999:223—224.
[2]高惠璇.应用多元统计分析[M].北京,北京大学出版社 ,2005:343—366.
[3]郭志刚.社会科学分析方法一SPSS软件应用[M].,中国人民大学出版社,1999.
[4]傅德印.主成分分析中的统计检验问题 [J].统计 教育 ,2007(9):4—7.
310 浏览 2 回答
199 浏览 3 回答
214 浏览 8 回答
196 浏览 4 回答
149 浏览 3 回答
201 浏览 5 回答
199 浏览 7 回答
140 浏览 3 回答
182 浏览 4 回答
99 浏览 4 回答
190 浏览 11 回答
341 浏览 2 回答
312 浏览 4 回答
94 浏览 4 回答
313 浏览 4 回答