摘 要:
关键词:
1.背景
经济普查是一项集工业、建筑业、第三产业和基本单位普查为一体的综合性国情国力调查。搞好经济普查,对于研究制订国民经济和社会发展规划、调整和优化经济结构、改进宏观调控、开拓新的就业渠道、建设“生活品质之城”等都具有重大的意义;将为健全和完善国民经济核算和经济运行监测体系,推进统计调查方法制度的综合配套改革等创造有利的条件。
2.我市二经普数据处理情况
数据处理是整个经济普查工作的重要环节,是全市普查人员辛勤工作成果的最终体现。作为五年一次的大型普查工作,数据质量的好坏标志着普查工作的成败,具有“一票否决权”的作用。因此,在这次经济普查数据处理过程中,我市经普办对数据处理工作格外重视,严把数据质量关。我市二经普的数据处理工作,按照“统一组织、统一标准、专业负责、统一上报”的原则以及“四上单位网上直报,四下单位县级集中录入,统一数据合并转换上报、二级数据处理”的模式组织实施,区、县(市)经济普查办数据处理组具体负责普查数据处理工作。
此次经济普查的数据处理模式与“一经普”完全不同,在六个不同的平台上进行数据处理,加上我市“四上单位”普查表采取网上直报方式,各套程序相互之间不衔接,因此数据处理的流程与环节尤为复杂,工作难度之大远远超过“一经普”,稍有不慎就会带来难以挽回的损失,对此,各区、县(市)经普办按照全市数据处理方案的规定,结合当地实际,制定最为严密的实施细则,最为规范的工作流程,最为健全的规章制度,明确最为严格的工作纪律与工作责任,落实最为充足、管理优良的人员、设备与场地,确保了数据处理的安全、高效,确保了数据处理万无一失。
3.各套数据处理软件生成的数据文件格式及其本质
《第二次全国经济普查软件》(以下简称“二经普软件”)是此次经济普查中全国统一使用的数据处理程序,也是国家统计局准备推广用于企业一套表的数据处理程序,本市最终上报省经普办的数据也是通过该程序整合处理后导出的。在其他几个数据处理平台上处理的数据最后是通过各自的数据导出接口导出后再通过二经普软件的各种数据导入接口导入合并的。
几乎所有的数据处理程序,都有导入导出功能,作为与外部数据库交换数据的通道。二经普软件使用强大的Oracle数据库作为后台数据库,并利用浏览器作为客户端程序,应当说比第一次经济普查的Epras程序设计更加细腻,界面更加友好,功能也更加强大。但是,与Epras程序相比,二经普软件在与外部数据交换方面非常的不友好,数据导入导出并不是通过csv或txt等常用的文本格式文件,也无法用Excel文件进行数据交换。
二经普软件的导入导出功能主要分为本级数据导入导出、上报数据导入导出和三上数据导入导出,其使用的文件格式分别为lor、upr和zip。要想通过外部数据库处理数据再重新导人二经普软件中,首先要解决的是如何将数据做成二经普软件认可的格式文件问题。下面就对这三种格式的文件一一进行分析:
3.1本级数据
本级数据导入导出功能中使用的文件格式是lor,这个是一种陌生的文件格式。事实上,绝大部分的压缩格式,都是zip压缩格式的变种,这个lor文件也不例外,只要把文件后缀改为zip就可以正常解压缩了。解压缩后得到一个xml文件和若干csv文件,其中xml文件是控制文件,主要记录了数据处理地、专业、表号等信息,每个csv文件对应一张表。
3.2上报数据
上报数据导入导出功能中使用的文件格式是upr,与lor文件类似,它也是zip压缩格式的变种,只要把文件后缀改为zip就可以正常解压缩了。解压缩后也得到了一个xml文件和若干csv文件。
3.3三上数据
三上数据导入导出功能中使用的是zip文件,这种文件本身并无特殊之处,只是一种常用的压缩文件,将其解压缩后生成了几个后缀为00的特殊格式文件,即统计局格式文件。用记事本打开一个00格式文件,发现里面的内容其实就是以逗号分隔的文本文件,即我们熟悉的csv文件。
这三种文件的本质都是csv文件,所以我们在对各个数据处理平台进行数据交换的时候完全可以通过csv文件来进行。通过比较lor文件和upr文件,我们发现,upr文件只是在lor文件的基础上增加了一些汇总表的数据,而汇总表是在基层表的基础上汇总得来的,在数据交换时只需要交换基层数据,所以可以舍弃upr文件不用。由于二经普软件本身存在缺陷,导入导出三上数据时经常发生错误,该功能不是很好用,而本级数据中包含了三上数据的部分,所以三上数据导入导出功能也可以舍弃不用。综上所述,使用lor文件进行本级数据导入导出就足够了。因此,只要认清了lor文件中各个csv文件各记录了哪一张表的内容,每张表中各个字段的排列顺序,并熟练的利用外部数据库软件操作这些数据,便能轻松进行各个平台间的数据交换。
4.对lor文件中csv文件的分析
从lor文件中得到的csv文件,其文件名表明了它与各张数据表的对应关系,如V_8600000002008032207000015.csv,就是601表的文件名,而602表的文件名是V_8600000002008032207000016.csv,602-1表的文件名是V_8600000002008032207000017.csv。比较几个文件名发现,前面的字符串是完全相同的,只有最后三位数字不同,这三位数字就是二经普软件数据库中存储的内部表号。数据库中存储了一张中文表名与数字表号的对照表,各张表的数字表号可以从这张表中查询。
打开一个csv文件,第一行是表头,主要有surveyobjectid、reportperiod、subject_code等系统字段(不同表的系统字段不完全相同),和以“m”开头数字结尾的数据字段。其中surveyobjectid是处理地代码和顺序号的组合;reportperiod为上报期,统一值为20080000;subject_code为专业代码;数据字段,如m1、m2等,其与中文指标名称的对照关系,也可以在软件数据库中找到。
5.利用外部工具制作符合规范的lor文件
简单介绍一下csv文件。csv文是一种“通用数据格式”文件,一般第一行记录了字段名,一行一条记录,一条记录的不同字段之间使用半角逗号“,”隔开。优点是存储容量小,便于导入导出,缺点是数据处理不方便,需要用其他的工具辅助处理。下面先介绍2种常用的外部工具:
5.1Excel。它是微软办公套装软件的一个重要的组成部分,它可以进行各种数据的处理、统计
分析和辅助决策操作,广泛地应用于管理、统计财经、金融等众多领域。这是一款功能比较强大的数据处理工具,在我们日常工作中使用也比较广泛,可以用它来对csv文件中的数据进行处理。
5.2SQL Server。SQL Server是Microsoft公司推出的数据库管理系统,具有使用方便可伸缩性好与相关软件集成程度高等优点,可跨越从运行Microsoft Windows 98 的膝上型电脑到运行Microsoft Windows 2000 的大型多处理器的服务器等多种平台使用。
如果电脑装有Excel,双击csv文件默认使用Excel电子表格打开。但实际上,csv文件是纯文本文件,用Excel打开常常出现某些长数字Excel“自作主张”地使用科学计数法显示的问题,在这个时候一旦保存则原始长数字全部被破坏。因此,若要不“失真”地把csv文件中的数据转移导Excel中,需要用特殊的方法。
一种方法是:先新建一个Excel文件,在菜单中选择数据-->导入外部数据-->导入数据-->选择文件类型为“文本文件”-->选择csv文件-->打开-->在文本导入向导中选择文件类型为“分隔符号”-->下一步-->选择分隔符号为“逗号”-->下一步-->在数据预览中分别选中每一列,选择列数据格式为文本-->完成。
这种方法有一个缺点,若遇到字段较多的csv文件,则选则列数据类型的操作过多,比较费时费力,这个时候可以使用SQL Server进行中转,先把csv文件导入到SQL Server中,生成一张数据表-->打开一个空白Excel文件-->全选-->设置单元格格式为“文本”-->打开SQL Server中的数据表-->选中所有字段-->复制-->粘贴到刚才的Excel表中。
csv文件中的数据转移到Excel中后,可以对列的顺序进行调整,以匹配二经普软件中的顺序;可以对英文逗号进行批量替换——若不替换则在导入二经普软件时会产生数据错位的问题;可以批量生成surveyobjectid字段——数据处理地+顺序号。
SQL Server的功能更加强大,可以把601表的surveyobjectid匹配到其他数据表中,使同一单位的surveyobjectid得到统一,以完成套表导入导出的功能。
从其他数据处理平台导出文本数据,通过以上方式完成csv文件的制作后,把文件名按对照表改好,加上xml文件(可以通过本级数据导出来获得),再打包压缩成zip格式文件,最后把后缀改为lor,这样就完成了lor文件的制作。把该文件导入二经普软件中就完成了多个数据处理平台间的数据交换。
6.总结与建议
经济普查涉及行业非常广泛,在统计系统各专业中除了农业之外,几乎全部囊括其中,而且普查的调查时间集中,同时其本身具有的特点又决定了数据处理不能采用光电录入方式,只能采用人工录入方式,这就要求数据处理要有统一平台,特别是县级数据处理要有统一平台,否则将严重影响数据处理的进程和质量。二经普软件经过了二经普数据处理工作的实际考验,总体上讲是成功的,软件的功能是强大、完善的,但还有许多需要完善的地方。主要是在方便、灵活、兼容性、数据的导入导出接口、并发处理及运行效率等方面,还要进一步的改进、完善和提高,并在今后的实际工作中不断的磨合和达到尽善尽美。