摘要:tdm系统的数据导入功能需要采用三层结构以适应保密需求;数据导入性能是关键指标,而oracle数据库系统的外部表特性可以大大提高数据导入性能。
关键词:试验数据管理;tdm;数据导入;etl
1 背景
进入到21世纪以来,我国的tdm(试验数据管理)技术领域展现出蓬勃的生机,越来越多的行业和单位开始关注该技术和相关的解决方案,如航空、航天、兵器、船舶、汽车等。tdm系统正在成为企业提高试验管理水平、缩短科研周期、降低科研经费的重要手段。
作为一个综合数字化管理平台,tdm系统涉及很多复杂的功能和技术,而数据导入功能就是其中之一。
试验数据导入功能就是从各种格式的海量试验数据文件中快速提取目标数据、再转换清洗后装载到数据库中。
目前试验数据管理的需求状况决定了数据导入功能的重要性。
(1)试验数据格式多变
目前国际和国内的试验数据采集设备多种多样,并且还没有形成统一的标准,而且许多客户单位也大量采用非标设备,于是采集的试验数据格式也就多种多样。这对tdm系统的导入功能带来了很多的挑战。
(2)试验数据量很大
试验作为产品研发生命周期的重要工作,其地位日渐增强,试验产生的数据量也呈几何数量级增长。tdm系统的导入性能也就成为一个关键指标。
2 数据导入功能特点
同许多etl工具一样,tdm系统的导入功能包括extract(抽取)、transfer(转换)、clean(清洗)和load(装载)等几个步骤。wWW.133229.COM
但是,试验数据管理的特殊需求决定了它又具有自身的特点。除了前面提到的数据格式多样、数据量大之外,单位保密要求对于产品架构设计产生了很大的影响。
许多单位,尤其是国防单位,都有严格的保密制度。在信息化系统的部署方面,普通用户计算机一般是不允许直接访问数据库的,只有指定的服务器才有权限直接访问数据库。这就决定了传统的c/s两层结构不能适应客户需求,b/s三层结构则成为必须的选择。
3 三层结构解决方案
我们把系统分为三层结构:用户层、应用层和数据层,如图1所示。其中用户层为数据导入客户端工具;应用层为基于j2ee平台的应用服务器和ftp服务器,j2ee服务器提供web service,包括web service和java beans等j2ee组件;ftp服务器提供对上传文件的管理功能,并提供多线程的文件上载到数据层的功能。数据层包括数据库服务器,其中数据库服务器中包含系统的元数据库、业务数据库和相关的后台进程。
在用户层中,数据导入工具通过web service接口与系统应用层提供的web service进行交互,建立相应的映射规则,同时数据导入工具对用户导入的非结构化数据文件进行抽取和转换,解析成格式化、结构化的文本文件,并把导入的数据规则及映射关系等信息保存下来,然后通过ftp把转化后的文件上传到应用层,同时通过web service接口把数据校验及关联映射信息传到应用层。