电子文献数据安全研究

　　针对数字图书馆网站区别于普通网站的特点，从信息安全的角度发现电子文献数据面临的风险，分析其根本原因，探讨应对风险的方法和策略，希望能够引起数字图书馆建设者对电子文献数据安全的重视。

　　0引言

　　随着计算机技术的发展，很多图书馆都开始了电子化进程，电子文献的种类和数量大大增加。同时，在电子图书资源提供商，如万方、同方、维普的推动下，各种与纸质期刊、论文、报纸同步的电子文献也逐年增加。电子文献的格式非常多元化，非关系型数据库已无法满足电子文献的存储、检索要求，对关系型数据库的分析效率要求也越来越高。数据作为应用的基础，其安全性越来越受到重视。目前，数据安全带来的电子文献数据泄露问题已经在一定范围内发生，但相关研究稍显滞后。

　　电子文献数据量和基于电子文献数据开发的各种应用的增加，为电子文献资源带来了安全问题。从用户角度看，如何保障合法用户在授权范围内获得相应的功能和数据文件，同时准确判断出不合法用户并使其无法获取资源?从电子文献资源所有者的角度看，如何抵抗和避免来自互联网的攻击、搜索引擎的扒窃，为用户提供更稳定的服务?文献检索次数和下载量是评价电子文献资源使用效果的主要指标，当相关数据不断上升时，其中有多少能够真正反映用户使用情况?以上问题的解决，都依赖于电子文献数据安全性的提高。

　　目前关于电子文献的研究有两个主流趋势，一是推进传统图书馆向电子图书馆的演进，融合各图书馆的特色资源，扩大文献共享范围;二是将已有的电子文献资源元数据化，共同制定业界认可的元数据范式，为更多高层应用打下基础。在已有的研究成果中，关于数据安全方面的研究涉及服务器安全、数据库安全、木马病毒防范等，但关于电子文献数据安全方面的研究却十分缺乏。

　　1电子文献数据风险分析

　　1.1DDoS攻击

　　一些中毒的电脑或服务器可能针对某个发布在互联网上的网页进行密集访问，导致提供网页的服务器瞬间建立多个连接，连接池耗尽而拒绝其他用户访问。还有一些网络碎片及废弃的数据包，被错误地转发给提供网页的服务器要求响应，也会造成网页访问不畅。

　　当网页出现间歇性地无法访问、访问不畅、服务器IIS服务崩溃时，可以在网络安全设备中查看DDoS(Distributed Denial of Service，分布式拒绝服务)攻击相关数据并加以判断，如图1所示。

　　一些非法的个人利用远程受控的电脑对提供电子文献数据检索服务的网页进行攻击，其目的并不是简单地阻挠授权用户对电子文献数据服务的正常使用，而是在网页访问请求中试探登录用户名、密码、原文路径、目录信息等[1]。DDoS攻击经常掺杂着暴力破解和目录遍历攻击。

　　1.2非授权用户

　　从常用的文献供应商来看，检索可以是免费的，但如果想下载文献必须购买相关服务，所以对非授权用户而言，破译正常用户的登录信息很有必要。这种攻击可以在提供网页服务的服务器安全日志中找到痕迹，如图2所示。

电子文献数据安全研究

　　以上是用户使用IIS(Internet Information Services，互联网信息服务)用户账户访问服务器产生的日志。正常用户的点击具有随机性，而且人为操作具有时间间隔，即使记错了密码，也不会如此密集地重复尝试登录。正常错误登录会在3次后锁定，用户看到提示会停止尝试。通过计算尝试登录的次数可以看出，每失败30次会有30秒停歇。因此，可以判断非人为操作。在网络安全设备中，也可以发现相关数据。

　　很多电子图书馆的用户具有地域性，如湖北省科技信息共享服务平台，其用户大多在湖北省内，如果有某一用户在省外或国外登录，且多次因密码错误而锁定，可以推断用户账号状态为不安全。

　　1.3信息泄露

　　商业网站很乐于被国内知名搜索引擎收录，不但方便访问，还提高了网站浏览量。然而作为电子图书馆这样一个大型数据收藏机构，某些搜索引擎网站不但能够显示其简介，还可以留存某篇文献的索引和卡片页，甚至下载地址。搜索引擎网站是如何得到这些信息的呢?答案是信息收集。从电子图书馆的管理者角度看，是馆藏信息被窃取。

　　搜集网站信息的工具称为网络爬虫，顾名思义，其在互联网上工作，通过扫描网站获取想要的信息，是搜索引擎的重要组成部分[2]。某些专门针对文献资源的搜索引擎网站，它们不只获取各数字图书馆的文献卡片信息，还尝试获得原文下载路径。一旦一个数字图书馆的URL被放入网络爬虫的“沙盒”，则会受到某个网段的密集访问。从服务器管理的角度看，可以发现服务器上行(上传)流量非常大。图3是从网络安全设备中截取的一次信息泄露攻击的详情。

　　2风险应对策略

　　2.1加强用户管理

　　信息系统无论发展到何等智能程度，仍是受人控制、为人服务的，所以信息系统是否安全，要看与其相关的人是否有安全意识[3]。

　　以弱密码登录为例，经过查询，被记录为存在弱密码登录风险的用户名对应的密码都非常简单，长度不超过6位，且为纯数字组合。这样的密码若使用穷举法试探，很快即可破解，非授权用户将成为授权用户，可享用授权用户的下载权限和分析权限。

　　非授权用户的访问，也将对以用户浏览、下载记录为基础的用户行为分析造成负面影响。例如非授权用户只获取了汽车方面的创新信息，而授权用户的研究对象为石油化工，当数字图书馆的管理人员查看用户浏览记录分析图表时，会看到错误的结果并产生错误的引导。对用户行为的分析，不仅是数字图书馆营销人员制定策略的依据，更会影响到数字图书馆次年采购资源范围的界定。如果数字图书馆管理人员对用户的研究内容进行了错误估计，未来用户可能找不到需要的资源，用户体验将大大下降。

　　简单的初始密码很容易被黑客破解，新用户应在规定时限内修改初始密码;为防止密码泄露，老用户应定期修改密码并使之满足复杂度的最低要求，如必须包含数字、字符、英文字母，长度不少于12位;作为电子图书馆管理者，应尽提醒义务[4]。

　　2.2充分利用防火墙

　　防火墙从应用层次上可分为网络防火墙和应用防火墙两类，也有新型的防火墙将两者合二为一，称为七层防火墙。当发现某个IP对数字图书馆进行轰炸式访问时，应进一步确定是否来自授权用户，若不是，可以利用网络防火墙进行隔离。首先，查询此IP是否与某个用户绑定，如果可以找到对应用户，通过电话、邮件询问确认是否为用户本人行为;其次，将IP访问时间与数字图书馆后台日志对照，查出当前的在线用户，从而排查不安全账户。在实际操作中，笔者发现，数字图书馆后台日志中有可能查询不到此IP信息，主要有以下原因：一是该用户只进行了检索而未下载，因为一般检索和查看卡片页无须登录用户名;二是数字图书馆后台中的用户认证模块失效，造成一段时间内所有用户均无需登录即可下载文献。

　　由于网络防火墙作用的层次比应用防火墙低，只需分析数据包头即可判断处理方式，效率更高。应用防火墙要解读数据包，比对判定规则，确认攻击类型，然后作相应处理。如果是针对应用层的攻击，如针对某版本的IIS、Tomcat攻击，或针对操作系统漏洞的攻击，建议利用应用防火墙对其进行阻断。

　　2.3定期进行日志分析

　　为防止电子文献被非法获取，从服务器日志上发现不正常访问的端倪，在产生破坏性的影响之前将其阻止，比事后弥补更有意义。如上文中提到的失败的安全审核记录，以及应用软件如IIS频繁的报错记录都可以成为判断依据。

　　从安全审核日志中可以获得来访者IP，如果不在数字图书馆的服务地域范围内，可作进一步分析：如果来访IP集中在同一网段内，很可能是僵尸网络感染程序，可以考虑将整个网段隔离;如果来访IP固定为几个，其中一个访问次数较少，但是一旦其到来之后，随后其它几个IP则对数字图书馆展开猛烈攻击[5]，这样的一组IP只需阻止第一个IP即可，它在攻击中担任试探作用，如果其不来，攻击则不会发生。

　　建议服务器管理员对数字图书馆所在的Web服务器至少每周进行一次日志分析，首先可以排除服务器软、硬件故障;其次，根据本文方法，也可以阻止被搜索引擎扫描以及信息泄露。

　　3结语

　　电子文献作为宝贵的文献资源的电子化存在形式，确保其安全保存、合理利用具有深远意义。基于电子文献资源的数据库，可以进行引证分析，对科研院所及学术研究个人进行科研能力评估，以及产业发展趋势预测等。电子文献数据的完整、规范、安全是下一步进行数据挖掘的基础，应得到重视。

　　作者：丁梅来源：软件导刊 2016年2期