摘要:通过仔细分析html标签的各种性质,提出了几种新的基于标签的隐藏信息的方法。在此基础上,提出并实现了一个基于html标签的信息隐藏模型。该模型具有隐藏容量高、隐蔽性、鲁棒性和安全性较好,并且具有弹性,能自动调节隐藏算法的参数,使得在满足容量的前提下,尽量提高隐蔽性。
关键词:超文本标记语言;信息隐藏;数字水印;模型;标签;文本
随着电子图书版权保护、电子商务和电子政务中对电子公文的认证和保护的迫切需求,在文本中嵌入信息或水印的研究正受到重视。根据文本的作用,文本可分为:普通文本,如.txt文档、word文档或pdf文档等;特殊文本,如html中的标签、c语言源程序的语句。这些文本其作用是供浏览器解析或cpu执行的。目前针对word、pdf等普通文本,提出了很多隐藏信息或水印的方法,主要有:①替换法[1,2],如字符替换、单词替换、句子结构替换;②改变格式法[3~5],通过改变格式特征如字体、字号、颜色、字间距或行间距等进行信息隐藏;③基于语义的方法[6];④基于二值图像的方法[7];⑤插入空白符合法[8]等。利用/english/">英语片段,则可以根据26个字母的概率分布,对各字符进行huffman编码;如果嵌入的是图像则进行jpeg压缩处理;对于有些秘密信息,如中文字符串或已经压缩的图像,则不进行压缩预处理。
保证只有合法接收者能够提取隐藏信息是非常重要的,采取的措施是对压缩后的数据进行加密处理,可以根据安全性的需求选用经典的或目前广泛使用的加密技术。wwW.133229.coM在该实验中,选用的是32位密钥长度的des加密。密钥必须通过另外的安全信道传递给接收方。
本文原文
为了具有一定的鲁棒性,模型中对加密后的数据要进行纠错编码,以防即使一部分数据受到攻击也能提取出隐藏的信息。如果嵌入的是短文本,则可以使用简单的三次重复编码,例如,要嵌入的信息是01011,则重复编码的结果是000111000111111;但是如果嵌入的文本较长,则可以采用(7,4)汉明码以便有足够的嵌入空间;如果嵌入的是图像,则可以不进行纠错编码,因为图像中即使有部分数据错误也不会有太大关系。如果容量够的话,在嵌入之前,要对纠错编码后的数据复制一份,即使得最后嵌入的数据是两份。
在嵌入数据之前,还要分析载体网页的隐藏容量,并与嵌入信息的容量进行对比,以便确定合适的隐藏算法参数。接下来,可以根据嵌入的位置逐位地进行嵌入。
3.2模型性能分析
首先,在提高隐藏容量方面,模型采用了三方面的措施:①对隐藏信息进行压缩预处理;②综合采用前面的多种隐藏方法;③修改隐藏算法的参数。
通过压缩预处理,可以使隐藏容量大大提高。例如,普通英文文本,采用ascii码,每个字符需要8 bits表示;如果采用huffman码压缩,则可能作到平均每字符2 bits左右。
几种主要的隐藏方法的隐藏比是差不多的,因此,通过综合运用多种隐藏方法可以大大提高隐藏容量。例如综合运用方法1和2是单独使用方法1或2的容量的两倍左右。综合运用所有方法的隐藏容量是隐藏容量最高的方法的四倍以上。
修改隐藏算法的容量参数也是提高隐藏容量的好办法。对于字母大小写替换法,如果平均每个标志符的长度为n,则采用每个字母的大小写均修改的办法,可以将隐藏容量提高到原来的n倍。
在提高隐蔽性方面,模型使用两种策略:①仔细选用隐藏算法的参数,在满足隐藏容量的要求下,调整隐藏参数,以增强隐蔽性,如尽量使插入的空格数少,尽量使字母的大小写变换的频度减少。②随机选择嵌入位置,而不是从头至尾连续嵌入。嵌入位置是通过随机发生器产生。这里的随机种子就是加密密钥。
在鲁棒性方面,模型采用了两种策略,即对小信息嵌入时进行重复嵌入和进行纠错编码。
在安全性方面,本文使用了加密策略,即在对隐藏的信息进行压缩后进行加密处理,加密的结果再送到纠错编码模块。
4系统实现
本文对待隐藏的信息封装成帧。格式如下:
(10)使用基本的算法容量参数,逐个使用表1中方法在(9)所确定的标签中,按顺序隐藏数据帧中的帧头;隐藏完帧头后,按照(6)中确定的算法容量参数,逐个使用表1中方法在(9)所确定的标签中,按顺序隐藏数据帧中的数据比特流。
(11)如果数据帧中尚有未隐藏的bit,则重复上面的(9)和(10),直到隐藏完为止。
从网页中提取隐藏信息的过程正好相反。为了使得接受方在收到帧头前,能够使用合适的算法容量参数解隐藏,故约定对帧头采用基本的容量参数进行隐藏和解隐藏。对帧头采用基本容量参数也可
提高帧头的隐蔽性,以防攻击。
图2(a)是载体网页——广东水电学院的首页,右上是使用模型隐藏了文字“happy new year”后的html片段。可以看出此时的隐蔽性很好,几乎看不出html文本有什么特别。图2(b)是秘密信息lena图像,大小是2 kb,即16 000 bits,由于隐藏的数据量较大,故需要将所有隐藏方法的容量参数调节到最大,并且不进行重复隐藏。右边是隐藏lena图像后的html代码片段,可以看出,此时的隐秘性下降。
实验证实,对于局部的html代码使用删除空格或标签字符大小写随机替换的攻击,有较好的抗攻击性能。这是由于,对于小信息量的隐藏采用了纠错和重复隐藏措施并且隐藏的位置是随机的;而对于图像隐藏,则由于图像本身具有一定的容错性。
5结束语
本文首先介绍利用html隐藏信息的研究情况;然后提出一些新的可行的基于html标签的信息隐藏方法,并在此基础上给出一个基于html标签的信息隐藏模型。该模型由于是基于标签,其隐蔽性较好。该模型综合了基于标签的多种隐藏方法,具有较大的隐藏容量;同时,该模型还具有纠错、加密等容错和安全措施。该模型是一个基于html信息隐藏的较好的解决方案。基于文本的信息隐藏算法的一个很难克服的问题是鲁棒性不如图像等载体,不过,信息隐藏更关心的是容量、隐蔽性和安全性,而且html网页是保存在服务器上并通过网络传递到用户的浏览器的,敌手要改变网页还需要克服其他安全屏障。该基于html标签的算法和模型还是很有实用价值的。
参考文献:
[1]肖湘蓉,孙星明.基于内容的英文文本数字水印算法设计与实现[j].计算机工程,2005,31(22):29-31.[2]眭新光,罗慧.一种安全的基于文本的信息隐藏技术[j].计算机工程, 2004,30(19):104-105.
[3]曹卫兵, 戴冠中, 夏煜,等.基于文本的信息隐藏技术[j].计算机应用研究,2003,20(10):39-41.
[4]刘豪,孙星明,刘晋飚.基于字体颜色的文本数字水印算法[j].计算机工程,2005,31(5):129-131.
[5]刘玉玲,孙星明.通过改变文字大小在word文档中加载数字水印的设计与实现[j].计算机工程与应用,2005(12):110-112.
[6]mikhail atallah j, victor r, christian f h.natural language watermarking and tamperproofing:proc.of the 5th international information hidingworkshop[c].berlin:[s.n.],2002:196-212.
[7]王欣,张旭东.一种针对汉字文本图像的数字水印技术[j].计算机工程与应用,2005(25):57-60.
[8]白剑, 徐迎晖, 杨榆.利用文本载体的信息隐藏算法研究[j].计算机应用研究,2004,21(12):147-148.
[9]eric c.hiding in plain sight:steganography and the art of covert communication[m].[s.l.]:wiley publishing inc,2003.
[10]眭新光,罗慧.一种新的基于超文本的信息隐藏方法[j].计算机工程,2005,31(12):136-138.[11]long d, jia w,li ming.optimal maximal and maximal prefix codes equivalent to huffman codes:proceedings of 2002 ieee international conference on acoustics, speech, and signal processing (icassp)[c].[s.l.]:[s.n.],2002:2525-2528.