部分加密的PDF文件和本来就是由图片、扫描件生成的PDF文件转换成word格式后就是以图片形式存在的,要想把上面的文字信息提取出来,必须借助专业的文字识别软件,现在市面上文字识别软件很多。 文字识别软件将图象制作成点阵信息保存于字库,可以识别扫描图片上的文字和pdf文档上面的文字并且把这些文字转换为可编辑文字的公软件。 文字识别软件的功能: 自动锁定文字段落,自动计算行高,行间距,字间距,只需要大致给出范围即可; 附带字库建造工具,可以任意抓图,将图片建造成字库信息,供插件来调用; 字库建造工具附带穷举文字程序,可遍历操作系统中所有的字体字号,将其转换为所需要的字库; 支持颜色不纯,有所偏差的文字识别及字库建造; 支持数据库和文本2种类型的字库; 文字识别可支持模糊识别(只针对文本类字库)。