在设计计算机实时互联网信息过滤系统中,优化设计系统工作,不仅可以提升过滤系统中分词算法准确性、文档语义理解正确性以及关键字校正效果,也可以有效提升计算机网络实时互联网信息过滤效率,提升互联网实时不良信息过滤效率,发挥积极应用价值.本文则对计算机实时互联网信息过滤系统设计展开探讨。
基于当前计算机技术的发展,互联网实时不良信息日益增多,设计计算机实时互联网信息过滤系统,能够从分词算法、文档语义、关键字方面,准确过滤实时互联网信息,不仅可以确保计算机实时互联网信息安全,也可以提升互联网信息过滤系统性能,发挥积极影响。以下对此做具体分析。
一、计算机实时互联网信息过滤系统的设计需求
设计计算机实时互联网信息过滤系统,对计算机实时互联网信息的内容进行审查,能够对含有不良、敏感等情况的内容,发现并进追查,充分利用互联网信息过滤系统,进行自动检查【1】。计算机实时互联网信息过滤系统设计中,能够对于日益复杂的网络事务处理,确保完成服务器端的工作,科学合理的运用算法去过滤这些实时不良信息。确保计算机实时互联网信息过滤处理的准确性,对于处理的信息做一定的规范,算法能够准确处理这些要处理的规范,其次是速度问题,对于大量信息的处理,效率的问题表现在所用时间
对于计算机实时互联网信息,由于其具有未知性,因此一定要确保系统设计中具备较好的拓展性,以便可以在今后对系统进行拓展设计,满足系统设计需求。网络带宽方面,按照每次调用的数据量为30K计算,那么全国31个省都调用总局的接口,每秒最多占用的宽带为18M,确保系统对计算机实时互联网信息的过滤速率,满足实际需求。
二、计算机实时互联网信息过滤系统的设计方法
(一)系统总体结构
对于该系统设计中,由于互联网上各网页均采用实时动态发布技术,互联网上的数据非常庞杂。因此,在设计计算机实时互联网信息过滤系统中,可以及时检测收集互联网实时信息,并将其传输给系统功能实现模块,对不良实时互联网信息进行过滤,并将过滤后的安全信息显示到互联网中。
(二)系统功能设计
对于该系统设计中,对于计算机实时信息互联网过滤过程中,确保该系统具备多种功能,能够建立敏感知识库模块、维护敏感词知识库模块、敏感信息过滤计算模块、敏感信息过滤接口开发模块以及敏感信息过滤日志模块,有效完善系统对实时互联网信息过滤的功能。
建立敏感知识库:实时互联网敏感知识库由满足过滤需要的敏感词汇构成。敏感词库的建立可以共享国家互联网中心、公安部门等权威部门的数据,也可以通过积累及敏感信息特征构造等产生。在特征构造时需对敏感知识归一化处理,注意包括相近的、拆分的或者加拼音等词汇以及一些繁体字和自造字,比如对 “三去车仑工力”、“法伦功”、“法lun功”、“珐论功”等要统一转化为“法轮功”【2】。同时,需要对敏感知识库应进行分类整理,具体可以分政治敏感性、违法信息、广告宣传等类,比如:
政治敏感信息包括:涉国家安全的实时互联网敏感信息,涉国家领导人、集会游行、64事件、法轮功、台湾等。
违法信息包括:违反国家法律、产生社会危害的信息,如枪支、毒品买卖信息,提供色情、赌博服务的信息等。
此外,实时互联网敏感知识库的建立还必须要求能够具有自动识别功能,根据用户选择对误判或漏判词汇和特征的构造,智能识别敏感词汇,并将其自动加入敏感知识库。也可以根据实际进一步细分,比如违法信息细分成黄色、赌博、毒品等等。
维护敏感词知识库:实时互联网敏感词知识库应该是个动态的数据库,应根据需要实现自动更新和手动维护。实现对敏感知识库的可视化管理,能够分类浏览实时互联网敏感词库和其相近的词汇,支持单条和批量敏感词汇的增加、删除、修改操作【3】。此外,还可以支持通过计算机程序进行实时更新或定期手动更新,实现批量多条记录的增加、删除、更新操作。
敏感信息过滤计算:需要设计算法对实时互联网敏感词汇过滤计算。在对敏感信息过滤时,首先需要对过滤的内容进行预处理,其次根据敏感词汇的类型对敏感内容进行过滤计算。
(三)实时互联网信息过滤算法
计算机实时互联网信息过滤系统设计中,能够从分词算法、文档语义、关键字方面,提升系统对不良实时互联网信息的过滤效率。
1)分词算法:
建立停用词表,在这里面包括一些汉语中的常用词汇,对于这些常用词汇,也往往包括一些辅助词,确保其能够在许多文档信息中都可以大量出现,确保不能用可以描述文档特征的词汇,同时,也不能理解文档信息。这样的分词,可以确保系统过滤信息的正确性,为提升系统性能,将会产生极大影响。其次,就可以互联网文档中,搜寻出现的过滤关键词,并能够将其提取出来。
最后,可以先从文档读取出两个字符,搜寻文档中是否存在相同文档字符;就可以去根据这个假设,从而能够去预先的设定一个词语频率阀值,以此可以来对互联网文档中该该出现的次数进行分析,将次数少的词语进行剔除操作。该方式,可以避免在过滤系统数据过程中,导致稀有词对系统信息过滤带来的干扰。
2)文档语义算法:
能够将一篇文档表示为一个形成向量的过程,可以在形成成时,提取出在文档之中的特征项信息,从而将其构成一个文档向量,达到过滤实时信息的目的。可以对得到的文档语义特征项列表进行相关排序,然后可以通过特征项标识、权重等,生成该文档的向量模型,从而能够在系统中,以文档语义内容去过滤存在与实时互联网中的不良信息。
3)关键字算法:
采用“关键词组抽取(Extractorke)”算法,结合相关概率统计的方法,实现对实时互联网信息中文本关键内容的提取过滤【4】。
(四)互联网实施信息过滤处理
在该系统设计中,能够运用SPIDER系统,可以获取在网页源文件中的数据信息,并可以进一步去分析超链接中的递归扫描,可以根据其指定范围,确保有效的互联网过滤信息可以保存到网页资源库中。能实现可视化的配置扫描,附加实时信息的筛选、加信息过滤条件、能够进行最深层数的信息过滤[5]。并且,还可以进行各类JavaScript的特殊解析,剥离出互联网实时用户所需信息,对互联网信息中的标题、正文、以及作者等内容进行分析。建立系统模块内部过滤处理方法doFilter(),其信息过滤处理流程如下:
开始--遍历信息并查找目的信息--替换目的信息--结束
具体代码为:
public String doFilter(String str) {
//process the html tag <>
String r = str.replace('<', '[')
.replace('>', ']');
return r;}
(五)系统信息过滤测试
设计计算机实时互联网信息过滤系统,可以有效过滤在计算机中实时互联网中的不良信息,对于涉及敏感问题、敏感关键字、敏感信息的相关内容,均可以被系统过滤掉,不再互联网中显示。
三、效益分析
在计算机实时互联网中,每时每刻都存在着海量数据信息,对于这样庞杂无序且来源异构的信息过滤过程中,设计出计算机实时互联网信息过滤系统,有助于过滤计算机实时互联网不良信息。计算机实时互联网信息过滤系统中,对计算机实时有害信息的过滤产生良好的支持,较之前系统信息过滤效率比较提升8.0%,能够有效过滤计算机互联网实时有害不良信息。对于计算机实时互联网信息过滤系统中,有助于实现互联网信息过滤,具有很好的过滤效率,在实际运用中可发挥积极效益。总之提出计算机实时互联网信息过滤系统在实际中具有重要应用价值。
作者:翟辰 来源:中国科技博览 2016年8期