摘 要:信件作为犯人和家人联系的重要途径,长期以来受到严格的管制。该文主要讨论了如何更人性化、自动化的实现信件的审阅,在保证改造过程顺利进行的前提下,更好的尊重服刑人员的隐私权。智能化的方法在提高工作效率的同时节省了人力。
关键词:通信自由;书信审查;智能算法
通讯自由与通讯秘密是宪法赋予每一个公民的基本权利,,《监狱法》中规定服刑人员信件应受到检查,即限制服刑人员通信自由与通信秘密与《宪法》规定的公民通信自由权存在冲突,单纯的依靠法律知识难以解决是否以及如何对服刑人员书信进行审核的难题。
1.传统的书信审查制度存在的问题
《监狱法》在服刑人员服刑期间通信方面作了特别规定:“罪犯在服刑期间可以与他人通信,但是来往信件应当经过监狱检查。监狱发现有碍罪犯改造内容的信件,可以扣留。罪犯写给监狱的上级机关和司法机关的信件,不受检查”。《宪法》第13条规定,公民的合法的私有财产不受侵犯。国家为了公共利益的需要,可以依照法律规定对公民的私有财产实行征收或者征用并给予补偿。宪法规定的公民通信自由与通信秘密包括两方面内涵:一是通信自由,公民在与他人交往中,通过信件、电话、传真、电子邮件等形式表达自由意愿的自由,任何组织和个人不得非法干涉;二是通信秘密,指公民与他人的通信内容,任何组织和个人不得窃听、偷看、传播,或以非法方式获取。两者结合起来构成了完整的通信自由权。《监狱法》的“限制规定”与《宪法》“前提”不相吻合[1]。第一,宪法并未授予监狱机关检查信件的权力,即主体资格不能成立。第二,“有碍改造”作为扣留信件理由不充分,与立宪目的也不符。第三,检查手段缺乏宪法及现实合理依据。。纯粹从法律的角度去解决此问题困难重重。引进监测仪,以一种更加科学、准确、高效的手段解决此问题势在必行。
2.垃圾邮件处理带来的启示
在因特网的各种服务中,电子邮件是最基本的服务之一。一般来说,凡是未经用户许可就强行发送到用户的邮箱中的任何电子邮件就称为垃圾邮件。 垃圾邮件一般具有批量发送的特征。其内容包括赚钱信息、成人广告、商业或个人网站广告、电子杂志、连环信等。人们在享受电子邮件提供的便利的同时,也在受到垃圾邮件的困扰[2]。中国互联网协会反垃圾邮件中心在年月日发布的《年第四次中国反垃圾邮件状况调查报告》显示,中国互联网用户平均每周收到垃圾邮件16.71封,已经连续多次超过了正常邮件的数量。大量的垃圾邮件不仅占用了网络传输带宽,影响正常网络通信,更浪费了人们的时间和精力。对垃圾邮件的过滤方法得到了普遍的关注。
目前主要的垃圾邮件过滤技术有3类:1 基于域名和路由等的过滤技术:包括黑白名单、实时黑名单、反向域名检测等技术;2 基于行为的过滤技术:包括过滤群发、流量监控、挑战回应和蜜罐技术等; 3基于内容的过滤技术:包括规则(集)匹配、朴素贝叶斯、支持向量机、近邻法、最大熵值法等。基于内容的过滤技术是目前垃圾邮件过滤技术应用的主流,即通过对邮件内容的判断,来确定是否为垃圾邮件。
基于内容的垃圾邮件处理的理论基础来源于文本分类技术,一个文本(以下基本不区分“文本”和“文档”两个词的含义)分类问题就是将一篇文档归入预先定义的几个类别中的一个或几个,而文本的自动分类则是使用计算机程序来实现这样的分类。文本分类是用电脑对文本集按照一定的分类体系或标准进行自动分类标记,与文本分类相近的概念是文本聚类。文本聚类是指,由机器将相似的文档归在一起。与文本分类的区别在于,文本分类是监督学习,类别是事先规定好的,文本聚类是无监督学习,由计算机把类似文本归在一起,事先并不划定好类别。文本分类基本方法可以归结为根据待分类数据的某些特征来进行匹配
计算机并不认识文档,因此首先就要设法如何转化一篇文档为计算机所接受,转化方法要与文本有对应关系。对于计算机文本分类而言,这是最重要的步骤。
文本分类和垃圾邮件领域知识的成熟为信件的智能化处理提供了理论基础,相关方法的尝试必定会使长期以来困扰的书信问题得到解决。
人工智能是一门很年轻的新兴学科,但其应用的领域却十分广泛,包括问题求解、模式识别、符号运算、自然语言理解、智能检索、机器证明、专家系统、机器人学等几个方面。以下着重介绍其中的四种。
(1)问题求解
问题求解是人工智能研究的一个重要方面。人工智能的许多概念,如:归纳、推断、决策、规划等都与问题求解有关。
(2)专家系统
专家系统是一个智能计算机程序系统,其内部含有大量的某个领域专家水平的知识与经验,能够利用人类专家的知识和解决问题的方法来处理该领域问题。也就是说,专家系统是一个具有大量的专门知识与经验的程序系统,它应用人工智能技术和计算机技术,根据某领域一个或多个专家提供的知识和经验,进行推理和判断,模拟人类专家的决策过程,以便解决那些需要人类专家处理的复杂问题,简而言之,专家系统是一种模拟人类专家解决领域问题的计算机程序系统.
(3)机器学习
机器学习(Machine Learning)是研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。机器学习的研究,主要在以下三个方面进行:一是研究人类学习的机理、人脑思维的过程;二是研究机器学习的方法以及建立针对具体任务的学习系统[3]。
(4)模式识别
模式识别(Pattern Recognition)是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程,是信息科学和人工智能的重要组成部分。模式识别又常称作模式分类,从处理问题的性质和解决问题的方法等角度,模式识别分为有监督的分类(Supervised Classification)和无监督的分类(Unsupervised Classification)两种
3.智能化的书信审查方法
智能化的书信审查方法涉及到了计算机的多个研究领域,具体的实现方法如下:
(1)信息识别。即如何把服刑人员手写的内容转化了计算机能够识别的信息。
这是模式识别领域的一个课题。模式识别(Pattern Recogn
ition)是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程,是信息科学和人工智能的重要组成部分,它可以识别字符、字母、公式等多种信息。每个人的笔体不一样,识别的效果也就有差异。
(2)分词。对于中文文本而言[4],因为词与词之间没有明显的切分标志,所以
首先需要对中文文本进行分词。现在的分词方法虽然有多种,但归纳起来不外乎两种:一类是机械式分词法,一般以分词词典为依据,通过文档中的汉字串和词表中的词逐一匹配来完成词的切分。另一类是理解式分词法,即利用汉语的语法知识和语义知识以及心理学知识进行分词,需要建立分词数据库、知识库和推理库。后者可谓是理想的方法,但在语法分析、语义分析乃至篇章理解还没有得到解决之前,其分词系统主要采用机械分词法,或者介于二者之间的某种分词方法。
(3)特征选择。一封信件经过预处理后即被表示为一个特征空间[5],但此特征空间的维数必然很大,如果直接在此基础上进行分类,将对分类造成很大的负担,因此必须在分类之前对特征空间进行维数约减,保留下对分类贡献最大的那些特征。如“的”、“非常”等一些词就会略去,因为它们对文本分类的贡献非常小。所谓特征选择就是从特征集中选择一个真子集,满足<<。其中,为原始特征集的大小,为选择后的特征集大小。选择的准则是特征选择后能有效提高文本准确率。选择没有改变原始特征空间的性质,只是从原始特征空间中选择了一部分重要的特征,组成一个新的低维空间。
(4)文本分类算法。选择朴素贝叶斯算法作为分类算法。
贝叶斯分类器是将贝叶斯定理应用到文本分类领域,通过计算属于各个类别的概率,将文本归为概率最大的一类。算法描述如下:
1、每个书信样本用一个维特征向量表示,分别描述对个属性样本的个度量,每个关键字为1个度量。
2、和两个类分别代表正常信件和问题信件。样本属于某个类的概率为:
(1)
式(1)表示在给定文档的条件下,属于类别的概率(称为后验概率)。所以对文档分类的问题就转化为计算的值,使取得最大值的那个类别就是所属的类别。
假定特征项间条件独立,即属性间不存在依赖关系,即假设每个特征变量在给定类别变量下都是独立的。
(2)
4.其他可供选择的过滤方法
支持向量机(SVM)是构建在统计学习理论基础上的新的学习方法,它的优越性主要表现在: 1)它是针对小样本空间进行优化的算法,而不是针对无限样本优化算法;2)算法将原始问题转换成为一个对偶优化问题,这样可以有效得避免象神经网络一样获得局部最优解,而获得全局最优解;3)算法将原始问题映射到新的高维空间下,这样在原始空间下非线性问题在新的特征空间下变换为线性问题;4)由于算法是构建在结构风险最小化原则基础上,而非经验风险最小化原则上。支持向量机主要是用来处理二类问题的。在原始数据空间中,如果存在一个线性函数无错误的把数据分开,那么称该数据集完全线性可分;如果存在一个线性函数可以以低错误率把数据分开,则称该数据集是近似线性可分;如果存在非线性函数把数据集分开,则称该数据集非线性可分。
基于支持向量机的垃圾短信过滤方法。该方法依据短信内容作为出发点,利用支持向量机算法对短信文本进行分类识别,进而完成对垃圾短信的过滤。核心思想为认为新建分为两种可能及合格与不合格,利用支持向量机的二类分类特性进行分类。
聚类方法可以从某些角度去解决此问题。将物理或抽象的集合分组成为由类似的对象组成的多个类的过程称为聚类。由聚类所生产的是一组数据对象的组合,这些对象与同一个簇中的对象彼此相似,与其它簇中的对象相异。在许多应用中,可以将一个簇的数据对象作为一个整体来对待。
聚类分析与分类不同,它要划分的类别是未知的。聚类分析源于许多研究领域,包括数据挖掘、统计学、生物学、以及机器学习。它在很多方面有着广泛的应用。核心思路为将新建数据分成两类。
5.结论
本文尝试通过计算机当中模式识别和机器学习中文本分类的知识解决服刑人员书信审查的问题。从计算机的角度解决此问题对于监狱信息化、科技化有着深远意义。文中的贝叶斯算法只是众多算法中的一种,对于不同的数据不同的算法有着不同的效果,鉴于本文描述文本即书信性质的特殊性,哪种算法更适合尚待论证。
参考文献:
[1]温泽彬。 服刑人员信件检查的宪法分析 [J],西南政法大学学报; 2008年03期。
[2]张付志,伍朝辉,姚芳。基于贝叶斯算法的垃圾邮件过滤技术的研究与改进[J]。燕山大学学报,2009,33(1):47-52.
[3]卢妙娜, 王润。人工智能综述[J],电脑学习,2010,4(2):3-4.
[4]卢扬竹,张新有,祁玉。件过滤中特征选择算法的研究及改进[J]。计算机应用,2009,29(10):2812-2815。
[5]强永妍。中文垃圾邮件的索引分词法的研究与设计[J]。计算机应用,2007,27(9):2334-2336.
2011年中央司法警官学院院级科研项目成果,项目编号XYY201106,课题组成员:王晶,吴树芳,杜婉音,朱杰。