一种基于粗糙集的兼类词词性自动校对技术创新

　0 引言
　　兼类词是指具有两种或者两种以上可能性的词，其在语料中出现的频率很高，加上人们对兼类词的理解存在歧义，使得对兼类词的理解成为当前研究的热点。近年来，国内许多家单位都在进行中文信息处理、计算机自动校错方面的研究，并取得了一定成果[1]。吴晶晶等[2]提出了一种快速中文分词机制：双字词—长词哈希机制，通过提高单双字词的查询效率来实现对中文分词机制的改进。乔维等[3]提出了一种基于最大间隔Markov网络模型（M3N）的中文分词和命名实体识别一体化方法。沈勤中等[4]根据字的构词能力和字位置概率特征，提出了基于字位置概率特征的条件随机场中文分词方法。李国和等[5]提出了一种基于最大匹配和奇异检测的中文分词粗分方法。珠杰等[6]根据文本自动校对框架和连续关系检查算法提出了一种藏文文本自动校对方法，刘亮亮等[7]根据中文的错误类型和原因提出了一种基于领域问答系统用户问题日志的错别字自动发现方法，该方法对分词中的多字词和合并的串进行相似词串聚类，从而自动获取错别字对。
　　1 问题提出
　　自然语言中，经常存在着词类歧义，但词类歧义仅限于文本，在日常生活中，人们一般不会产生理解上的偏差。人们可以利用真实语言环境的上下文关系来消除词类歧义。在自然语言中，兼类词的词性根据上下文关系而确定，比如兼类词“安定”，在不同的语言环境中所表示的词性不同，它具有名词、动词和形容词3种词性。①形容词：全世界华侨需要一个（安定）的生活环境；②动词：实现中国梦，首先需要（安定）人民的生活；③名词：伊拉克百姓只想求（安定），不想打仗。
　　通过文本上下文的语言环境关系，可以确定兼类词的词性，但是目前对兼类词的校对技术并没有完全成熟，校对的正确率和质量并不高。本文利用数据挖掘的思想，提出并实现一种基于粗糙集的兼类词自动文本校对方法。该方法能够正确标注语料中挖掘、自动获取兼类词词性标注校对规则，可提高兼类词的词性校对标注的准确率。
　　2 约简决策表构建
　　粗糙集理论由波兰科学家Z.Pawlak提出，经过长时间的研究和完善，粗糙集理论在决策支持、模式识别、字符识别等人工智能领域得到了广泛应用。
　　一个完整的决策表条件属性众多，本研究只需要其中某些条件属性，因此在建立决策表时，采用了约简的方式。约简的决策表具有相同的功能，但是结构更为简单。
　　设R是等价关系的一个族集，P是关系族集R的一个约简，则P定义如下：
　　后已经构成了决策表的简化，但其中还包含了一些不必要的条件，因此还可以对表2的决策表作进一步的约简操作。针对每个决策规则，删除表达该规则的冗余属性值即可。最终约简决策表如表3所示。
　　实验结果表明，本文所提出的方法具有较高的召回率和准确率。
　　7 结语
　　本文根据基于规则的文本分词及校对算法的不足，提出了一种基于粗糙集的兼类词词性标注校对方法。该方法使用了粗糙集理论的思想，对决策表进行优化并删除冗余项，目前是通过规则间的相似性度量来判断是否保留对应的规则。实验证明，该方法的查准率和召回率较高。
　　参考文献参考文献：
　　[1] 潘昊，颜军.基于中文分词的文本自动校对算法[J].武汉理工大学学报，2009（2）：1820.
　　[2] 吴晶晶，荆继武.一种快速中文分词词典机制[J].中国科学院研究生院学报，2009（9）：704705.
　　[3] 乔维，孙茂松.基于M～3N的中文分词与命名实体识别一体化[J].清华大学学报：自然科学版，2010（5）：758762.
　　[4] 沈勤中，周国栋.基于字位置概率特征的条件随机场中文分词方法[J].苏州大学学报：自然科学版，2008（3）：4950.
　　[5] 李国和，刘光胜.基于最大匹配和奇异检测的中文分词粗粉方法[J].北京信息科技大学学报：自然科学版，2010（12）：8486.
　　[6] 珠杰，李天瑞.藏文文本自动校对方法及系统设计[J].北京大学学报：自然科学版，2014（1）：143144.
　　[7] 刘亮亮，王石.领域问答系统中的文本错误自动发现方法[J].中文信息学报，2013（5）：7980.