中文文本分类所涉及的关键技术主要有中文文本预处理技术、中文文本表示模型、特征选择、文本分类的评价方法等。文本分类流程图见图1。 (1)数据准备和预处理阶段 收集训练集和测试集,对文本进行预处理。文档分类首先需要解决的问题是训练文本集的选择,训练文本集的选择是否合适对文本分类的性能有较大影响。它应该能够广泛地代表分类系统所要处理的客观存在的各个文本类中的文本。一般而言,训练文本集应是经人工分类的语料库,目前在文本信息处理过程中,普遍认为选取词作为特征项要优于字和词组,如何有效地进行分词是文本预处理的重点。