此本来自自己硕士论文的综述部分。
FT-MIR在检测某特定物质时会根据该物质的官能键与官能团,产生属于该物质的特征波。研究表明在使用多自变量建立预测某物质模型的过程中,选出该物质特征波来作为自变量,不仅能提高模型预测的准确性,还能增强模型的稳定性(Leardi et al 2002, Zou et al 2010, Vohland et al 2014)。John等较早提出了特征选择主要分为两大类,第一类为过滤法,其是独立于预测变量的特征选择算法,并且单独度量各个自变量的重要性,过滤掉在数据分析中几乎没有用的特征;第二类为封装法,其是将所有自变量逐一添加或删除应用在某类算法中,根据模型结果找到最佳自变量组合(John et al 1994)。两者各有优缺点,过滤法速度快,但其不能根据建立模型的结果来分析自变量,而封装法能够结合建立模型准确性的结果来选择变量,但其计算量比过滤法大且有过拟合的风险(Saeys et al 2007)。但随后还出现了第三种嵌入法,其在算法构建中加入了特征波选择,与封装法类似,但其不能用于其他算法(只能适用筛选特征波的算法),优点在于比封装法降低了计算量(Saeys et al 2007)。所以比较合理的筛选光谱特征波方法是先使用过滤法缩小范围,再使用封装法或嵌入法筛选最终特征波。
定性判别分析(Discriminant Analysis)是在已知特征与类别的训练集上建立判别模型,再使用判别模型对已知特征与未知类别的新数据进行分类预测。 定性判别分析根据判别准则可分为Fisher判别、距离判别和Bayes判别。Fisher判别是将多维数据投影到某一个维度上,使各类的总体之间最大限度分开,再选择合适判别规则将新的样本分类判别。距离判别是先计算出已知分类的各类别的重心,再对未知类别的数据计算其与各类重心的距离,与某类重心距离最近则归于该类。Bayes判别是由先验概率计算出后验概率,再根据后验概率分布对新数据作出统计推断。 定量分析(Quantitative Analysis)是通过某类算法使自变量能够较为精确地预测因变量的一种回归方法,且因变量一般为连续变化的数据,其一般分为线性、广义线性与非线性三种。主要有:偏最小二乘法(Partial least squares, PLS),主成分分析-线性判别分析(PCA-LDA),决策树(Decision Tree, DT),人工神经网络(Artificial neural network,ANN),支持向量机(Support Vector Machine, SVM),K最近邻算法(K Nearest Neighbor, KNN),逻辑回归(Logistic Regression, LR),随机森林(Random Forest, RF)。这8中算法的理论部分请查看 机器学习 部分 11 与 12 篇。
定性判别模型的评价可使用混淆矩阵,混淆矩阵及其相关参数是最简单与最直观的评价指标之一,以二分类为例,混淆矩阵如表1-3,可基于混淆矩阵计算出判别模型的评价指标
推导出的参数有:
定量分析模型的评价指标主要有决定系数(coefficient of determination,R2 )和均方根误差(Root Mean Squared Error,RMSE),R2值越大表示模型越好(0≤R2≤1),RMSE越小表示模型越好(RMSE≥0)。 计算公式如下:
在不同数据集中,可分别计算出相应的R2与RMSE参数。在训练集中,其中公式(2)中n=样本数-主成分数-1时,全部数据建模的参数表示为校正R2C(Calibration coefficient of determination,R2C)与校正RMSEC(Root mean square error of calibration,RMSEC);当公式(2)中n=样本数-交叉验证时留出的样本数时,建模的参数表示为交叉R2CV(Cross-calibration coefficient of determination,R2CV)与交叉RMSECV(Root mean square error of cross-calibration,RMSECV);在测试集中,当公式(2)中n=样本数时,验证结果得到的参数为验证R2V(Validation coefficient of determination,R2V)与验证RMSE p (Root mean square error of validation,RMSEp)。