感知机 二分类二分类的线性分类模型,也是判别模型。目的是求出把训练数据进行线性划分的分离超平面。感知机是神经网络和支持向量机的基础。学习策略:极小化损失函数。损失函数对应于误分类点到分离超平面的总距离。基于随机梯度下降法对损失函数的最优化算法,有原始形式和对偶形式。K近邻法 K-nearest neighbor, K-NN 多分类和回归是一种分类和回归方法,有监督学习。在训练数据集中找到和新的输入实例最接近的K个实例,这k个实例的多数类别就是这个新实例的类别。三要素:K的选择,距离度量,分类决策规则。实现方法:kd树(二叉树)快速搜索K个最近邻的点。K值选择:反映了对近似误差和估计误差的权衡。交叉验证选择最优的K值,K小,模型复杂,K大,模型简答。朴素贝叶斯法 多分类 用于NLP朴素贝叶斯法是基于贝叶斯定理和特征条件独立假设的分类方法。首先学习输入输出的联合概率分布,然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。后验概率最大等价于0-1损失函数的期望风险最小化。是典型的生成学习方法,由训练数据求出联合概率分布,再求出条件概率分布(后验概率)。概率估计方法是:极大似然估计或者贝叶斯估计。基本假设是条件独立性决策树 decision tree 多分类,回归是一种分类和回归算法。包括三个步骤:特征选择,决策树生成和决策树的修剪,常用算法:ID3,C5,CART逻辑斯地回归和最大熵模型 多分类本质就是给线性回归添加了对数函数它的核心思想是,如果线性回归的结果输出是一个连续值,而值的范围是无法限定的,那我们有没有办法把这个结果值映射为可以帮助我们判断的结果呢。而如果输出结果是 (0,1) 的一个概率值,这个问题就很清楚了。我们在数学上找了一圈,还真就找着这样一个简单的函数了,就是很神奇的sigmoid函数(如下):逻辑回归用于二分类和多分类逻辑斯地分布是S型曲线最大熵模型:熵最大的模型是最好的模型。X服从均匀分布时候,熵最大最大熵模型的学习等价于约束最优化问题。对偶函数的极大化等价于最大熵模型的极大似然估计。模型学习的最优化算法有:改进的迭代尺度法IIS,梯度下降法,牛顿法,或者拟牛顿法支持向量机 二分类线性可分支持向量机利用间隔最大化求最优分离超平面。函数间隔