逻辑回归原理的基本概念
1.什么是逻辑回归?
Logistic回归是这样一个过程:面对一个回归或分类问题,建立代价函数,然后通过最优化方法迭代求解最优的模型参数,然后对我们求解的模型的质量进行检验和验证。
Logistic回归其实是一种分类方法,虽然名字叫“回归”。主要用于两个分类问题(即只有两个输出,分别代表两个类别)。
在回归模型中,Y是一个定性变量,如y=0或1。logistic方法主要用于研究某些事件发生的概率。
2.逻辑回归的优点和缺点
优势:
1)速度快,适用于二分类问题。
2)简单易懂,直接看到每个特征的权重
3)模型可以容易地更新以吸收新数据。
缺点:
对数据和场景的适应性有限,不如决策树算法强。
3.逻辑回归和多元线性回归的区别
逻辑回归和多元线性回归其实有很多共同点。最大的区别是它们的因变量不同,而其他的基本相同。因此,这两个回归可以属于同一个家族,即广义线性模型。
这个家族中的模型除了因变量不同之外,在形式上基本相似。这个家族中的模型除了因变量不同之外,在形式上基本相似。
如果是连续的,就是多元线性回归。
如果是二项分布,就是Logistic回归。
如果是泊松分布,就是泊松回归。
如果是负二项分布,就是负二项回归。
4.逻辑回归的使用
寻找危险因素:寻找某种疾病的危险因素等。;
预测:根据模型,预测不同自变量下某种疾病或情况发生的概率;
辨别:其实和预测差不多。也是基于模型来判断某人属于某种疾病或情况的概率,也就是看这个人属于某种疾病的可能性有多大。
5.回归的一般步骤
寻找H函数(即预测函数)
j函数(损失函数)
尝试最小化J函数,得到回归参数(θ)。
6.构造预测函数h(x)
1)逻辑函数(或Sigmoid函数),其函数形式为:
_
_
对于线性边界的情况,边界形式如下:
_
训练数据是一个向量。
_
最佳参数
_
预测函数是:
_
函数h(x)的值具有特殊的含义,它表示结果为1的概率。因此,对于输入x,将结果分类到类别1和类别0的概率是:
p(y = 1│x;θ)=h_θ (x)
p(y = 0│x;θ)=1-h_θ (x)
7.构造损失函数J(m个样本,每个样本具有N个特征)
代价函数和J函数如下,基于极大似然估计导出。
_
8.损失函数的详细推导过程
1)找到成本函数
概率被组合并写成:
_