逻辑回归 - MLLearning

逻辑回归是一种机器学习分类算法，用于根据一些因变量来预测某些类别的概率。

面试题详解

什么是逻辑回归？

逻辑回归是一种广泛应用于统计学和机器学习的算法，主要用于处理分类问题，尤其是二元分类问题。虽然名为 “回归”，它实际上是一种分类算法。逻辑回归的输出始终在（0和1）之间，适合二元分类任务。值越高，当前样本被分类为 class=1的概率越高，反之亦然。

逻辑回归是一种统计模型，它将线性回归的结果通过 Sigmoid 函数映射到概率值。

模型的方程为：

\[ P(Y = 1|X) = \frac{1}{1+e^{-(\beta_0+\beta_1X_1+...+\beta_nX_n)}} \]

其中，$ P(Y = 1|X) $ 表示在给定 $X$ 的条件下，事件 $Y$ 发生的概率，$ \beta_0, \beta_1, ..., \beta_n $ 是模型参数，$X_1, ..., X_n $ 是输入特征。

aaa

下面是使用 Scikit-Learn 实现逻辑回归的一个案例。

from sklearn.model_selection import train_test_split
from sklearn import datasets
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# 加载乳腺癌数据集
cancer = datasets.load_breast_cancer()
X = cancer.data
y = cancer.target

# 分割数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 创建逻辑回归模型
logreg = LogisticRegression_Test(num_iterations=10000)

# 训练模型
logreg.fit(X_train, y_train)

# 预测
y_pred = logreg.predict(X_test)

# 评估模型
accuracy = accuracy_score(y_test, y_pred)
conf_matrix = confusion_matrix(y_test, y_pred)
report = classification_report(y_test, y_pred)

print('Accuracy:', accuracy)
print('Confusion Matrix:\n', conf_matrix)
print('Classification Report:\n', report)

逻辑回归和线性回归的区别和联系？

联系

逻辑回归实际上是在线性回归的基础上，通过引入一个非线性变换（Sigmoid函数），使其能用于分类问题。
两种模型都通过最小化损失函数（线性回归通常是平方损失，逻辑回归是对数损失）来估计模型参数。这个过程通常涉及到优化算法，如梯度下降。

区别

输出类型：线性回归用于预测连续的输出变量，而逻辑回归用于预测分类的输出变量（尤其是二分类）。
函数映射：线性回归直接对特征进行线性预测，输出一个连续的数值。而逻辑回归通过 Sigmoid 函数将线性模型的输出映射到0和1之间，输出的是一个概率值。
损失函数：线性回归使用均方误差作为损失函数来衡量模型性能，逻辑回归则使用对数损失函数。
适用性：线性回归适用于预测问题，如房价预测等，逻辑回归适用于分类问题，如判断邮件是否为垃圾邮件。

两者的主要区别在于它们的应用类型（预测连续变量还是分类）和输出（连续值还是概率值）。逻辑回归可以被看作是在标准线性回归的基础上，通过应用 Sigmoid 函数来完成分类任务。

aaa

逻辑回归的基本假设是什么？

任何模型都是有自己的假设，在这个假设下模型才是适用的。逻辑回归的基本假设是

数据服从伯努利分布。

伯努利分布是一个离散型随机分布，若成功，则随机变量取值1；若失败，随机变量取值为0。成功概率记为 p，失败则为 q = 1-p。 $$ f_x(x) = p^x (1-p)^{1-x} = \begin{cases} p & \text{if } x = 1 \ q & \text{if } x = 0 \end{cases} $$

逻辑回归通过 Sigmoid 函数将线性回归模型的结果映射到 (0, 1) 区间内，用以表示概率 p。

假设 $h_\theta(x; \theta)$ 是逻辑回归模型的函数，它表示在参数 θ 下，给定 x 时 Y=1（正类）的概率。

$\(p=h_\theta(x; \theta)$\)

$\(q=1-h_\theta(x; \theta)$\)

线性关系假设

逻辑回归虽然输出的是一个概率值，但它的核心仍然依赖于线性关系。

这个线性关系不是直接映射到输出变量上，而是映射到对数几率（logit）上。对数几率是指成功概率与失败概率的比值的自然对数。

对数几率（logit）

在逻辑回归中，我们不直接对概率 $P(Y=1)$ 建模，而是对概率的对数几率进行建模。

对数几率定义为：

$\(\text{logit}(P) = \log\left(\frac{P}{1-P}\right)$\)

其中，P 是成功的概率（即 Y=1 的概率）

线性关系

逻辑回归假设输入特征 X 和对数几率之间存在线性关系：

$$\log \left( \frac{P(Y=1)}{1-P(Y=1)} \right) = \beta_0 + \beta_1x_1 + \beta_2x_2 + \ldots + \beta_nx_n $$

其中 $\beta_0,\beta_1,\beta_2,...,\beta_n$ 是模型参数。

从线性到非线性

虽然这个关系是线性的，但通过将线性模型的输出应用到 Sigmoid 函数，逻辑回归实现了从线性到非线性的转换。

Sigmoid 函数将任何实数映射到（0,1）区间，提供了一个平滑且连续的概率分布。

$$ P(Y = 1|X) = \frac{1}{1+e^{-(\beta_0+\beta_1X_1+...+\beta_nX_n)}} $$

因此，尽管逻辑回归在其核心依赖线性假设，通过适当的函数转换，它能有效地用于二分类问题，输出概率预测。这种线性关系与非线性输出的结合使逻辑回归成为了一个强大且灵活的分类工具。

无多重共线性：模型假设特征之间不存在（或很少有）多重共线性。多重共线性是指两个或多个预测变量在统计上高度相关，这可能导致模型估计不稳定。

aaa

什么是sigmoid 函数， LR为什么用sigmoid函数？

Sigmoid 函数是一种广泛应用于逻辑回归（LR）和其他多种机器学习算法中的特殊类型函数。

其公式如下：

\[\sigma(x) = \frac{1}{1+e^{-x}}\]

其中，e 是自然对数的底数，x 是输入值。

Sigmoid 函数的特点是其输出范围在 0 和 1 之间，它将任意实数值映射到这个区间内。函数曲线在 x=0 处中心对称，随着 x 增大，函数值渐进于1；随着 x 减小，函数值渐进于0。

为什么逻辑回归使用Sigmoid函数

输出概率：Sigmoid 函数的输出范围是 0 到 1，非常适合表示概率。在逻辑回归中，我们需要预测一个事件发生的概率（例如，一个邮件是垃圾邮件的概率），Sigmoid函数提供了一个自然的方式来将线性函数的输出转换为概率值。
梯度特性：Sigmoid 函数的导数具有良好的特性，它能够提供关于输入变化对输出影响的连续反馈，这对于基于梯度的优化方法（如梯度下降）非常重要。
转换线性到非线性：逻辑回归模型假设特征和输出对数几率之间存在线性关系。Sigmoid 函数允许我们将这种线性关系转换为非线性概率输出，这在处理分类问题时非常有用。
决策边界：使用 Sigmoid 函数，逻辑回归能够很自然地创建一个决策边界。例如，在二分类问题中，当 Sigmoid 函数输出 0.5 或更高时，可以将结果分类为1，否则为0。

为什么逻辑回归的损失函数是它的极大似然函数?

我们先来复习一下什么是极大似然估计。

极大似然估计：利用已知的样本结果信息，反推最具有可能（最大概率）导致这些样本结果出现的模型参数值（模型已定，参数未知。

让我们回到逻辑回归里，一步步来分解上面这句话，首先我们已经知道逻辑回归的模型是，即

预测样本为正类的概率：$P(y = 1 |x; \theta) = h_{\theta}(x; \theta) = \frac{1}{1 + e^{-\theta^Tx}}$

预测样本为负类的概率：$P(y = 0 |x; \theta) = 1 - h_{\theta}(x; \theta) = \frac{1}{1 + e^{\theta^T x}} $

我们将其合并到一起，可以知道预测样本的概率

\[ \hat{y} = p = (p(y = 1|x; \theta))^y (1 - p(y = 1|x; \theta))^{1-y} \]

参数就是里面的 $\theta$ ，那什么是样本结果信息，就是我们的 x，y，是我们的样本，分别为特征和标签，我们的已知信息就是在特征取这些值的情况下，它应该属于 y 类（正或负）。反推最具有可能（最大概率）导致这些样本结果出现的参数。

举个例子，我们已经知道了一个样本点，是正类，那么我们把它丢入这个模型后，它的输出结果应该越大越好，因为此时它计算的是正类的概率。反过来一样的，如果你丢的是负类，那这个式子计算的就是负类的概率，同样我们要让它最大，所以此时不用区分正负类。

所以说，一个样本，不分正负类，丢入模型，让它的概率最大

对于整个训练集来说，我们是期望所有样本的概率都达到最大，也就是我们的目标函数，本身是个联合概率，但是假设每个样本独立，那所有样本的概率就可以写成。

\[L(\theta) = \prod_{i=1}^{N} \left( \left( \log(p^{(i)}) \right)^{y_i} \left(1 - \log(p^{(i)}) \right)^{1-y_i} \right) \]

为了简化运算，我们对上面这个等式的两边都取一个对数：

\[l(\theta) = \ln L(\theta) = \sum_{i=1}^{n} \left( y^{(i)} \ln(p^{(i)}) + (1 - y^{(i)}) \ln(1 - \log(p^{(i)})) \right) \]

我们现在要求的是使 $l(\theta)$ 最大的 $\theta$。没错，我们的代价函数出现了，我们在 $l(\theta)$ 前面加个负号不就变成求最小了吗？不就变成我们代价函数了吗？这不就是交叉熵（ cross-entropy）误差函数吗？

\[J(\theta)=-l(\theta) = - \sum_{i=1}^{n} \left( y^{(i)} \ln(p^{(i)}) + (1 - y^{(i)}) \ln(1 - \log(p^{(i)})) \right)\]

什么是梯度下降法，如何求解逻辑回归的参数呢？

梯度下降是一种优化技术，用于最小化机器学习模型中的误差。通过在下降最陡的方向上迭代调整参数，寻求最低的误差值。

登山者的比喻：

想象一下，你是一名登山者，站在广阔山脉的山坡上的某个地方。你的目标是到达山谷的最低点，但有一个问题：你被蒙住眼睛。如果无法看到整个景观，你将如何找到到达底部的路？

本能地，你可能会用脚感受周围的地面，感知哪条路是下坡。然后你会朝那个方向迈出一步，即最陡的下降。重复这个过程，你会逐渐接近山谷的最低点。

在逻辑回归中，使用梯度下降法求解参数的过程如下。

定义损失函数：通常使用对数损失函数（也称为对数似然损失）
计算梯度：对于逻辑回归的对数损失函数，我们需要计算损失函数关于参数 $\theta$ 的梯度。

$$\frac{\partial}{\partial \theta_j} J(\theta) = \frac{1}{m} \sum_{i=1}^{m} \left( h_\theta(x^{(i)}) - y^{(i)} \right) x_j^{(i)} $$

这里，$h_\theta(x^{(i)})$ 是模型的预测结果，$y^{(i)}$ 是样本的真实标签，$x_j^{(i)}$ 是样本 i 的第 j 个特征。

参数更新规则：参数 θ 的更新规则为

$\theta = \theta - \alpha \frac{\partial}{\partial \theta} J(\theta)$

其中，$J(\theta)$ 是损失函数，α 是学习率，$\frac{\partial}{\partial \theta_j} J(\theta)$ 是损失函数对参数的梯度。

迭代更新：使用上述规则迭代更新参数 θ 直到收敛。

梯度下降法适用于小到中等规模的数据集。对于大规模数据集，常用的变种包括随机梯度下降（SGD）和小批量梯度下降（Mini-batch GD），这两种方法每次更新只使用一个或一小部分样本来估计梯度，这样可以大大加快计算速度，此后，我们专门更新一篇文章来具体讲讲各种梯度下降算法的变种。

能不调用库实现逻辑回归算法吗？

当然可以，下面是我们手动实现逻辑回归的简单案例。

我们将遵循以下步骤来建立一个逻辑回归算法。

初始化参数：在训练开始时，我们需要初始化模型的参数。通常，这些参数（权重和偏置）被初始化为小的随机数或零。
模型预测：利用当前的参数，为每个样本做出预测。在逻辑回归中，这是通过计算权重和特征的点积，然后应用 sigmoid 函数来完成的。
计算损失：计算预测值和实际值之间的差距。在二元分类中，通常使用交叉熵损失函数。
计算梯度：计算损失函数关于模型参数的梯度。
更新参数：使用梯度下降算法更新模型的参数。
重复步骤2-5：重复上述步骤直到满足某个终止条件（例如，达到一个预定的迭代次数或者损失下降到某个阈值）。

import numpy as np

class LogisticRegression_Test:
    def __init__(self, learning_rate=0.01, num_iterations=1000):
        self.learning_rate = learning_rate
        self.num_iterations = num_iterations
        self.weights = None
        self.bias = None

    def fit(self, X, y):
        # 初始化参数
        num_samples, num_features = X.shape
        self.weights = np.zeros(num_features)
        self.bias = 0

        # 梯度下降
        for _ in range(self.num_iterations):
            model = np.dot(X, self.weights) + self.bias
            predictions = self.sigmoid(model)

            # 计算梯度
            dw = (1 / num_samples) * np.dot(X.T, (predictions - y))
            db = (1 / num_samples) * np.sum(predictions - y)

            # 更新参数
            self.weights -= self.learning_rate * dw
            self.bias -= self.learning_rate * db

    def predict(self, X):
        model = np.dot(X, self.weights) + self.bias
        predictions = self.sigmoid(model)
        class_predictions = [1 if i > 0.5 else 0 for i in predictions]
        return class_predictions

    @staticmethod
    def sigmoid(z):
        return 1 / (1 + np.exp(-z))

逻辑回归算法的优缺点?

逻辑回归是一种广泛使用的机器学习算法，特别适用于二分类问题。它有一些显著的优点和缺点：

优点：

简单且高效：逻辑回归模型相对简单，计算效率高，易于理解和实现。
输出概率：逻辑回归不仅提供分类结果，还能给出属于某一类的概率，这对于需要概率解释的任务特别有用。
良好的解释性：模型的结果容易解释，可以清楚地展示不同特征对结果的影响。
可扩展性：可以很容易地使用正则化方法来避免过拟合，并可以处理不同类型的数据。

缺点：

处理非线性关系的能力有限：逻辑回归假设数据是线性可分的，对于复杂的非线性关系表现不佳。
对特征间的相互作用不敏感：逻辑回归不能自然地捕捉特征之间的相互作用，除非显式地在特征工程中添加这些交互项。
对多重共线性敏感：当数据中存在高度相关的自变量时，逻辑回归的性能可能会下降。
容易受到异常值的影响：异常值或离群点可能对模型产生不良影响。
类别不平衡问题：当类别高度不平衡时，逻辑回归的性能可能会下降。
模型复杂性限制：对于复杂的问题，逻辑回归可能不够灵活，无法捕捉数据中的所有模式。

在实际应用中，选择逻辑回归还是其他更复杂的模型，需要根据具体问题的需求和数据的特性来决定。逻辑回归通常是一个很好的起点，特别是当你需要一个简单且具有良好解释性的基线模型时。

特征高度相关对逻辑回归有什么影响？

特征之间的高度相关性，也称为多重共线性，对逻辑回归模型可以产生以下影响。

参数估计不稳定：当特征高度相关时，逻辑回归模型中的参数估计可能会变得非常不稳定。小的数据变化可能导致参数估计值大幅波动，这会降低模型的可靠性。
解释性降低：逻辑回归的一个主要优点是其解释性，但在特征高度相关的情况下，解释模型参数变得困难。因为难以分辨哪些特征对预测结果的贡献更大。
过拟合风险增加：多重共线性可能导致模型过度拟合训练数据中的特定噪声模式，而不是学习数据的真实潜在模式。
准确性下降：多重共线性可能会降低模型的预测准确性。当包含冗余信息时，模型可能难以识别出哪些特征实际上对目标变量有影响。

为了减轻这些问题，可以采取以下措施：

特征选择：去除一些高度相关的特征，只保留最具代表性的特征。
正则化：使用 L1 或 L2 正则化可以帮助减少特征间的共线性问题，通过添加惩罚项来控制模型的复杂度。
主成分分析（PCA）：使用PCA或其他降维技术可以将高度相关的特征转换为一组低维且相互独立的特征。

综上所述，特征之间的高度相关性可以对逻辑回归模型产生负面影响，但通过适当的数据预处理和模型选择，可以有效地减轻这些问题。

逻辑回归模型中，为什么常常要做特征交叉？

在逻辑回归模型中，进行特征交叉（feature crossing）是一种常见的做法，原因如下：

捕捉非线性关系：逻辑回归是一个线性模型，它假设特征与输出之间存在线性关系。但在许多实际问题中，特征之间的关系可能是非线性的。通过创建特征的交叉项（如特征的乘积），可以使模型能够捕捉这些非线性关系。
增加模型复杂度：特征交叉可以增加模型的复杂度，使其能够学习更复杂的模式。这在某些情况下可以提高模型的准确度。
更好的决策边界：特征交叉可以帮助模型在特征空间中创建更复杂的决策边界。在原始特征空间中线性不可分的问题，通过引入交叉特征，可能在新的特征空间中变得线性可分。
特征间的相互作用：在许多情况下，单个特征对目标变量的影响可能取决于另一个特征的值。通过创建交叉特征，模型可以学习这些特征间的相互作用。
改善特定问题的表现：在某些特定的应用场景中，如推荐系统、广告点击率预测等，特征交叉被证明对提高模型的表现特别有效。

然而，进行特征交叉也需要谨慎，因为它可能导致以下问题：

维度爆炸：过多的特征交叉可能导致特征空间的维度急剧增加，从而增加模型的复杂度和训练难度。
过拟合风险：在有限的训练数据下，增加过多的特征可能导致过拟合。

因此，在实际应用中，选择合适的特征进行交叉，并平衡模型的复杂度和泛化能力是非常重要的。

逻辑回归如何处理过拟合问题？

逻辑回归模型在面对过拟合问题时，可以通过以下策略来处理：

正则化：
L1正则化（Lasso正则化）：这种方法倾向于生成一个稀疏模型，即使得一些系数为零，从而减少了模型中的特征数量。
L2正则化（Ridge正则化）：通过对系数的平方和进行惩罚，这种方法减少了模型参数的大小，有助于控制模型的复杂度。
弹性网络正则化：结合了 L1 和 L2 正则化的方法，既能产生稀疏模型，又能保持模型参数的稳定性。
减少特征数量：
手动选择与目标变量最相关的特征。
使用特征选择算法自动选择重要特征。
数据增强：
增加更多的训练样本可以帮助模型泛化得更好，减少过拟合。
早停法（Early Stopping）：
在训练过程中监控模型在验证集上的性能，一旦性能停止改善或开始变差，就停止训练。
交叉验证：
使用交叉验证来评估模型的泛化能力，这有助于防止对特定训练集的过拟合。
简化模型：
使用更简单的模型或减少模型的复杂度。
调整模型超参数：
通过调整学习率、正则化系数等超参数来控制模型的复杂度。

每种方法都有其优势和局限性，适合的方法取决于具体的应用场景和数据集。

在实际应用中，通常需要尝试多种策略，以找到最适合当前问题的解决方案。

逻辑回归能解决多分类问题吗？

尽管逻辑回归最初是为二分类问题设计的，但它可以通过一些扩展来处理多个类别。

主要有两种方法来使逻辑回归适用于多分类问题：

一对剩余（One-vs-Rest，OvR）
在这种方法中，针对每个类别训练一个逻辑回归分类器，将这个类别与其他所有类别区分开来。
例如，如果有三个类别 A、B和C，那么会训练三个分类器：一个区分 A与非A，一个区分B与非B，另一个区分C与非C。
在预测时，对于一个给定的输入，所有分类器都会被运用，最终选择具有最高预测概率的类别作为输出。
多项逻辑回归（Multinomial Logistic Regression）
也称为 Softmax 回归，这是一种直接将逻辑回归扩展到多分类问题的方法。
在这种方法中，模型被训练成能够直接输出输入属于每个类别的概率。
相较于 OvR，多项逻辑回归通常在多分类问题上表现得更好，特别是当各个类别之间的关系是非互斥的时候。

在 scikit-learn 库中，可以通过设置 LogisticRegression 类的 multi_class 参数为 ovr 或 multinomial 来选择上述两种方法中的任何一种。默认情况下，scikit-learn使用一对剩余方法（ovr），但如果设置 multi_class='multinomial' 并结合一个支持多项逻辑回归的求解器（如'lbfgs'、'sag'或'newton-cg'），则可以使用多项逻辑回归。

aaa

Keys	Action
`?`	Open this help
`n`	Next page
`p`	Previous page
`s`	Search