机器学习:回归算法-出色的工程师

每个工业部门都致力于利用机器学习作为促进现代自动化和创新的基本工具。从股票价格预测和欺诈检测到金融系统，机器学习算法有广泛的应用。所有这些都利用算法来学习数据之间的关系，并根据从数据集中提取的模式进行预测。这些算法可以分为监督算法和非监督算法。通常监督算法包含有标签的数据，而无监督算法包含无标签的数据。

在本文中，我们将讨论作为监督学习技术一部分的回归算法。我们将把它们与分类技术进行比较，并探索它们如何学习数据集中的关系。

理解分类和回归

机器学习技术的目标是做出准确的预测。预测是从数值数据中识别缺失部分以进行新观测的过程。分类和回归技术依赖于一组输入特征来进行预测，但在被预测的输出变量的类型上有所不同。

在分类中，我们有一组预定义的类别或类，我们希望根据输入实例的特征和属性将它们分配给它。这些类别是有限且离散的，这意味着每个输入实例只能属于其中一个类别，因此不存在中间类别。分类算法的准确性取决于通过将一组输入参数投影到数据上来正确地找到类的名称。

例如，在根据电子邮件的特征将其分类为垃圾邮件或非垃圾邮件时，我们可以使用基于输入特征(如主题行、附件或地址)的分类。输出将是' spam '或' not spam '的类标签。任何电子邮件实例都属于这一类，所以没有中间地带，比如有点垃圾邮件之类的情况。准确性将由预测器如何根据新的数据和属性正确地“猜测”值来定义。

在回归算法中，我们训练一个模型根据输入特征进行预测，其中输出是表示目标变量的连续数值。该算法学习输入特征和目标变量之间的关系，从而对新的实例进行准确的预测。使用相同的垃圾邮件问题，回归将使用标记数据来预测电子邮件是垃圾邮件还是不是垃圾邮件的可能性，而不是通过使用连续概率(如垃圾邮件评分)来分配类别标签。当目标变量是连续的并且需要精确或细粒度的估计时，这使得回归模型更加灵活。这是金融、股票和投资组合等领域的常见方法。

分类和回归算法的区别

-在回归中，输出变量是连续的或数值，而在分类中，输出变量是分类的或离散的。这意味着回归模型非常适合预测范围内的值，而分类模型则专注于基于类或输出标签进行预测。

-回归算法旨在根据现有输入参数映射函数来进行估计，以提高新数据点的准确性。另一方面，分类算法将输入变量与离散的输出变量映射。这意味着回归模型的目标是在连续域中找到输入和输出变量之间的关系，而分类模型的目标是找到可以分离不同类别的决策边界。

-回归模型通常涉及拟合线性或非线性函数的数据，如直线或多项式曲线，以预测输出变量。另一方面，分类模型使用逻辑回归、决策树或支持向量机等算法来寻找不同类别之间的边界。此外，分类算法可以是预测两个类的二进制分类器，也可以是预测两个以上类的多类分类器。

机器学习回归算法的例子

线性回归

线性回归是一种建模方法，它使用一条直线(回归线)来表示因变量和一个或多个自变量之间的关系。在数据之间拟合回归线，以预测新的数据点，从而为预测误差最小的特征权重找到最优值。简单线性回归涉及两个变量:一个自变量(X)影响被预测的因变量(Y)。目标是找到一条直线方程，以最大的精度或最小的误差预测自变量的值。这种方法回答了这样一个问题:“对于给定的X值，Y的预测值将是多少?”它被广泛应用于经济、金融、市场营销和工程等领域。

优点

线性回归是最简单的机器学习算法之一，即使对于初学者也是如此。只需几行代码，就可以训练一个模型，根据一个或多个输入变量预测连续输出变量。这种简单性使它成为小型数据集和原型的流行选择。
线性回归假设输入变量和输出变量之间存在线性关系，从而简化了结果的解释。这个假设简化了结果的解释，以及某些输入变量的变化如何影响输出变量。
线性回归是通过使用正则化、交叉验证和约简技术来解决过拟合的有价值的工具。这在处理有噪声的数据或输入变量数量很高时特别有用。通过提高模型的泛化能力，这些技术增强了模型对未见数据的预测能力。它简单实用，是许多可解释性和计算效率至关重要的应用程序(如金融建模和风险分析)的热门选择。

缺点

线性回归对输入变量中的异常值很敏感，这可能会影响它的性能。如果处理不当，异常值可能会扭曲最佳拟合线并导致不正确的估计，特别是当数据已经具有高度可变性时，例如在金融建模中。
大多数现实问题比输入和输出变量之间的简单线性关系要复杂得多。线性回归对线性方法的依赖使它在复杂或非线性关系存在的情况下效率低下，限制了它的实际应用。

决策树回归

树在计算机科学领域有广泛的应用，包括机器学习。树数据结构由两个主要组件组成:节点和分支。决策树是数据集及其属性的层次表示，这些属性指导从根节点到叶节点的决策。决策树是非参数的，这意味着它们通过学习从数据特征推断出的规则来预测目标变量的值，而不对底层数据分布进行任何假设。决策树中的每个节点表示一个属性，每个分支表示基于属性值的决策。决策树广泛应用于各种实际应用程序，这些应用程序涉及分类值的离散集，如医疗诊断、能耗预测等等。

优点

缺少异常值和值对决策树数据的影响较小，从而简化了数据的清理和准备。该模型通过生成具有概率的见解和决策决策的替代策略，进一步简化了这一点。

决策树可以用于回归和分类任务，并可以在复杂数据中建模非线性关系，使其成为预测建模的通用工具。

缺点

确定决策树的适当深度可能具有挑战性，因为很难确定每个特征的最佳粒度级别，而且较深的树很容易过度拟合数据。

-通过停树和修剪等技术，可以在决策树中减少不能有效泛化数据的过拟合或过于复杂的树，但这些方法可能无法有效地处理复杂和不可见的场景，从而导致结果模型不稳定。

-向现有的决策树添加更多的训练数据可以改变熵值，熵值用于确定树中的最佳分割，因此可以改变整个树的结构，影响其稳定性和准确性。例如，它可能会创建一个偏向于优势节点的算法，具有更大的值和特征。

随机森林回归

随机森林是一个强大的元估计器，它利用集成和自举技术来做出准确的预测。在集成学习中，多个模型在相同的数据上进行训练，并对其结果进行平均以提高准确性。

随机森林通过在每个数据子集上拟合一些决策树来实现这一点。每个决策树中的错误相互独立，从而得到更准确的预测。随机森林模型可以通过在给定次数的迭代中随机采样数据集的子集，或通过创建多个随机决策树，来提取线性和非线性特征中的关系。当决策树的结果被聚合时，预测会更加强大和准确。

优点

随机森林是一种通用的算法，可用于分类和回归问题。由于它基于决策树，所以可以处理高维和噪声数据的输入特征。

随机森林中使用的集成技术通过聚合多个决策树的结果来改进估计。通过这样做，它克服了任何单个树的局限性和错误。这种聚合对于最小化模型中的过拟合和偏差至关重要。

-随机森林考虑基于数据集的每一种可能的决策树，使其能够轻松填充缺失的部分并保持较高的准确性。

缺点

-随机森林算法缺乏可解释性，因此很难理解模型是如何做出预测的。这是因为它用随机的数据子集创建了多个决策树，而最终的预测是所有树的平均值，因此很难确定哪些特征在做出最终预测时最重要。

-当模型变得过于复杂时，它会记忆训练数据，而不是泛化到新的数据，导致过拟合。如果随机森林创建了太多的树，它很容易过度拟合，这可能会导致它在新数据上的性能下降。要解决这个问题，重要的是调优超参数，如树的数量和最大深度。

多项式回归

在某些情况下，变量之间的关系可能不是线性的，只能用非线性函数来描述。这就是多项式回归派上用场的地方。通过将多项式函数拟合到数据中以捕获非线性，多项式回归是对变量之间关系进行近似的关键。

优点

多项式回归可以用于任何大小的数据集，使其成为一种灵活的建模技术，适用于广泛的应用。

多项式回归可以模拟变量之间的非线性关系，这在复杂的数据集中是至关重要的。多项式函数更准确地逼近变量之间关系的形状，同时降低了计算复杂度。

缺点

-多项式回归模型可能对异常值过于敏感，这可能会显著影响分析的准确性。此外，在非线性回归中检测异常值具有挑战性，并且可用的模型验证方法较少，这会影响方差和偏差的程度。

套索回归

具有许多预测因子的回归模型可能会出现过拟合问题，即模型变得过于复杂，只拟合数据中的噪声，而不拟合潜在关系。套索回归，表示(最小绝对收缩和选择算子)是一种正则化技术，用于防止过拟合，提高特征选择和预测的准确性在高维回归问题。

在套索回归中，一个与绝对值和模型系数成比例的惩罚项被添加到模型试图最小化的代价函数中。通过这样做，该算法将系数缩小到零，有效地减少了模型中不太重要的特征的贡献。这个过程导致特征选择，并导致一个更简单、更可解释的模型。

Lasso回归使用L1正则化，它增加了等于系数大小绝对值的惩罚。这导致了稀疏解，其中许多系数被设置为零。正则化的程度是由一个超参数控制的，这个超参数可以在模型的复杂性和准确性之间达到理想的平衡。

优点

Lasso模型使用L1惩罚机制来防止过拟合，这使得它们比Ridge回归等其他方法更直观，更简单。

LASSO模型的主要优点之一是它们能够执行特征选择。在训练过程中，Lasso算法将“不太重要”或“不太有趣”的特征的系数缩小为零，有效地将它们从模型中移除。这减少了特征的数量，从而提高了模型的效率和重要参数的选择。

缺点

- Lasso模型生成的系数是有偏差的，因为L1惩罚将系数缩小到零，这意味着特征和预期结果之间关系的真实大小可能无法准确表示。

- Lasso回归模型可能难以处理具有许多相关特征的数据集。该算法假设一个特征集被任意选择，而其他特征集则从模型中删除。这会引入偏差和估计误差，使模型不稳定。

- Lasso回归依赖于超参数调整来调节L1惩罚的大小，这增加了模型的复杂性。为L1惩罚选择正确的值可能是一项艰巨的任务，需要专业知识。

结论

数据为机器学习领域提供了动力，而算法在映射特征和关系方面发挥着关键作用。然而，机器学习工作负载的现代发展是一个复杂的过程。对于庞大的数据集，跨大型团队对模型版本和标准的需求要求企业必须采用统一的方法，以帮助他们快速和自信地交付。一个常用的方法是实现特色商店在集中式自动化工作流程中构建数据管道、训练模型和扩展部署时，提供完整的生命周期。结合回归和行业标准方法等算法的力量，确保准确性和效率，是在多个项目中通过成本效率、模型性能和可重用性特征工程推动积极的业务成果的关键步骤。