junxiaoyao/regression2chatgpt

Gen TANG f6022ae91b update bold format		hace 1 año
..
README.md	f6022ae91b update bold format	hace 1 año
gradient_descent.ipynb	05d6077132 update comment for ch06	hace 2 años
pytorch_tutorial.ipynb	05d6077132 update comment for ch06	hace 2 años
stochastic_gradient_descent.ipynb	05d6077132 update comment for ch06	hace 2 años

概述

正如前面几章讨论的，在着手搭建模型时，首先会从实际应用场景出发，初步分析数据的特征，获取灵感和直觉；然后，通过数学的抽象和变换，为问题选择合适的模型架构；最后，使用Python开源的算法库实现最终的模型，其中模型的参数已经被估计出来。

从软件设计的角度来讲，Python开源算法库在抽象（Abstraction）方面做得非常出色。它有效地隐藏了模型构建和训练的底层实现细节，使我们只需关注高层的概念和操作，即提供的一系列函数接口（API）。通过这些接口，通常只需几十行代码就能完成模型的构建和训练。在这个过程中，无须过多考虑模型背后复杂的数学计算，计机估计模型参数的算法实现也不再成为障碍。在理想情况下，所有底层的复杂性都被完美抽象，数据科学家的工作更加轻松和便捷（当然，作为硬币的另一面，这也可能导致数据科学家的门槛降低，进而影响相关职位的数量和薪水）。然而，不幸的是（或者幸运的是），由于模型涉及复杂的数学抽象和计算，即使软件设计和抽象再完美，也无法完全掩盖其复杂性，某些细节仍然可能“泄漏”出来，影响用户对系统的理解和操作，这就是抽象泄漏（Leaky Abstraction）。

举个例子，在训练逻辑回归模型时，某些数据集可能导致开源算法库出现错误，无法估计模型参数。对于相对经典或简单的模型，抽象泄漏的情况较少出现。然而，对于更复杂的模型，例如神经网络领域的深度学习和语言大模型，可能出现大量的抽象泄漏问题。如果不理解底层实现的细节，在这些领域将寸步难行：从理论角度来看，无法理解模型的精髓，就难以有效地优化模型，无法达到预期的模型效果；从实际应用角度来看，遇到程序问题难以修复，训练时间过长，除了参考示例实现，很难灵活运用算法库，也无法根据需求调整模型架构。

因此，本章将深入研究开源算法库的核心细节，探讨如何基于模型的数学公式计算出相应的参数估计值。更具学术性的表述是——探讨解决最优化问题的算法。最优化问题有多种求解方法，不同算法适用于不同的模型，并在解决不同类型的问题上各有优势。鉴于篇幅限制，本章将重点关注最核心、应用最广泛的算法：梯度下降法、随机梯度下降法及其各种变种。

代码说明

代码	说明
pytorch_tutorial.ipynb	张量的运算与基本操作
gradient_descent.ipynb	利用PyTorch实现梯度下降法
stochastic_gradient_descent.ipynb	利用PyTorch实现随机梯度下降法

README.md

概述

代码说明