Gen TANG преди 1 година
родител
ревизия
4e396d5f09
променени са 2 файла, в които са добавени 12 реда и са изтрити 1 реда
  1. 1 1
      ch12_rl/README.md
  2. 11 0
      ch13_others/README.md

+ 1 - 1
ch12_rl/README.md

@@ -2,7 +2,7 @@
 
 从[第3章](../ch03_linear)开始,我们深入研究了各种模型,从简单到复杂。虽然这些模型在结构和性能上存在着显著差异,但它们的训练和应用方式有着相似之处:需要提前收集和准备好训练数据,模型需要经过充分的训练和优化才能投入使用。用一个或许略显夸张但生动形象的比喻来说:模型的生产就如同在子宫中孕育婴儿一样。人工智能这种“生命”还比较脆弱,难以与外界深入互动。因此,需要一个相对封闭的环境来促使模型生长。生命体进一步进化的关键在于持续适应新环境,迎接新的挑战。同理,模型的训练也需要迈向一个新的阶段,引导模型走进社会生活,让它在持续交互中学习成长。
 
-本章将讨论***强化学习(Reinforcement Learning,RL)***。强化学习并不是某种新型的模型结构,而是一种全新的模型训练方式。其核心在于如何在不确定的环境中(在训练数据尚未完全收集的情况下)训练模型。为了应对这种不确定性,强化学习采用了一种独特的策略:在模型并未完全准备好的情况下,就开始使用模型来助力自身的训练。这一方法类似于人类在现实生活中的学习方式,比如学习骑自行车,通过不断尝试和练习来提高性能。
+本章将讨论**强化学习(Reinforcement Learning,RL)**。强化学习并不是某种新型的模型结构,而是一种全新的模型训练方式。其核心在于如何在不确定的环境中(在训练数据尚未完全收集的情况下)训练模型。为了应对这种不确定性,强化学习采用了一种独特的策略:在模型并未完全准备好的情况下,就开始使用模型来助力自身的训练。这一方法类似于人类在现实生活中的学习方式,比如学习骑自行车,通过不断尝试和练习来提高性能。
 
 强化学习包含很多内容,甚至足以成为一门完整的学科。由于需要处理不确定性的环境,强化学习涉及大量的概率分析和复杂的数学推导过程。详细介绍这一切可能需要一本与厚度很大的专著,因此,本章并不打算穷尽强化学习的方方面面,而只是沿着大语言模型的技术路径展开讨论。具体而言,本章将效仿ChatGPT的做法,探讨如何利用**PPO**(Proximal Policy Optimization)技术来优化模型。ChatGPT所采用的优化技术几乎是强化学习的前沿,因此本章将涵盖该领域的大部分关键概念。
 

+ 11 - 0
ch13_others/README.md

@@ -1,3 +1,14 @@
+## 概述
+
+虽然神经网络在人工智能领域备受瞩目,但它并非该领域的唯一关键模型。人工智能包括众多经典模型,难以逐一详细介绍。因此,本章将深入讨论几个具有启发性的模型,它们或与神经网络关系密切,或适合与神经网络搭配使用。这些模型分别是**决策树**及其衍生模型、**隐马尔可夫模型**,以及**无监督学习**。
+
+1. 决策树是一种直观且易于理解的模型,也是模型联结主义的杰出代表。在实际应用中,决策树往往与其他模型组合在一起使用。我们不仅可以借助决策树来提取关键特征,也可以利用它的清晰结构来提高整个模型的可解释性。此外,决策树还能够像神经网络一样自我集成,形成更强大的衍生模型,例如随机森林和梯度提升决策树。
+2. 隐马尔可夫模型曾经风靡一时,在语音识别、金融市场等领域广受欢迎。特别是在金融领域,被誉为“历史上最赚钱的量化基金”——大奖章基金(Medallion Fund)就使用过隐马尔可夫模型。这个模型可以看作循环神经网络的一种特例,这也是本章选择介绍它的原因。
+3. 之前讨论的模型,无论是简单的线性回归还是复杂的大语言模型,均属于监督学习的范畴。也就是说,这些模型要求数据中有标签变量。然而,在实际应用中,存在没有标签变量的情况,这时就需要无监督学习模型发挥作用了。本章将重点介绍三类无监督学习模型,分别是聚类、降维和奇异值分解。
+
+本章内容可能稍显独立,可用于扩展视野,也有助于我们更深入地理解神经网络中某些技术的起源和内涵。
+
+## 代码说明
 
 |代码|说明|
 |---|---|