|
|
从[第3章](../ch03_linear)开始,我们深入研究了各种模型,从简单到复杂。虽然这些模型在结构和性能上存在着显著差异,但它们的训练和应用方式有着相似之处:需要提前收集和准备好训练数据,模型需要经过充分的训练和优化才能投入使用。用一个或许略显夸张但生动形象的比喻来说:模型的生产就如同在子宫中孕育婴儿一样。人工智能这种“生命”还比较脆弱,难以与外界深入互动。因此,需要一个相对封闭的环境来促使模型生长。生命体进一步进化的关键在于持续适应新环境,迎接新的挑战。同理,模型的训练也需要迈向一个新的阶段,引导模型走进社会生活,让它在持续交互中学习成长。
|
|
从[第3章](../ch03_linear)开始,我们深入研究了各种模型,从简单到复杂。虽然这些模型在结构和性能上存在着显著差异,但它们的训练和应用方式有着相似之处:需要提前收集和准备好训练数据,模型需要经过充分的训练和优化才能投入使用。用一个或许略显夸张但生动形象的比喻来说:模型的生产就如同在子宫中孕育婴儿一样。人工智能这种“生命”还比较脆弱,难以与外界深入互动。因此,需要一个相对封闭的环境来促使模型生长。生命体进一步进化的关键在于持续适应新环境,迎接新的挑战。同理,模型的训练也需要迈向一个新的阶段,引导模型走进社会生活,让它在持续交互中学习成长。
|
|
|
强化学习包含很多内容,甚至足以成为一门完整的学科。由于需要处理不确定性的环境,强化学习涉及大量的概率分析和复杂的数学推导过程。详细介绍这一切可能需要一本与厚度很大的专著,因此,本章并不打算穷尽强化学习的方方面面,而只是沿着大语言模型的技术路径展开讨论。具体而言,本章将效仿ChatGPT的做法,探讨如何利用**PPO**(Proximal Policy Optimization)技术来优化模型。ChatGPT所采用的优化技术几乎是强化学习的前沿,因此本章将涵盖该领域的大部分关键概念。
|
|
强化学习包含很多内容,甚至足以成为一门完整的学科。由于需要处理不确定性的环境,强化学习涉及大量的概率分析和复杂的数学推导过程。详细介绍这一切可能需要一本与厚度很大的专著,因此,本章并不打算穷尽强化学习的方方面面,而只是沿着大语言模型的技术路径展开讨论。具体而言,本章将效仿ChatGPT的做法,探讨如何利用**PPO**(Proximal Policy Optimization)技术来优化模型。ChatGPT所采用的优化技术几乎是强化学习的前沿,因此本章将涵盖该领域的大部分关键概念。
|