Gen TANG af872ca8ce typo %!s(int64=2) %!d(string=hai) anos
..
README.md ab9a5f2066 update comment for ch12 %!s(int64=2) %!d(string=hai) anos
__init__.py b8c0675877 start ppo %!s(int64=2) %!d(string=hai) anos
a2c.ipynb ab9a5f2066 update comment for ch12 %!s(int64=2) %!d(string=hai) anos
intuition_model.ipynb ab9a5f2066 update comment for ch12 %!s(int64=2) %!d(string=hai) anos
llm_ppo.ipynb ab9a5f2066 update comment for ch12 %!s(int64=2) %!d(string=hai) anos
llm_ppo_correct_dropout.ipynb ab9a5f2066 update comment for ch12 %!s(int64=2) %!d(string=hai) anos
policy_learning.ipynb ab9a5f2066 update comment for ch12 %!s(int64=2) %!d(string=hai) anos
utils.py af872ca8ce typo %!s(int64=2) %!d(string=hai) anos
value_learning.ipynb ab9a5f2066 update comment for ch12 %!s(int64=2) %!d(string=hai) anos

README.md

代码 说明
intuition_model.ipynb 将大语言模型与评分模型进行直观的联结
utils.py 定义游戏以及相应的可视化工具
value_learning.ipynb 值函数学习
policy_learning.ipynb 策略学习
a2c.ipynb 基准线和A2C模型
llm_ppo.ipynb 使用PPO算法优化大语言模型,使得微调之后的模型评分更高
llm_ppo_correct_dropout.ipynb llm_ppo.ipynb的目的一样,在脚本中将着重展示如何在PPO算法中正确使用随机失活