Gen TANG af872ca8ce typo преди 2 години
..
README.md ab9a5f2066 update comment for ch12 преди 2 години
__init__.py b8c0675877 start ppo преди 2 години
a2c.ipynb ab9a5f2066 update comment for ch12 преди 2 години
intuition_model.ipynb ab9a5f2066 update comment for ch12 преди 2 години
llm_ppo.ipynb ab9a5f2066 update comment for ch12 преди 2 години
llm_ppo_correct_dropout.ipynb ab9a5f2066 update comment for ch12 преди 2 години
policy_learning.ipynb ab9a5f2066 update comment for ch12 преди 2 години
utils.py af872ca8ce typo преди 2 години
value_learning.ipynb ab9a5f2066 update comment for ch12 преди 2 години

README.md

代码 说明
intuition_model.ipynb 将大语言模型与评分模型进行直观的联结
utils.py 定义游戏以及相应的可视化工具
value_learning.ipynb 值函数学习
policy_learning.ipynb 策略学习
a2c.ipynb 基准线和A2C模型
llm_ppo.ipynb 使用PPO算法优化大语言模型,使得微调之后的模型评分更高
llm_ppo_correct_dropout.ipynb llm_ppo.ipynb的目的一样,在脚本中将着重展示如何在PPO算法中正确使用随机失活