|代码|说明| |---|---| |[intuition_model.ipynb](intuition_model.ipynb)| 将大语言模型与评分模型进行直观的联结 | |[utils.py](utils.py)| 定义游戏以及相应的可视化工具 | |[value_learning.ipynb](value_learning.ipynb)| 值函数学习 | |[policy_learning.ipynb](policy_learning.ipynb)| 策略学习 | |[a2c.ipynb](a2c.ipynb)| 基准线和A2C模型 | |[llm_ppo.ipynb](llm_ppo.ipynb)| 使用PPO算法优化大语言模型,使得微调之后的模型评分更高 | |[llm\_ppo\_correct\_dropout.ipynb](llm_ppo_correct_dropout.ipynb)| 与[llm_ppo.ipynb](llm_ppo.ipynb)的目的一样,在脚本中将着重展示如何在PPO算法中正确使用随机失活 |