|代码|说明|
|---|---|
|[intuition_model.ipynb](intuition_model.ipynb)| 将大语言模型与评分模型进行直观的联结 |
|[utils.py](utils.py)| 定义游戏以及相应的可视化工具 |
|[value_learning.ipynb](value_learning.ipynb)| 值函数学习 |
|[policy_learning.ipynb](policy_learning.ipynb)| 策略学习 |
|[a2c.ipynb](a2c.ipynb)| 基准线和A2C模型 |
|[llm_ppo.ipynb](llm_ppo.ipynb)| 使用PPO算法优化大语言模型，使得微调之后的模型评分更高 |
|[llm\_ppo\_correct\_dropout.ipynb](llm_ppo_correct_dropout.ipynb)| 与[llm_ppo.ipynb](llm_ppo.ipynb)的目的一样，在脚本中将着重展示如何在PPO算法中正确使用随机失活 |