| 代码 | 说明 |
|---|---|
| intuition_model.ipynb | 将大语言模型与评分模型进行直观的联结 |
| utils.py | 定义游戏以及相应的可视化工具 |
| value_learning.ipynb | 值函数学习 |
| policy_learning.ipynb | 策略学习 |
| a2c.ipynb | 基准线和A2C模型 |
| llm_ppo.ipynb | 使用PPO算法优化大语言模型,使得微调之后的模型评分更高 |
| llm_ppo_correct_dropout.ipynb | 与llm_ppo.ipynb的目的一样,在脚本中将着重展示如何在PPO算法中正确使用随机失活 |