junxiaoyao/regression2chatgpt @ en

代码	说明
intuition_model.ipynb	将大语言模型与评分模型进行直观的联结
utils.py	定义游戏以及相应的可视化工具
value_learning.ipynb	值函数学习
policy_learning.ipynb	策略学习
a2c.ipynb	基准线和A2C模型
llm_ppo.ipynb	使用PPO算法优化大语言模型，使得微调之后的模型评分更高
llm_ppo_correct_dropout.ipynb	与llm_ppo.ipynb的目的一样，在脚本中将着重展示如何在PPO算法中正确使用随机失活