junxiaoyao/regression2chatgpt @ en

Gen TANG af872ca8ce typo		%!s(int64=2) %!d(string=hai) anos
..
README.md	ab9a5f2066 update comment for ch12	%!s(int64=2) %!d(string=hai) anos
__init__.py	b8c0675877 start ppo	%!s(int64=2) %!d(string=hai) anos
a2c.ipynb	ab9a5f2066 update comment for ch12	%!s(int64=2) %!d(string=hai) anos
intuition_model.ipynb	ab9a5f2066 update comment for ch12	%!s(int64=2) %!d(string=hai) anos
llm_ppo.ipynb	ab9a5f2066 update comment for ch12	%!s(int64=2) %!d(string=hai) anos
llm_ppo_correct_dropout.ipynb	ab9a5f2066 update comment for ch12	%!s(int64=2) %!d(string=hai) anos
policy_learning.ipynb	ab9a5f2066 update comment for ch12	%!s(int64=2) %!d(string=hai) anos
utils.py	af872ca8ce typo	%!s(int64=2) %!d(string=hai) anos
value_learning.ipynb	ab9a5f2066 update comment for ch12	%!s(int64=2) %!d(string=hai) anos

代码	说明
intuition_model.ipynb	将大语言模型与评分模型进行直观的联结
utils.py	定义游戏以及相应的可视化工具
value_learning.ipynb	值函数学习
policy_learning.ipynb	策略学习
a2c.ipynb	基准线和A2C模型
llm_ppo.ipynb	使用PPO算法优化大语言模型，使得微调之后的模型评分更高
llm_ppo_correct_dropout.ipynb	与llm_ppo.ipynb的目的一样，在脚本中将着重展示如何在PPO算法中正确使用随机失活