junxiaoyao/regression2chatgpt @ en

Gen TANG af872ca8ce typo		преди 2 години
..
README.md	ab9a5f2066 update comment for ch12	преди 2 години
__init__.py	b8c0675877 start ppo	преди 2 години
a2c.ipynb	ab9a5f2066 update comment for ch12	преди 2 години
intuition_model.ipynb	ab9a5f2066 update comment for ch12	преди 2 години
llm_ppo.ipynb	ab9a5f2066 update comment for ch12	преди 2 години
llm_ppo_correct_dropout.ipynb	ab9a5f2066 update comment for ch12	преди 2 години
policy_learning.ipynb	ab9a5f2066 update comment for ch12	преди 2 години
utils.py	af872ca8ce typo	преди 2 години
value_learning.ipynb	ab9a5f2066 update comment for ch12	преди 2 години

代码	说明
intuition_model.ipynb	将大语言模型与评分模型进行直观的联结
utils.py	定义游戏以及相应的可视化工具
value_learning.ipynb	值函数学习
policy_learning.ipynb	策略学习
a2c.ipynb	基准线和A2C模型
llm_ppo.ipynb	使用PPO算法优化大语言模型，使得微调之后的模型评分更高
llm_ppo_correct_dropout.ipynb	与llm_ppo.ipynb的目的一样，在脚本中将着重展示如何在PPO算法中正确使用随机失活