凌云逻辑Cirrus Logic半导体IC芯片全系列-亿配芯城-凌云逻辑Cirrus Logic半导体IC芯片
你的位置:凌云逻辑Cirrus Logic半导体IC芯片全系列-亿配芯城 > 话题标签 > 人都

人都 相关话题

TOPIC

大家好,最近我又读了读RLHF的相关paper和一些开源实践,有了一些心得体会,整理成这篇文章。过去在RLHF的初学阶段,有一个问题最直接地困惑着我: 如何在NLP语境下理解强化学习的框架?例如,我知道强化学习中有Agent、Environment、Reward、State等要素,但是在NLP语境中,它们指什么?语言模型又是如何根据奖励做更新的? 为了解答这个问题,我翻阅了很多资料,看了许多的公式推导,去研究RLHF的整体框架和loss设计。虽然吭吭哧哧地入门了,但是这个过程实在痛苦,最主要的
  • 共 1 页/1 条记录