你的位置：凌云逻辑Cirrus Logic半导体IC芯片全系列-亿配芯城 > 话题标签 > 人都

人都相关话题

TOPIC

图解大模型RLHF系列之：人人都能看懂的PPO原理与源码解读

2024-01-16

大家好，最近我又读了读RLHF的相关paper和一些开源实践，有了一些心得体会，整理成这篇文章。过去在RLHF的初学阶段，有一个问题最直接地困惑着我：如何在NLP语境下理解强化学习的框架？例如，我知道强化学习中有Agent、Environment、Reward、State等要素，但是在NLP语境中，它们指什么？语言模型又是如何根据奖励做更新的？为了解答这个问题，我翻阅了很多资料，看了许多的公式推导，去研究RLHF的整体框架和loss设计。虽然吭吭哧哧地入门了，但是这个过程实在痛苦，最主要的

芯片资讯

共 1 页/1 条记录

凌云逻辑Cirrus Logic半导体IC芯片全系列-亿配芯城

人都 相关话题

图解大模型RLHF系列之：人人都能看懂的PPO原理与源码解读

人都相关话题