AIN:ChatGPT 等 LLM 使用强化学习而非监督学习进行微调的 5 个原因_rechablechain

撰文:Tanya Malhotra

来源:Marktechpost

编译:DeFi 之道

图片来源:由无界版图AI工具生成

随着生成性人工智能在过去几个月的巨大成功,大型语言模型(LLM)正在不断改进。这些模型正在为一些值得注意的经济和社会转型做出贡献。OpenAI 开发的 ChatGPT 是一个自然语言处理模型,允许用户生成有意义的文本。不仅如此,它还可以回答问题,总结长段落,编写代码和电子邮件等。其他语言模型,如 Pathways 语言模型(PaLM)、Chinchilla 等,在模仿人类方面也有很好的表现。

Chainalysis:数字人民币可能会成为一个可扩展的全球支付网络:1月3日消息,区块链数据分析公司 Chainalysis 政策研究负责人 Salman Banaei 近日谈到数字人民币和 Stablecoin 等问题,他表示:中国即将推出央行数字货币,而且数字人民币有可能成为一个可扩展的全球支付网络,也许会在未来的支付网络中占据显着的市场份额。美国政策制定者应该考虑这些问题,美国和其他监管机构应该谨慎对待 Stablecoin 的发展,避免出现过度监管的风险,并确保他们不会因为过分强调竞争优先事项而把创新者的创新空间抹给去,促进创新是我们成功的关键,我们应该小心保持数字资产的发展。[2022/1/3 8:21:29]

大型语言模型使用强化学习(reinforcement learning,RL)来进行微调。强化学习是一种基于奖励系统的反馈驱动的机器学习方法。代理(agent)通过完成某些任务并观察这些行动的结果来学习在一个环境中的表现。代理在很好地完成一个任务后会得到积极的反馈,而完成地不好则会有相应的惩罚。像 ChatGPT 这样的 LLM 表现出的卓越性能都要归功于强化学习。

BlockchainSpace将在Copper平台启动TLA:12月7日消息,P2E游戏公会BlockchainSpace(GUILD)宣布将于北京时间12月8日21时在Copper平台启动TLA,本次TLA将采用BLBP(Balancer Liquidity Bootstrapping Pool)机制,起拍价为1.1038美元,初始权重将设置为95:5(GUILD/USDC),随着TLA的持续时间逐渐减少至最终50:50的权重(当购买需求不断产生时,GUILD的价格也将相应提高,待需求为0时,GUILD的价格也会降低),最低价格为0.06美元。本次TLA将于12月11日21时结束。用户可使用ETH、WETH、USDC和DAI兑换成GUILD。前100名TLA贡献者将获得Blockchain Space Founders NFT。BlockchainSpace是一个P2E游戏公会,此前曾于11月19日完成375万美元种子轮融资。[2021/12/7 12:55:33]

ChatGPT 使用来自人类反馈的强化学习(RLHF),通过最小化偏差对模型进行微调。但为什么不是监督学习(Supervised learning,SL)呢?一个基本的强化学习范式由用于训练模型的标签组成。但是为什么这些标签不能直接用于监督学习方法呢?人工智能和机器学习研究员 Sebastian Raschka 在他的推特上分享了一些原因,即为什么强化学习被用于微调而不是监督学习。

Polychain、DCG、1kx、Multicoin 等联合推出去中心化资产管理市场 AladdinDAO:6月2日消息,数十家加密货币投资机构联合推出去中心化资产管理市场AladdinDAO,旨在通过加密经济学的机制设计和去中心化自治组织(DAO)的方式改变风险投资的现有模式,激励DeFi参与者为社区成员选择最佳流动性挖矿项目,解决DeFi投资领域信息不对称的问题。

据悉,AladdinDAO的创始成员包括Polychain、DCG、1kx、Multicoin Capital、CMS、Nascent、Alameda、DeFiAlliance、Robert Leshner、Kain Warwick、Hart Lambur、AlexPack、Ashwin Ramachandran和Sharlyn Wu。

据AladdinDAO介绍,该组织将是一个提供一站式流动性挖矿体验的平台,并使用博弈论来构建去中心化的资产管理市场,将以简单的策略入手,使投资者可以直接参与所选定的DeFi流动性挖矿项目,最终将扩展到由社区开发者和DAO成员提供的多策略产品。[2021/6/2 23:05:49]

动态 | 美国初创公司Chainalysis将追踪服务扩展至10种加密货币:据路透社消息,总部位于纽约的初创公司Chainalysis周三表示,已将其实时交易监控服务扩展到10种加密货币,这是一项旨在帮助减少全球反活动的举措的一部分。该公司在一份声明中表示,在推出更多加密货币之际,投资者正在等待全球监管指引,要求对交易所和金融机构支持的加密货币进行自动交易监控。Chainalysis将帮助执法部门,监管机构和企业(包括银行)跟踪加密货币的流动,以发现非法活动。[2019/4/24]

不使用监督学习的第一个原因是,它只预测等级,不会产生连贯的反应;该模型只是学习给与训练集相似的反应打上高分,即使它们是不连贯的。另一方面,RLHF 则被训练来估计产生反应的质量,而不仅仅是排名分数。

Sebastian Raschka 分享了使用监督学习将任务重新表述为一个受限的优化问题的想法。损失函数结合了输出文本损失和奖励分数项。这将使生成的响应和排名的质量更高。但这种方法只有在目标正确产生问题-答案对时才能成功。但是累积奖励对于实现用户和 ChatGPT 之间的连贯对话也是必要的,而监督学习无法提供这种奖励。

不选择 SL 的第三个原因是,它使用交叉熵来优化标记级的损失。虽然在文本段落的标记水平上,改变反应中的个别单词可能对整体损失只有很小的影响,但如果一个单词被否定,产生连贯性对话的复杂任务可能会完全改变上下文。因此,仅仅依靠 SL 是不够的,RLHF 对于考虑整个对话的背景和连贯性是必要的。

监督学习可以用来训练一个模型,但根据经验发现 RLHF 往往表现得更好。2022 年的一篇论文《从人类反馈中学习总结》显示,RLHF 比 SL 表现得更好。原因是 RLHF 考虑了连贯性对话的累积奖励,而 SL 由于其文本段落级的损失函数而未能很好做到这一点。

像 InstructGPT 和 ChatGPT 这样的 LLMs 同时使用监督学习和强化学习。这两者的结合对于实现最佳性能至关重要。在这些模型中,首先使用 SL 对模型进行微调,然后使用 RL 进一步更新。SL 阶段允许模型学习任务的基本结构和内容,而 RLHF 阶段则完善模型的反应以提高准确性。

DeFi之道

个人专栏

阅读更多

金色财经 善欧巴

金色早8点

Odaily星球日报

欧科云链

Arcane Labs

MarsBit

深潮TechFlow

BTCStudy

澎湃新闻

郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。

区块博客

[0:15ms0-8:925ms