NFT:ChatGPT 等 LLM 使用强化学习而非监督学习进行微调的 5 个原因_bitstamp比特币套利

撰文:TanyaMalhotra

来源:Marktechpost

编译:DeFi之道

图片来源:由无界版图AI工具生成

随着生成性人工智能在过去几个月的巨大成功,大型语言模型正在不断改进。这些模型正在为一些值得注意的经济和社会转型做出贡献。OpenAI开发的ChatGPT是一个自然语言处理模型,允许用户生成有意义的文本。不仅如此,它还可以回答问题,总结长段落,编写代码和电子邮件等。其他语言模型,如Pathways语言模型、Chinchilla等,在模仿人类方面也有很好的表现。

BestChange:FTX的崩溃或将引发对加密OTC服务的更大需求,去中心化将在明年加速开发:12月27日消息,俄罗斯OTC加密货币交易所聚合商BestChange首席分析师Nikita Zuborev表示,FTX的崩溃可能会引发对加密OTC服务的更大需求,因为由于对CEX的信任度减弱,投资者正在寻找替代方法来转换法币。此外,他还表示受FTX崩盘的影响,去中心化和去中心化应用程序的开发将在2023年加速。[2022/12/27 22:10:54]

大型语言模型使用强化学习来进行微调。强化学习是一种基于奖励系统的反馈驱动的机器学习方法。代理通过完成某些任务并观察这些行动的结果来学习在一个环境中的表现。代理在很好地完成一个任务后会得到积极的反馈,而完成地不好则会有相应的惩罚。像ChatGPT这样的LLM表现出的卓越性能都要归功于强化学习。

灵踪安全:Arbitrum昨日因channel 阻塞引发内存泄漏,出现网络故障:9月14日晚,以太坊 Layer2 项目Arbitrum出现网络故障,其交易排序器因为内存泄漏而停止运行。根据灵踪安全漏洞检测系统提示:内存泄漏的位置在源码SequencerBatcher.SendTransaction() 函数中。

此处漏洞是因为channel 阻塞导致大量goroutine 没有及时释放,引发内存泄漏。建议在处理并发时,考虑channel的阻塞情况。当存在高并发条件时,为channel写入数据时,加上select default 处理。[2021/9/15 23:27:04]

ChatGPT使用来自人类反馈的强化学习,通过最小化偏差对模型进行微调。但为什么不是监督学习呢?一个基本的强化学习范式由用于训练模型的标签组成。但是为什么这些标签不能直接用于监督学习方法呢?人工智能和机器学习研究员SebastianRaschka在他的推特上分享了一些原因,即为什么强化学习被用于微调而不是监督学习。

chaoex创始人宣布4月8号恢复提币申请:炒客网chaoex.info创始人金京国在朋友圈做出回应

根据目前的实际情况以及最大可行性承受能力,决定计划如下:

1.4月8日前撤回所有申请提币,由4月8日下午16点开始恢复申请提币,期间将全部手动审核。

2.4月8日开放首批申请,计划暂实行首次单账户不高于500usdt或5个ETH或0.1BTC,第二次开放申请将会根据资金情况提高10%,第三次再提高10%,以此类推直到全部申请处理完毕。根据测算,每次可用于处理的资金量大约为6-8万USDT或等值资产,目前这个数据随着时间同样会慢慢增长。因目前的资金尚未得到充分解决,原则上单人可多次申请,但为了用有限的资金尽量照顾到所有首次申请提币客户,单次多笔提币申请者有可能会拖后或者计入第二次开放队列中。(除USDT、ETH、BTC以外的资产申请,也将于4月15日对外发布解决办法)。

3.承诺每次开放周期不超过30天,一切都根据客观情况决定,并且会在官网发布。极个别特殊情况的申请,也会视实际情况尽可能满足需求并妥善处理。

此前网传炒客网chaoex.info创始人金京国疑似跑路,目前受害人已达几百人,受金额超过一个亿,用户从19年开始就出现无法提币等问题。[2020/4/4]

不使用监督学习的第一个原因是,它只预测等级,不会产生连贯的反应;该模型只是学习给与训练集相似的反应打上高分,即使它们是不连贯的。另一方面,RLHF则被训练来估计产生反应的质量,而不仅仅是排名分数。

SebastianRaschka分享了使用监督学习将任务重新表述为一个受限的优化问题的想法。损失函数结合了输出文本损失和奖励分数项。这将使生成的响应和排名的质量更高。但这种方法只有在目标正确产生问题-答案对时才能成功。但是累积奖励对于实现用户和ChatGPT之间的连贯对话也是必要的,而监督学习无法提供这种奖励。

不选择SL的第三个原因是,它使用交叉熵来优化标记级的损失。虽然在文本段落的标记水平上,改变反应中的个别单词可能对整体损失只有很小的影响,但如果一个单词被否定,产生连贯性对话的复杂任务可能会完全改变上下文。因此,仅仅依靠SL是不够的,RLHF对于考虑整个对话的背景和连贯性是必要的。

监督学习可以用来训练一个模型,但根据经验发现RLHF往往表现得更好。2022年的一篇论文《从人类反馈中学习总结》显示,RLHF比SL表现得更好。原因是RLHF考虑了连贯性对话的累积奖励,而SL由于其文本段落级的损失函数而未能很好做到这一点。

像InstructGPT和ChatGPT这样的LLMs同时使用监督学习和强化学习。这两者的结合对于实现最佳性能至关重要。在这些模型中,首先使用SL对模型进行微调,然后使用RL进一步更新。SL阶段允许模型学习任务的基本结构和内容,而RLHF阶段则完善模型的反应以提高准确性。

郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。

区块博客

[0:31ms0-12:755ms