比特币:一文了解 ChatGPT 等 LLMs 得到明显改进的 3 个变化_Metaseer

原文作者:TanyaMalhotra

来源:Marktechpost

近年来,大型语言模型在全世界受到了广泛赞赏,并在自然语言处理领域备受欢迎。这使我们能够使用比以往任何时候都更好、更清晰的语言理解来描述智能系统。

诸如GPT-3、T5、PaLM等LLMs的性能有了显着提高,并且这些模型将继续存在,因为它们可以完成从通过学习阅读来模仿人类,到生成文本和总结长段落内容的所有工作。而根据一些深入的研究,如果LLM的规模很大,那么它的表现就会很好。通过在大量数据上训练这些模型,它们可以理解人类语言的语法、语义和语用学。?

电竞俱乐部G2 Esports将于2月发布基于Solana区块链的NFT系列:金色财经报道,欧洲著名电竞俱乐部 G2 Esports 将于 2 月份发布基于 Solana 区块链的 NFT 系列“Samurai Army NFT”,该系列总共有 6,262 个NFT,将使用 Solana 的 Metaplex 协议铸造,每一个都具有随机生成的资料图片,NFT将为持有者提供独家访问权和其他俱乐部特权,例如与其他用户一起进入社交俱乐部,与 G2 的专业电子竞技玩家互动,提前获得 G2 未来的 NFT 发布等等。报道称,Samurai Army 与 Metaplex 的合作是一个“长期项目”,最终将扩展到其他方式,包括游戏、漫画、音乐等。[2022/1/23 9:07:08]

由OpenAI开发的流行的大型语言模型ChatGPT之所以发展得如此之快,正是因为采用了人类反馈强化学习等先进技术。通过RLHF,机器学习算法结合并使用人工输入提高了模型的性能。它针对预训练的LLM进行了微调,用于开发聊天机器人、虚拟助手等任务。

VoiceStreet将推出电竞战队成员定制版Daffy Panda NFT形象:10月11日消息,音乐NFT平台VoiceStreet宣布与电子竞技俱乐部“天霸”达成合作,将以天霸战队5位队员的形象来创作五款定制版的DaffyPanda熊猫虚拟形象。DaffyPandaGangingUp是一款基于音乐游戏来发的限量版NFT系列。天霸电子竞技俱乐部是由国内艺人陈赫、爽全联合创办的电子竞技战队,艺人鹿晗也是该战队的电竞合伙人。[2021/10/11 20:20:12]

此外,ChatGPT等LLMs所基于的预训练基础模型也得到了明显的改进。这主要是由于三个方面的变化:

加密货币衍生品交易所 Bybit 赞助电竞战队 Astralis 与 Alliance:加密货币衍生品交易所Bybit在继上周赞助电竞战队NAVI后,再次宣布与电竞战队Astralis与Alliance签订赞助协议。此次伙伴关系不仅囊括队服、社交媒体与数字频道,Bybit还将联合这两支战队参与碳中和计划、金融教育、慈善等议程。与NAVI一样,Astralis与Alliance的队员及其粉丝也将参与由Bybit举办的世界加密货币交易系列赛(WSOT)。据Bybit表示,本次赞助将有机会吸引两支战队在全球超1130万的追随者。[2021/8/23 22:32:07]

1.实践证明,模型的扩展性对提高其性能很有帮助。以Pathways语言模型为例,该模型通过扩展小样本学习大大影响了其性能,小样本学习可以减少根据具体应用调整模型所需的特定任务训练实例的数量。

通过使用Pathways语言模型在6144TPUv4芯片上扩展和训练5400亿个参数,PaLM展示了重复扩展的好处,其表现超过了各种传统模型,并显示出很大的进步。因此,深度和宽度的扩展都是提高基础模型性能的一个重要因素。

2.另一个变化是在预训练时增加标记数量的过程。像Chinchilla这样的模型已经证明,通过增加预训练数据,大型语言模型的表现会更好。

Chinchilla是一个计算最优模型。在相同的计算预算下,在70B参数和比Gopher模型多四倍的数据上进行训练,Chinchilla的表现一致优于Gopher,它甚至比GPT-3、Jurassic-1和Megatron-TuringNLG等LLMs效果更好。这清楚地描述了对于每一个计算最优的训练,标记的数量应该相应地缩放——即模型大小的两倍,因此训练标记的数量应该是两倍。?

3.第三个变化是使用干净和多样化的预训练数据。Galactica的性能证明了这一点,它是一种存储、混合和推理科学知识的大型语言模型。经过几篇科学论文文本的训练,Galactica的表现优于GPT-3、Chinchilla等模型。另一个大型语言模型BioMedLM是一种针对生物医学文本的特定领域LLM,在针对特定领域数据进行训练时,它表现出了巨大的性能提升。它清楚地表明,在特定领域的数据上进行的预训练胜过在通用数据上的训练。

结论

LLMs的成功无疑归功于多种因素的混合,包括RLHF的使用和预训练基础模型的发展。这三个变化极大地影响了LLMs的性能。此外,GLaM通过使用稀疏激活的混合专家架构,以更少的训练成本扩展模型的容量,从而显着提高了性能。因此,这些变化为更高级的语言模型开辟了道路,而这些模型将继续让我们的生活变得轻松。??

郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。

区块博客

[0:0ms0-7:576ms