• 欢迎使用千万蜘蛛池,网站外链优化,蜘蛛池引蜘蛛快速提高网站收录,收藏快捷键 CTRL + D

「开源GPT-4」如何革新AI领域?Llama 3发布,Meta AI实现免登录可用!


LLM界的「真·Open AI」,又来整顿AI圈了!

业内惊呼:首个开源GPT-4级的模型,终于来了!开源模型追上闭源模型的历史性一刻,或许就在眼前了?

一石激起千层浪,Llama3才刚刚发布没几小时,就破纪录地登顶了Hugging Face排行榜。

这次,Meta共开源了Llama38B和Llama370B两款模型,分别有预训练和指令微调两个版本。

小扎、LeCun也纷纷在第一时间开启了宣传模式。

Llama3是在由24000块GPU组成的定制集群上,使用15万亿个token训练的。

甚至就连最小8B版本,有时都能打败大出一个数量级的Llama270B!

值得期待的是,在未来几个月,Llama3还将推出更多版本

不过,虽然上下文长度相较之前实现了翻倍,但依然只有8K。

网友:首个「开源GPT-4」来了

Karpathy精辟地总结道,400B模型将会是「首个开源GPT-4级别的模型」。

Jim Fan感慨道:

OpenAI研究科学家Will Depue也表达的同样的看法,非常期待一款开源GPT-4级别的模型——Llama3400B,未来的可能性无穷无尽!

Meta在博客中预告了,接下来几个月,将发布多个新功能的模型,包括多语言对话、更长上下文,以及整体能力提升。

128K token分词器+GQA

在架构上,Meta依然为Llama3选择了Transformer架构。

这个架构是相对标准的纯解码器Transformer,不过相比于Llama2做了几个关键改进。

15万亿token训练,7倍于Llama2

同时,大型高质量的训练数据集也至关重要。

为了预训练数据,团队投入了大量资源。

Scaling Law依旧是王道

为了有效利用预训练数据,团队在扩大预训练规模上,投入了大量精力。

针对下游基准评估,Meta开发了一系列详细的缩放定律。这就保证团队能够选择最佳的数据组合,同时最佳地利用训练计算资源。

创新指���微调

同时,团队也对指令微调进行了创新。

Meta采用的后训练方法,是监督微调(SFT)、拒绝采样、近端策略优化(PPO)和直接策略优化(DPO)的组合。

Meta发现,在SFT中使用的提示和在PPO与DPO中使用的偏好排序,对对齐模型的性能的影响完全超出了预期。

而通过PPO和DPO从偏好排序中学习,Llama3在推理和编码任务上的性能也大大提高了。

更安全

在部署上,团队采用了一种新的系统级方法。

Meta将Llama模型设想为一个更广泛系统的一部分,让开发者坐在驾驶座上。Llama模型将作为系统的基础部分,开发者在设计时会考虑最终的目标。

Ins、Facebook等APP无缝集成

正如前面所说,Meta AI也可以在Facebook、Ins、WhatsApp和Messenger的搜索中使用。

这样的优势在于,可以随时访问来自网络的实时信息,无需在不同应用程序之间切换。

不过,作图的话,是个例外。

其实,Meta AI助手在去年的Connect大会上,小扎首次做了预告。

想要组织周末短途旅行,却来不及做出行计划?不用担心!

- 目的地:您要去哪里?

- 持续时间:您将旅行多少天?

- 旅行类型:是海滩度假、城市探险、户外探险还是其他?

Meta AI首先会根据要求提出三个关于旅行问题,再去量身定制一份旅行清单!

又或是你在数学问题上苦苦挣扎?需要让工作邮件显得更专业?Meta AI都可以提供帮助!

让Llama3画一幅自画像。

Ins、Facebook等APP无缝集成

正如前面所说,Meta AI也可以在Facebook、Ins、WhatsApp和Messenger的搜索中使用。

这样的优势在于,可以随时访问来自网络的实时信息,无需在不同应用程序之间切换。

除了在网页版,Meta AI的图像功能还可以在WhatsApp中体验。

可以清晰看到,Meta AI如何将你的想象变为现实。

参考资料:

https://about.fb.com/news/2024/04/meta-ai-assistant-built-with-llama-3/

https://ai.meta.com/blog/meta-llama-3/

https://llama.meta.com/llama3/

感谢观看,如有问题欢迎留言评论,也欢迎关注、点赞和分享!

本文链接:https://www.24zzc.com/news/171389172070383.html

蜘蛛工具

  • 域名筛选工具
  • 中文转拼音工具
  • WEB标准颜色卡