时刻

Meta推出Llama 2

Meta推出Llama 2

Meta 宣布推出 Llama 2,这是一个新的开源 AI 语言模型家族,以其商业许可而闻名,这意味着与前身不同,这些模型可以集成到商业产品中。据 Meta 称,它们的大小范围从 7 到 700 亿个参数不等,据 Meta 称,“在我们测试的大多数基准上,它们的表现都优于开源聊天模型”。

首席人工智能科学家 Yann LeCun 在推特上表示:“这将改变 LLM 市场的格局。” “Llama-v2 可在 Microsoft Azure 上使用,并将在 AWS、Hugging Face 和其他提供商上使用。”

据 Meta 称,其 Llama 2“预训练”模型(基本模型)接受了 2 万亿个 token 的训练,上下文窗口包含 4,096 个 token(单词片段)。上下文窗口决定了模型一次可以处理的内容的长度。 Meta 还表示,Llama 2 微调模型是为类似于 ChatGPT 的聊天应用程序开发的,已经接受了“超过 100 万条人工注释”的训练。

虽然在性能上无法与 OpenAI 的 GPT-4 相媲美,但 Llama 2 显然对于开源模型来说表现良好。 Nvidia 高级 AI 科学家 Jim Fan 表示,“70B 在推理任务上接近 GPT-3.5,但在编码基准上存在显着差距。在大多数基准上它与 PaLM-540B 持平或更好,但仍远远落后GPT-4和PaLM-2-L。”有关 Llama 2 性能、基准测试和构建的更多详细信息,请参阅 Meta 周二发布的一份研究论文。

今年 2 月,Meta 发布了 Llama 2 的前身 LLaMA,作为具有非商业许可证的开源版本。官方只对具有一定资格的学者开放,很快就有人将 LLaMA 的权重(包含经过训练的神经网络的参数值的文件)泄露到 torrent 网站,并在 AI 社区中广泛传播。很快,经过微调的 LLaMA 变体(例如 Alpaca)如雨后春笋般涌现,为快速增长的地下 LLM 发展场景提供了种子。

Llama 2 允许这项活动更全面地公开,并允许商业使用,尽管“上一个日历月每月活跃用户超过 7 亿”的潜在被许可人必须向 Meta 请求特别许可才能使用它,这可能会妨碍其免费被亚马逊或谷歌这样的巨头使用。

分享此文章