小模型正在成为AI巨头的新战场。
今天一早,OpenAI突然发布了GPT-4o的迷你版,——GPT-4o mini。该模型取代了原来的GPT-3.5,并在ChatGPT 上作为免费模型提供。它的API 价格也非常漂亮,每百万个输入代币只需15 美分,每百万个输出代币只需60 美分,比之前的SOTA 模型便宜一个数量级,比OpenAI 之前最便宜的GPT-3.5 Turbo 便宜60 美分。 多于。
OpenAI 首席执行官萨姆·奥尔特曼(Sam Altman) 将此描述为:实现智能的成本已经变得“太便宜而无法计量”。
与往往拥有数千亿参数的大型模型相比,小型模型的优势显而易见:不仅计算成本更低,而且更方便训练和部署,能够满足各类应用的需求。有限的计算资源和较高的数据安全级别。场景。因此,除了大力投入大型模型训练之外,OpenAI、Google等科技巨头也在积极训练小型且有用的模型。
事实上,在OpenAI 正式公布GPT-4o mini 的几个小时前,号称“欧洲版OpenAI”的Mistral AI 也正式公布了一款小型型号——Mistral NeMo。
这个小模型由Mistral AI 和NVIDIA 联合构建,拥有120 亿个参数(12B)和128k 的上下文窗口。
Mistral AI 表示,Mistral NeMo 的推理能力、世界知识和编码准确性是同类产品中最先进的。由于Mistral NeMo 依赖于标准架构,因此它易于使用,并且可以直接替代任何使用Mistral 7B 的系统。
下表将Mistral NeMo 基础模型与两个最新开源预训练模型(Gemma 2 9B 和Llama 3 8B)的准确性进行了比较。 (严格来说,这种比较并不公平,毕竟Mistral NeMo的参数数量比其他两者多得多)
表1:Mistral NeMo 基础模型与Gemma 2 9B 和Llama 3 8B 的性能比较。
他们在Apache 2.0 许可证下发布了预训练的基本检查点和指令微调检查点,允许商业使用。 Mistral NeMo 经过量化感知训练,可用于FP8 推理,不会造成任何性能损失。
面向大众的多语言模型
该模型专为全球多语言应用程序而设计。它经过函数调用训练,具有较大的上下文窗口,并且在英语、法语、德语、西班牙语、意大利语、葡萄牙语、中文、日语、韩语、阿拉伯语和印地语中表现尤其出色。
图1:Mistral NeMo 在多语言基准测试中的表现。
《铁拳》:更高效的分词器
Mistral NeMo 使用一种新的基于Tiktoken 的分词器Tekken,该分词器已经过100 多种语言的训练,可以比之前Mistral 模型中使用的SentencePiece 分词器更有效地压缩自然语言文本和源代码。压缩源代码、中文、意大利语、法语、德语、西班牙语和俄语时效率提高约30%。压缩韩语和阿拉伯语时,效率提高了2 倍和3 倍。事实证明,与Llama 3 分词器相比,《铁拳》在压缩所有语言中约85% 的文本方面表现出色。
图2:《铁拳》的压缩比。
指令微调
Mistral NeMO 经历了先进的微调和对准阶段。与Mistral 7B 相比,其遵循精确指令、推理、处理多轮对话和生成代码的能力显着提高。
表2:Mistral NeMo 指令微调模型的精度。使用GPT4o作为裁判进行评估。
Mistral NeMo 基础模型和指令微调模型的权重均托管在HuggingFace 上。
基础模型:https://huggingface.co/mistralai/Mistral-Nemo-Base-2407 指令微调模型:https://huggingface.co/mistralai/Mistral-Nemo-Instruct-2407 您现在可以使用mistral-inference 尝试Mistral NeMo 并使用mistral-finetune对其进行调整。
该模型还作为NVIDIA NIM 推理微服务打包在容器中,可在ai.nvidia.com 上获取。
模型变小之后,小公司也可以利用AI赚钱。
Nvidia 应用深度学习研究副总裁Bryan Catanzaro 在接受Venturebeat 采访时详细阐述了小模型的优势。他说:“小型模型更容易获得和运行,并且可以有不同的商业模式,因为人们可以在家里自己的系统上运行它们。事实上,Mistral NeMo 可以在许多人已经拥有的RTX GPU 上运行。”
这一发展正值人工智能行业的关键时刻。虽然人们的注意力主要集中在具有数千亿参数的大型模型上,但人们对可以在本地商品硬件上运行的更高效模型的兴趣越来越大。这种转变是由对数据隐私的担忧、对更低延迟的需求以及对更具成本效益的人工智能解决方案的渴望推动的。
Mistral-NeMo 128k 的上下文窗口是一个突出的功能,允许模型比许多竞争对手处理和理解更多的文本块。 “我们认为长上下文功能对于许多应用程序可能很重要,”卡坦扎罗说。 “如果不需要微调,模型将更容易部署。”
这种扩展的上下文窗口对于处理冗长文档、复杂分析或复杂编码任务的企业尤其有价值。它有可能消除频繁刷新上下文的需要,从而产生更一致的输出。
该模型的效率和本地部署功能可能会吸引在连接有限或数据隐私要求严格的环境中运营的企业。不过,卡坦扎罗澄清了该模型的预期使用场景。 “我会更多地考虑笔记本电脑和台式机,而不是智能手机,”他说。
这一定位表明,虽然Mistral-NeMo 让人工智能更接近个人企业用户,但尚未达到移动部署的水平。
行业分析师认为,该产品的推出可能会极大地扰乱人工智能软件市场。 Mistral-NeMo 的推出代表了企业人工智能部署的潜在转变。通过提供可在本地硬件上高效运行的模型,NVIDIA 和Mistral AI 正在解决阻碍许多企业广泛采用AI 的问题,例如数据隐私、延迟以及与基于云的解决方案相关的高成本。
此举可以创造公平的竞争环境,让资源有限的小型企业能够利用以前只有拥有大量IT 预算的大公司才能使用的人工智能功能。然而,这种发展的真正影响将取决于模型在现实应用程序中的表现以及围绕它构建的工具和支持生态系统。
随着各行业的企业继续致力于将人工智能融入其运营中,Mistral-NeMo 等模型代表了向更高效、可部署的人工智能解决方案的转变。这是否会挑战更大的基于云的模型的主导地位还有待观察,但它无疑为人工智能在企业环境中的集成开辟了新的可能性。
参考链接:https://mistral.ai/news/mistral-nemo/
标签:
用户评论
哎呀,看到Mistral和NVIDIA都开源了12B小模型,这真是让人激动啊!128k上下文感觉太强大了,期待这些小模型能带来更多创新。
有19位网友表示赞同!
小模型也能有这么大的作用?12B的参数量,128k的上下文,听起来很厉害的样子。不过得先看看效果再说。
有18位网友表示赞同!
12B小模型,128k上下文,这数据量真不小啊。不过,开源了就能让大家共同进步,期待看到更多的应用场景。
有15位网友表示赞同!
看了这个汇总,感觉现在小模型的研究真是热闹非凡。Mistral和NVIDIA的开源,真是给学术界和工业界带来了福音。
有20位网友表示赞同!
128k上下文的小模型,听起来像是专为长文本处理设计的。Mistral和NVIDIA这步棋下得不错,期待后续的成果。
有20位网友表示赞同!
12B小模型,128k上下文,这配置太给力了。不过,不知道这些小模型在实际应用中的表现如何。
有12位网友表示赞同!
小模型汇总,这个标题就让我眼前一亮。Mistral和NVIDIA的12B小模型,128k上下文,真是让人期待不已。
有16位网友表示赞同!
看到Mistral和NVIDIA开源的12B小模型,我不得不感叹技术的进步。128k上下文,听起来像是专为长文本设计的,期待看到实际效果。
有7位网友表示赞同!
12B小模型,128k上下文,这配置真让人心动。不过,对于普通用户来说,这些技术离我们还有多远呢?
有12位网友表示赞同!
这个小模型汇总真不错,Mistral和NVIDIA的贡献值得称赞。128k上下文的小模型,感觉在问答、对话等领域有很大的应用潜力。
有9位网友表示赞同!
Mistral和NVIDIA开源的小模型,参数量不大,但上下文支持128k,这让我想到了一个词:高效。期待看到更多高效应用案例。
有15位网友表示赞同!
12B小模型,128k上下文,这配置太棒了。不过,不知道这些小模型在训练过程中是否容易过拟合。
有11位网友表示赞同!
看到Mistral和NVIDIA的小模型开源,我赶紧研究了一下。128k上下文,感觉在处理长文本时会有很大的优势。
有15位网友表示赞同!
小模型汇总,这个标题就让我觉得内容丰富。Mistral和NVIDIA的12B小模型,128k上下文,这配置简直完美。
有17位网友表示赞同!
12B小模型,128k上下文,这配置太惊艳了。Mistral和NVIDIA这次开源,对整个AI领域都是一个推动。
有10位网友表示赞同!
Mistral和NVIDIA的小模型开源,感觉对学术界和工业界都是一个好消息。128k上下文,太实用了。
有5位网友表示赞同!
这个12B小模型,128k上下文,真是让我眼前一亮。Mistral和NVIDIA这步棋下得很好,期待看到更多创新。
有14位网友表示赞同!
小模型汇总,这个标题就让我对内容充满了期待。Mistral和NVIDIA的12B小模型,128k上下文,这配置真是太棒了。
有18位网友表示赞同!
12B小模型,128k上下文,这配置确实强大。不过,我更关心的是这些小模型在实际应用中的效果如何。
有20位网友表示赞同!
看到Mistral和NVIDIA开源的小模型,我有点兴奋。128k上下文,这配置对于长文本处理来说,真是如虎添翼。
有16位网友表示赞同!