我们都知道,米斯特拉尔团队一直都是“话不多的人”。昨天下午,他们又抛出了一个没有任何注释的磁力链接。
解析该链接,可以看到总大小为23.64GB,包含4个文件,其中最大的是一个封装的多模态大模型。
快速发展的非官方Mistral 社区已将模型上传到Hugging Face。
磁力链接:magnet:xt=urn:btih:7278e625de2b1da598b23954c13933047126238adn=pixtral-12b-240910Hugging Face地址:https://huggingface.co/mistral-community/pixtral-12b-240 910好评如潮,有人将其与近期热门话题相比较列表。与中的Reflection模型对比,充分展现了Mistral团队脚踏实地的工作作风:
Pixtral 12B 规格和性能
模型的名称是pixtral-12b-240910。从名称可以看出,模型的参数数量为12B。
其中,params.jsom列出了模型的相关参数:
正如你所看到的,该模型有一个视觉编码器,支持10241024尺寸的图像,有24个隐藏层,并支持高级图像处理。
该模型有40 层、14,336 个隐藏维度和32 个注意力头。
另外,Pixtral 12B的词汇库有131,072个不同的token,可以说相当庞大,因此可以实现非常细腻的语言理解和生成。
从这些参数和配置也可以看出,Pixtral 12B至少能够处理文本和图像数据,实现多模态处理。
Pixtral 12B 的发布受到了好评,因为人们一直在等待开放模型社区获得易于使用的多模态模型。米斯特拉尔磁力链带我们朝这个方向迈出了一步。
不过,由于该模型刚刚发布,目前尚不知道其效果如何,但幸运的是,我们并非完全没有线索。就在昨天,Mistral 举办了一场低调的峰会——Mistral AI 峰会,演讲者包括Mistral 首席执行官Arthur Mensch 和Nvidia 首席执行官Jensen Huang。
在这张幻灯片中,我们可以看到Pixtral 12B 支持任何尺寸的图像和128k 的上下文窗口。此外,该模型还可以处理同时包含文本和图像的大型文档。
从具体性能指标来看,Pixtral 12B的性能虽然不如GPT-4o和Claude-3.5 Sonnet,但在所有基准测试上全面优于Claude-3 Haiku和Gemini-1.5 8B。
在几个开放的多模态模型中,Pixtral 在大多数基准测试中表现最好,仅略低于DocVQA 上的Qwen2 7B。
Mistral 演示了Pixtral 的一些具体用例。
通过OCR 将包含数学公式的科学文章图像转录为Markdown 格式?无压力!
识别潦草的笔迹也轻而易举。
提取图像信息并描述图像内容?这已经算是多模态模型的基本能力了,所以没有问题。
不仅如此,Pixtral 还可以理解更复杂的图像并从中提取关键信息和见解:
Pixtral还具有非常好的解释和推理能力。从具体指标来看,Pixtral 12B 在MMMU 和MathVista 上的多模态知识和推理性能领先于其他参与对比的模型(主要是开放模型,不含GPT-4o 和Claude-3.5 Sonnet)。多模态问答性能也表现出色,处于领先地位。
多模态命令遵从性和文本理解性能都不错,仅在某些指标上比Claude-2 Haiku稍差一些。
例如,它可以分析DNA图像来解释DNA的结构(我相信这种能力非常适合学习新知识):
HTML 代码也可以根据网页设计手绘草图的推断生成:
只需将试卷拍照并要求其回答数学选择题,您就可以轻松完成:
至于如何使用Pixtral 12B,当然如果你的硬件性能足够的话,你可以自己部署;但Mistral 开发者关系主管Sophia Yang 也表示,未来该模式将通过Mistral 的Le Chat 和La Platforme 提供。
Mistral 的愿景:让AI 易于使用且有用
他们认为,人工智能要发挥作用,最关键的是系统问题。
但对于不懂相关技术的普通用户来说,这个系统就显得非常复杂。 Mistral想做的就是简化用户的使用流程,降低用户的使用成本。他们希望将所有复杂的技术部分集成到La Platforme中,让用户通过简单的配置即可享受AI带来的便捷和高效。
此外,为了让AI具备解决复杂问题的能力,需要利用用户交互来持续训练AI模型。同时,需要不断地将新软件集成到AI工具箱中,以增强其能力。
目前,Mistral的模型矩阵已经包含了多种用于一般任务和科研任务的免费模型。
此外,该公司还开发了用于编程任务的Codestral模型,支持80多种编程语言并提供出色的性能。不过需要指出的是,虽然Mistral允许研究人员免费使用Codestral用于研究和测试目的,但如果想将其投入商业应用,则需要向其购买商业权限。 —— 这也是公司为数不多的盈利项目之一。
6 月,Mistral 在推出该公司的旗舰机型Mistral Large 2 后不久,以60 亿美元的估值筹集了6.4 亿美元的投资。
Mistral Large 2参数大小为123B,支持多种语言和函数调用,具有强大的推理和编码能力。虽然其整体性能不如目前最好的GPT-4o和Claude-3.5 Sonnet,但超过了405B参数的Llama 3.1。同样,Mistral Large 2 对于非商业用途也是免费的。
Mistral 团队绝对是AI 模型开发领域的一股清流。如今,AI领域普遍注重营销宣传。尽管Mistral 在Twitter 上有10 万粉丝,但它并没有关注任何人。它仅有的10 条推文几乎全部都是关于发布新车型的。其首席执行官Arthur Mensch 的个人账户也处于非活动状态。
Mistral AI 成立于2023 年5 月,是一家法国人工智能初创公司,也是欧洲大模型开源领域为数不多的明星团队之一。一个有趣的小事实是,由于该公司来自法国,Le Chat 实际上意味着“猫”,这就是为什么它的标志看起来像一只猫。
Mistral AI 此前于2023 年6 月筹集了创纪录的1.18 亿美元种子资金(据报道,这是欧洲历史上最大的种子轮融资)。当然,这个记录几天前被Ilya Sutskever 创立的Safe Superintelligence Inc. 打破了。
参考链接:
https://x.com/MistralAI/status/1833758285167722836
标签:
用户评论
哇,Mistral的Pixtral 12B多模式型号终于来了,我一直都很期待这款新品。不过,24GB的磁力链接释放太突然了,都没来得及好好研究一下功能。
有10位网友表示赞同!
听说24GB磁力链接直接释放,这是要干啥?Mistral的Pixtral 12B看着挺有意思的,但这样操作太不厚道了。
有12位网友表示赞同!
Pixtral 12B的多模式功能听起来很吸引人,但24GB的磁力链接直接放出来,这让我有点懵,不知道怎么入手。
有5位网友表示赞同!
Mistral的这款Pixtral 12B真的是诚意满满,多模式的设计太酷了。不过,24GB的磁力链接直接释放,这是不是意味着要大肆传播呢?
有8位网友表示赞同!
对于Mistral的Pixtral 12B,我其实不是很了解,但24GB磁力链接直接放出来,这让我对这个品牌刮目相看。
有17位网友表示赞同!
我对Mistral的Pixtral 12B的第一印象就是多模式设计,但是24GB的磁力链接直接释放,这让我有些担忧版权问题。
有12位网友表示赞同!
Pixtral 12B的多模式型号真的很惊艳,不过24GB的磁力链接直接放出来,这种做法让我有些不理解。
有5位网友表示赞同!
哎,Mistral的Pixtral 12B听起来不错,但24GB的磁力链接直接释放,这让我觉得有些不靠谱。
有17位网友表示赞同!
Pixtral 12B的多模式型号真是让人期待,不过24GB的磁力链接直接放出,这是不是意味着可以免费下载了呢?
有18位网友表示赞同!
一直在关注Mistral的Pixtral 12B,多模式的设计很有创意。但是24GB磁力链接直接释放,这让我有点害怕会泛滥。
有20位网友表示赞同!
Pixtral 12B的多模式功能让我眼前一亮,但24GB磁力链接直接释放,这做法是不是太大胆了些?
有14位网友表示赞同!
对于Mistral的Pixtral 12B,我更多的是好奇。24GB磁力链接直接释放,这是不是暗示着什么秘密呢?
有13位网友表示赞同!
Mistral的Pixtral 12B多模式型号太吸引人了,24GB磁力链接直接释放,这是不是意味着我们可以尽情探索了呢?
有5位网友表示赞同!
我对Mistral的Pixtral 12B很感兴趣,但24GB磁力链接直接释放,这让我担心会影响到正常的销售。
有6位网友表示赞同!
Pixtral 12B的多模式设计很有潜力,但24GB磁力链接直接释放,这是否意味着Mistral要颠覆市场规则呢?
有9位网友表示赞同!
看到Mistral的Pixtral 12B多模式型号,我很激动。不过,24GB磁力链接直接释放,这做法确实让人意外。
有7位网友表示赞同!
我对Mistral的Pixtral 12B很感兴趣,24GB磁力链接直接释放,这让我觉得Mistral很有勇气尝试新方式。
有19位网友表示赞同!
Pixtral 12B的多模式型号太让人心动了,24GB磁力链接直接释放,这做法虽然大胆,但也让我有些担忧。
有18位网友表示赞同!
Mistral的Pixtral 12B多模式型号真的很期待,24GB磁力链接直接释放,这做法让人又爱又恨。
有5位网友表示赞同!