苹果官宣端侧小模型 OpenELM

0
7151

苹果近日在 AI 代码社区 Hugging Face 上发布了 OpenELM 大模型。这是一个由不同参数大小构成的一系列开源大型语言模型,配备生成文本、代码、翻译、总结摘要等功能。

据了解,该系列模型包含 2.7 亿、4.5 亿、11 亿和 30 亿共 4 个不同参数版本。具体而言,一共包括 4 个预训练模型和 4 个指令调优模型。相较于微软 Phi-3 Mini 的 38B 和谷歌 Gemma 的 20B,OpenELM 的运行成本更低,手机、笔记本电脑等设备均可在脱离云服务器的情况下支持其运行。

论文称,OpenELM 使用了 “分层缩放” 策略,来有效分配 Transformer 模型每一层参数,从而提升准确率。与今年 2 月发布的 OLMo 开放式 LLM 相比,在约 10 亿参数规模下,准确率提高了 2.36%,同时需要的预训练 token 减少了 50%。

指令调优方面,结果显示,在不同的评估框架中,指令调优都能将 OpenELM 的平均准确率提高 1-2%。

论文显示,该系列模型在来自 Reddit、维基百科、arXiv.org 等的 1.8 万亿个 tokens 的公共数据集上进行预训练。

此外,苹果的论文指出,他们分别在配备 Intel i9-13900KF CPU、配备 NVIDIA RTX 4090 GPU、运行 Ubuntu 22.04 的工作站以及配备 M2 Max 芯片和 64GB RAM、运行 macOS 14.4.1 的 MacBook Pro 上运行了基准测试。

值得关注的是,苹果在论文中表示,这些模型没有任何安全保证,这意味着,该系列模型依然有可能根据用户和开发人员的提示词产生一些不准确、有害、有偏见的输出。

AI 服务企业 Aquant CEO 兼联合创始人 Shahar Chen 表示,苹果发布 OpenELM 是 AI 界的一大重点突破,提供了更为高效的 AI 处理功能,是计算能力有限的移动或物联网设备的理想选择。因此,该模型使从智能手机到智能家居设备的迅速决策成为可能,成功挖掘了 AI 在日常生活中的技术潜力” 。

资料来源:综合报道;图片来源:Hugging Face

Previous article消息称字节跳动宁愿关闭 TikTok 也不出售
Next article佰翔琨烁酒店,旅途中的艺术•家

LEAVE A REPLY

Please enter your comment!
Please enter your name here