在大模型的竞赛中,参数规模往往被视为性能的决定性因素。但近期,Liquid AI 的研究团队提出了一个不同寻常的案例:一个仅有 3.5 亿参数的模型,经过微调后,竟能在中短上下文的实时日语英语翻译任务上,与 GPT-4o 竞争。
这一模型被命名为 LFM2-350M-ENJP-MT, 在多项评测中,它的表现不仅在同类模型中遥遥领先,甚至比其自身大 2 个数量级的模型表现更好。

图|LFM2 速度与其他模型速度对比(来源:Liquid AI)
与 LFM2-350M-ENJP-MT 一同发布的是 LFM2-350M-ENJP-MT-GGUF,也就是该模型的 GGUF 格式版本。GGUF 是一种经过优化等二进制格式,能加快模型的加载与存储,从而提高推理效率。GGUF 专为 GGML 及其他执行器设计,而 GGML 等执行器可以帮助大模型在商用硬件上实现高性能运作。
这一点,契合了 Liquid AI 的战略:打造真正能在移动端与边缘设备落地的 AI 系统。成立于 2023 年的 Liquid AI,由来自 MIT 的研究员 Ramin Hasani 和 Mathias Lechner 创办。团队的目标就是致力于打造兼具性能与效率的基础模型,并推动其在设备端的普及应用。

图|Liquid AI 创始人(来源:LinkedIn)
当前,LFM2-350M-ENJP-MT 还在特定方面有所不足,尤其是其处理超长文本以及专业或语境敏感的翻译的能力,例如: 技术及专业用语(医学、法律、工程);新专有名词(新产品、品牌、文化);或行业、领域内部特有的术语。
Liquid AI 表示,他们将与开源社区合作,持续微调改进 LFM2-350M-ENJP-MT。未来,或许有越来越多这样的“小模型”在更多复杂场景中发挥作用。
参考资料:
https://www.liquid.ai/blog/liquid-foundation-models-v2-our-second-series-of-generative-ai-models
https://huggingface.co/LiquidAI/LFM2-350M-ENJP-MT
运营/排版:何晨龙
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237