在7000多种人类语言中,只有少数被现代语音技术听见,如今这种不平等或将被打破。Meta发布的Omnilingual ASR系统能识别1600多种语言,并可通过少量示例快速学会新语言。以开源与社区共创为核心,这项技术让每一种声音都有机会登上AI的舞台。
你或许很难想象,在世界上7000多种活跃语言中,只有几百种享受过现代语音技术的「宠爱」。
绝大多数人类语言的使用者——从非洲部落的土著、亚马逊雨林的族群,到乡野小镇仍讲着古老方言的老人—— 一直生活在数字时代的旁白之外。
1600种语言,只是开始Meta此次推出的Omnilingual ASR创造了语音识别覆盖语言数量的新纪录,支持超过1600种语言,其中包括500种此前从未被任何AI系统转录过的语言。
相比之下,OpenAI开源的Whisper模型只支持99种语言,而Omnilingual ASR几乎将这一数字提升了一个数量级。

庞大的模型需要海量数据来支撑——Omnilingual ASR训练使用了超过430万小时的语音音频,涵盖1239种语言的素材。
这是有史以来最大规模、多样性最高的语音训练语料之一。如此大体量的数据加上社区贡献的长尾语言语料,确保了模型对各种语言都学到稳健的语音表示,甚至对完全没见过的语言也有良好的泛化基础。
正如研究论文所指出的,「没有任何模型能预先涵盖世界上所有语言,但Omnilingual ASR让社区能够用自己的数据持续拓展这份清单」。
这标志着语音AI从此具备了自我生长的生命力,能够与人类语言的丰富多样性共同进化。
当技术放下傲慢,以开源姿态拥抱多元,当每一种语言的声音都有机会被聆听和记录,当没有任何一种语言被数字世界遗忘,我们离真正消弭语言鸿沟又近了一大步,人类的连接才能真正开始消除边界。
参考资料:
https://ai.meta.com/blog/omnilingual-asr-advancing-automatic-speech-recognition
本文来自微信公众号“新智元”,作者:新智元,36氪经授权发布。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237