> 自媒体 > (AI)人工智能 > 首见 | DeepSeek 解封“算力智子”后,数据成 AI 未来发展关键
首见 | DeepSeek 解封“算力智子”后,数据成 AI 未来发展关键
来源:钛媒体APP
2025-08-30 10:21:00
159
管理
DeepSeek 之前:被算力算法“智子”围困的中国 AI

主流的AI大模型训练方式主要是基于 Transformer 进行下一个 Token 的预测。即从互联网为主要渠道来吸收数千亿级的海量数据,并用进行类似均值的匹配,对匹配结果偏差比较大的,也就是通常说的“大模型幻觉”(详见上篇《AI 幻觉的一体两面》),进行人工打分/直接指导打标签,以此来提升模型的准确性。

在算法方面,过去普遍观点是由于投入方面不对等,致使我国和OpenAI为代表的美国头部AI大模型公司有着至少1~2年的差距。根据CB Insights 发布的数据,2024年中国AI初创企业筹集的资金仅占美国AI初创企业的 7%。丰厚的资金储备意味能高薪招“全球绝顶聪明人”形成在研发创新上的碾压,进一步巩固算法优势。在DeepSeekV3之前,我国人工智能领域所面临的情况不可谓不严峻。

高质量的可用数据是企业应用AI最突出的挑战

在 DeepSeekV3和R1推出之后,顶尖的模型效果和用户体验,加上其开源的特性,大大缓解了我国在算法和算力上的困境,但数据方面的挑战依然存在。

数据是食材,食材的品质、丰富度及新鲜度都决定了最终菜品的口感和品质上限。对于大模型而言,高质量数据能够保障模型推理回答的准确性。而多模态多种类的数据,能提升模型的泛化性和推理能力,尤其是在机器人的大脑(VLA 等)上。此外,还需要进行联网搜索并定期更新数据集,来确保模型回复结果的时效性和准确性。

就可用数据量上,国内和国外有着天然差距。据W3Techs调研前一百万互联网网站使用的语言文字百分比,其中英文占比为59.3%,而中文只有 1.3%。相比于美国的头部AI公司,国内可供训练的公开中文数据不够多,标准化程度也不够高。

从结果来看,数据已是目前企业应用 AI 最突出的挑战。根据IDC和浪潮信息发布的研究显示,目前企业在应用人工智能中所面临挑战最大的是缺乏高质量可用数据,占比高达66%。在此之后才是成本高、技术成熟度、人才缺乏等新兴领域通用挑战。

另一方面,数据采集与处理是目前国内企业在生成式 AI 应用时的主要支出方向,尤其是对于工作流程繁琐、决策链路较长、业务类型众多的公司而言,其业务数据需要经过层层筛选、处理和业务理解后,才能成为标准化的高质量数据,再用于模型的训练和推理。

图片来源:BOSS直聘

此外值得注意的是,在爆火后DeepSeek开启了数据百晓生的实习生招聘,岗位要求不高但薪资丰厚,已经远超一般的数据外包公司全职人员水平,从侧面体现出其对高质量数据的重视程度。值得注意的是,该岗位优先考虑小语种专业,这或许是为了更好地进军全球市场所做的铺垫和准备。

具身智能、自动驾驶领域同样面临数据挑战

在近期的演讲及访谈中,上海交大博导、穹彻智能联合创始人卢策吾教授指出:当下,具身智能的研究路线正处于瓶颈期,具身智能面临的两大核心挑战之一是数据规模存在“太平洋缺口”。工业级应用对具身智能设定了严格的红线标准,为达到这一标准,所需的数据量堪称海量。然而,数据采集模式难以有效填补这一巨大的数据缺口。

图片来源:NOEMATRIX

当前数据采集面临着一系列棘手问题:遥操作需要购置价格昂贵的机器人设备及相关配套技术,并且操作人员需要经过专业培训。这些因素导致成本高昂,从而限制了数据采集的规模。

为突破具身智能大模型的 Scaling Law 约束,实现数据采集的规模化并降低数据获取成本,需要找到一种既能保证数据真实性,又不影响人们日常工作的数据采集方法。

在自动驾驶领域,随着 2024 年开始智驾领域走向端到端时代,数据的重要性空前提升。

端到端技术的核心在于通过大量数据训练模型,使其能够识别和预测各种驾驶场景。高质量数据的输入,直接决定了模型输出的准确性和可靠性。这些数据不仅需要涵盖各种道路条件、天气变化和交通情况,还要确保其标注的准确性和多样性。

传统模块化算法需要改变控制策略时,可以找到代码中具体的几行参数修改,之后测试 1%的案例即可,而端到端的算法中,小的改动需要重新对自动驾驶算法进行训练,难度可想而知。

因此,海量的、多样化的、优质的数据不可或缺,同时自动化、高水平的数据处理体系亦至关重要。根据业内专家意见,华为在智驾方面的一半投入用在了数据采集和处理上。毫不夸张地说,端到端时代,数据会占据自动驾驶开发中 80%以上的研发成本。

从数据维度看,海量且优质的数据正成为自动驾驶行业的“稀缺品”。自动驾驶采用的BEV感知方案,需要达到1亿帧以上的训练数据才能满足车规要求,否则泛化性、准确率和召回率就难以保障。

以特斯拉为例,马斯克曾表示,特斯拉FSD测试里程需要达到60亿英里,才能满足全球监管机构的要求,这也是自动驾驶系统实现质变的一个重要节点。2024年5月,在解决了算力瓶颈之后,马斯克表示更大的难点在于对长尾数据的收集,其获取难度和成本对比通用数据则是指数级激增。业内目前普遍观点是,长尾数据只能通过仿真或数据生成的方式来解决。

获取高质量数据的“三板斧”:标注、采集、生成

标注、采集和生成,是目前获取高质量数据的三种方式。

数据标注,主要分为人工标注和机器人标注。发展至今,实际应用中以人机协同标注为主,即企业开发的自动化标注平台,先对入库数据进行预标注,节省人力的同时保证一定的准确度。再由专业或有经验的人员对机器预标注的数据进行进一步的鉴别和处理,进一步提升数据质量和准确度。随着技术和业务的发展,未来有望出现自动化标注程度和准确性均较高的平台或软件,在大模型产业链中人力参与最重的环节降本增效。

数据采集,目前数据采集主要通过人工、设备或者爬虫等方式进行采集。数据采集通常面向除语料、图片和视频外更多样的数据,所应用领域也更加广泛,除了人形机器人领域所广泛应用的动捕采集还是自动驾驶领域广泛应用的实车采集,还包括 AI4S 和机器视觉领域主要应用的设备参数采集和实景三维采集等。

目前数据采集是上述前沿科技领域的必备关键环节,其成本也是高居不下。因此,上述行业内也催生出高质量高效率进行数据采集、加工处理和挖掘分析的痛点诉求。随之孕育而生的就是数据生成。

数据生成主要是通过数据扩张、预测或限定条件下的随机生成等方式进行,目前处于发展早期,其中获得广泛关注的是世界模型。世界模型的目的是生成可编辑、有物理特性的高质量虚拟场景,完成对现实世界的复刻或虚拟世界的构建,从而在里面进行数据的处理和模型的训练,在数据获取成本和多样性上具有发展前景。

但值得注意的是,世界模型是通过算法来实现的,在数据精度上难以匹敌的高精密仪器设备的实景或实物采集,并不能完全替代数据采集,但可以实现非常有效的互补。

筑牢“高质量数据地基” 政府正加速行动

今年以来,为解决人工智能产业中的数据痛点,多地政府加速推动高质量数据建设。

2月19日,国家数据局在北京召开高质量数据集建设工作启动会。这不仅彰显了国家对数据要素的高度重视,也预示着我国数据产业发展将迈入新阶段。

2月18日,《武汉市促进人工智能产业发展若干政策措施》的发布会上明确将聚焦工业制造、医疗健康、科研创新等12个行业领域,推进公共数据、企业数据与个人数据分类分级开发利用,建设不少于20个高质量数据集。

3月18日,武汉市数据局发布支持高质量数据集建设和数据产品利用的公开征求意见稿,对相关单个标的予以最高 200 万元的支持。

3月3日,深圳市工信局于发布《深圳市加快打造人工智能先锋城市行动计划(2025—2026年)》,明确加快构建高价值垂类数据集和具身智能数据集。其中明确指出,将形成3PB中文语料数据,并在宝安、龙华两个区建设具身智能数据采集基地,形成多模态训练的开源数据集。

我们能看到,近年来由大疆、DeepSeek、“六小龙”所展现的中国科技创新变革并非局部的突发事件,而是举国推动科创时代下,人才红利叠加完备产业链形成坚实基础,并由科研型企业家实现范式创新,完成从量变到质变的结果呈现。

还有很多尚在量变积累的优秀创业者和研发团队在日夜兼程,政府也在积极推动基础设施建设给创新提供土壤,历史反复应验,曾种过的种子都会开花结果,只是需要时间和机缘罢了。

参考资料:

1、新浪财经,《外媒:DeepSeek受关注 登顶140国应用商店榜首》

2、上观新闻,《创新纪录!DeepSeek成史上最快突破3000万日活APP》

3、IDC、浪潮信息,《2025年中国人工智能计算力发展评估报告》

4、极客学长,《DeepSeek R1 破圈的核心技术解读,你不能不知道的 AI 干货!》

5、无相君,《中美大模型的差距,究竟在哪儿?》

6、张小珺,《朱啸虎现实主义故事1周年连载:“DeepSeek快让我相信AGI了”》

7、穹彻智能,《2025 全球开发者先锋大会:具身智能语料工程启动,“生产伴随” 引领未来》

8、极智GeeTech,《无数据不智能,数据闭环重塑高阶智驾未来》

9、复旦大学 张奇教授,《生成式AI大会(上海站)2024》公开演讲

10. 国金证券,《AI行业关键时刻:瓶颈与机遇并存》

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
三菱退出中国?官方回应:将与现有伙伴继续合作
6月23日,有媒体报道称,三菱汽车将逐步取消包括欧洲、中国在内的市场业..
2026款三菱帕杰罗曝光,第二代超选四驱+2.4T/2.0T双动力..
硬派越野圈的“老将”居然换小排量了?2026款三菱帕杰罗刚露出消息,就把..
恩智浦计划退出5G功率放大器业务;三星或将退出SATA SSD市场;三菱化学出售..
五分钟了解产业大事每日头条芯闻 恩智浦计划退出5G功率放大器业务我国首..
实拍三菱全新欧蓝德!搭1.5T四缸,内饰配大屏,不比奇骏香?..
在重庆车展上,全新一代三菱欧蓝德终于在国内亮相了,相比其国外的发布时..
试驾广汽三菱奕歌:小巧灵动
■ 阅车试驾车型:广汽三菱奕歌长/宽/高(mm):4405/1805/1685轴距(mm..
新车 | 四驱越野MPV/配侧滑门/2.2T柴油机,新款三菱Delica D:5亮相..
文:懂车帝原创 高帅鹏[懂车帝原创 产品] 日前,2025东京车展开幕,新款..
三菱集团的传奇发家史
“三菱”两个字,在日本就像一把瑞士军刀:银行、飞机、汽车、火箭、寿司..
2026款三菱Montero曝光,S-AWC四驱+差速锁全配,普拉多见了..
当 “普拉多见了都得慌” 的话题在越野圈炸锅,2026 款三菱 Montero 的曝..
日韩巨擘数据,三星2.1万亿三菱21万亿,中国第一谁?..
图片来源于网络2025年,让人火大的资本较量又来一波。韩国三星手里握着2...
关于作者
黑暗森林(普通会员)
文章
1699
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索