瞭望|人工智能的“数据瓶颈”
中国科学院自动化研究所人形机器人攻关团队研制的谱系化人形机器人(2024年1月31日摄) 金立旺摄/本刊数据海洋的“圈地运动”海滨港口、城市霓虹、幼犬互动……近日,由美国人工智能文生视频大模型sora生成的数个视频迅速吸引了世界目光。与“文生图”不同,Sora发布的视频长达60秒,具有丰富的运动变化,其中物品相互之间的作用关系、物理规律的刻画都达到了近乎以假乱真的地步。从物体互动到光影斑驳,屏幕上像素点的变换令人击节叹赏。像Sora这样的生成式人工智能并不是“无中生有”。不同于以往为人们所熟悉的判别式人工智能,生成式人工智能本质上是一种建立在大模型和预训练基础上的运用海量数据所生成的“模拟器”。海国图智研究院院长、暨南大学教授陈定定认为,快速涌现人工智能成果高度依赖于大量、多样化的数据。华大集团首席执行官尹烨说,发展人工智能,拼的不仅是“象牙塔尖”的算法更新,更是来源于开放性市场庞大的数据积累。基于庞大数据和超高算力的“暴力美学”,是当前生成式人工智能的核心打法,也是以OpenAI为代表的一众企业的发展关键。简单来说,在同等条件下,喂的数据越多,人工智能就越强。有数据显示,从GPT到GPT2再到GPT-3,OpenAI将模型参数从1.17亿提升到15亿,然后爆炸式地提升到1750亿,以至于GPT3比以前同类型的语言模型参数量增加了十倍以上。作为数字之海的基本构成要素,海量、优质的数据争夺已经成为国家和企业间的无声战场。OpenAI旗下产品的使用条款就明确提及,企业将保留交互数据的使用权。基于数字技术形成的通用数据、优质数据垄断,可能将成为这场数字拓荒当中,后发者无法逾越的天堑。在一定程度上可以说,掌握数据,就掌握了包括人工智能等众多未来产业的主导权。AI“肥料”不足如果说数据是人工智能成长的“肥料”,那么人类或许将很快面临“无肥可施”的境地。清华大学公共管理学院教授梁正在接受采访时提到,全球范围内,数据存量的增长速度远远低于数据集规模的增长速度。据人工智能研究机构epoch的研究预测,语言数据可能在2030~2040年耗尽,其中能训练出更优性能的高质量语言数据甚至可能在2026年耗尽。优质中文语料的大面积缺失,让AI学会说好中文成为一件难事。业内人士介绍,全球目前最有科学性和经过验证的语料来自学术资料库,包括期刊和文化、出版物,遗憾的是,在这些载体上发表文章的语言绝大部分都是英语。一项研究显示,1900~2015年,收录于SCI的有3000多万篇文章,其中,92.5%的文章是以英语发表的;SSCI出版的400多万篇文章中,93%的文章是用英语发表。在ChatGPT的训练数据中,中文语料比重不足千分之一,英文语料占比超过92.6%。业内人士表示,目前我国仍有大量专业领域的信息数据处于相对封闭的状态,只能在机构内部的数据库和图书馆查看,数据缺失使大模型存在一定的领域盲区,开发潜力不足。例如,在医疗数据方面,由于历史和习惯等复杂原因,医疗机构之间存在严重的“数据孤岛”问题。《全民健康信息化调查报告》的数据显示,2021年,我国的三级医院平均只有不到20%的医疗机构采用了医疗大数据应用,二级医院更低,不足5%。清华大学苏世民书院院长、人工智能国际治理研究院院长薛澜在近期的公开演讲中谈到,中国数据质量比较低也是一个问题。中国的数据量很大,但没有真正产业化,相对标准化的数据服务商还比较少,因为大数据服务不赚钱,公共数据企业没有意愿去清洗,定制化服务又一般收费比较高。因此,数据市场如何构建也是需要解决的问题。数实融合解“数据瓶颈”对于生成式人工智能来说,其核心技术特性是概率计算+标注训练。依赖大量的高质量标注数据,它才能够有效地学习并做出正确的预测和决策。在2024年全国**上,有代表委员建议建立数据合规的监管机制和评估办法,加强数据安全和知识产权的保护措施,加快高质量中文数据集的开发与利用。面对可能出现的“数据荒”,梁正认为,除了此前数字化建设中已有的结构化数据资源,还有大量以语音、视频、工艺参数、操作记录等形式构成的非结构化产业数据尚可开发。此外,由计算机模拟或算法生成的带有注释的合成数据也可用于大模型训练之中,进一步提高数据质量和数量、降低数据采集和处理的成本。不少业内人士推测,Sora可能已经通过使用了基于数据驱动的Unreal Engine5(虚幻引擎5)大量生成了合成数据作为训练集。3月23日,国内首个千亿参数多模态金融大模型“财跃F1金融大模型”在2024全球开发者先锋大会(GDC)上首发。随着国内大模型在垂直领域加速落地,各类精细化的产业数据,又将成为新一轮的“金矿”。“挑战在于产业数据生态的构建”,深圳开鸿数字产业发展有限公司首席执行官王成录等专家认为,“必须克服各人自扫门前雪的单兵作战思维。”“海量工业数据由于缺乏采集而逸散。”一位从事制造行业多年的企业家表示,我国产业数据采集存在现实软肋,加强产业数据自有化,推动行业间形成数据平台,是走向垂类人工智能的必经之路。 -
瞭望|人工智能的“数据瓶颈”
基于庞大数据和超高算力的“暴力美学”,是当前生成式人工智能的核心打法,也是以OpenAI为代表的一众企业的发展密码。简单来说,在同等条件下,喂的数据越多,人工智能就越强 在全球范围内,数据存量的增长速度远远
2025-07-03 15:26:46 -
OpenAI、微软、谷歌等签署欧盟《人工智能公约》
当地时间9月25日,欧盟委员会公布了《人工智能公约》(AI Pact)的首批100多家签署方名单,该协议旨在促使企业就如何处理和部署人工智能发布“自愿承诺”。 虽然欧盟《人工智能法案》(the AI Act)已于上月生
2025-07-03 15:02:46 -
智谱AI成立新公司 注册资本3亿元
上证报中国证券网讯(记者 邓贞)9月25日,上证报记者从天眼查App获悉,近日,北京智谱兴曜科技有限公司成立,法定代表人为刘德兵,注册资本3亿元人民币,经营范围含人工智能基础软件开发、人工智能应用软件开发
2025-07-03 14:38:46 -
AI或助石油“降价延寿”
参考消息网9月25日报道据《日本经济新闻》9月23日报道,原油期货难以维持在高位,主要原因在于随着世界经济增速放缓,市场警惕石油需求或将逐渐减少。另外不可忽视的一点是,原油供应方生产效率提高,在一定程度
2025-07-03 14:14:46 -
人工智能应用场景不断拓展
观众在2024云栖大会前沿应用展馆与人形机器人互动。 新华社记者 黄宗治摄 在全球科技飞速发展的浪潮中,人工智能成为驱动经济和社会创新的强大引擎。一场由生成式人工智能引领的爆发式发展,打开了更多的“未来感”
2025-07-03 13:50:46 -
2024全球数字贸易创新大赛决赛拉开序幕,北京理工华汇、西恩科技荣获机器人与人工智能赛道金奖
9月25日,为期4天的2024全球数字贸易创新大赛(以下简称“数贸大赛”)在浙江杭州拉开帷幕。在首日举行的“机器人与人工智能”赛道决赛中,北京理工华汇智能科技有限公司、哈尔滨西恩科技有限公司摘得金奖,北京睿科
2025-07-03 13:26:46
-
OPPO发布全新手机端AI智能语音助手“新小布”1.0 Beta,并开启内测申请
OPPO宣布将携手芯片制造商联发科共同合作打造轻量化的大模型端侧部署方案,基于 AndesGPT 大模型打造的 OPPO 新小布 1 0 Beta 版尝鲜体验也正式开启。
2025-04-01 15:18:53 -
微信AI图像生成表格教程_一键将表格图片转为Excel文档
利用微信的“搜一搜”功能,借助AI成像生成,立马就可以帮你将一张截图或者拍摄的表格图像转为腾讯文档在线表格。
2024-12-23 17:27:21 -
人工智能如何与中医药交叉融合?这个中医论坛探讨前沿议题
12月28日,广州中医药大学举行百年校庆系列学术活动“百年岐黄 逐梦一流”青年菁英学者论坛。广州中医药大学校领导王宏斌介绍,论坛邀请来自中医、中药、中西医结合以及动物实验等各领域的杰出青年学者,旨在通过深
2025-05-05 21:44:51 -
2024,AI开始改变世界
人工智能(AI)技术在经历几年的高速发展后,终于在2024年开始取得井喷式爆发的成果应用。无论是今年年初文生视频大模型Sora带来的巨大冲击,还是全球多地自动驾驶汽车的普及、AI机器人开始在各行各业投入使用,
2025-05-08 12:47:33 -
AI医院离我们有多远?
看病、做检查有机器人导诊;根据检查结果,AI迅速给出诊断意见;手术台上各大医疗机构早已迈入机器人时代……随着科技的发展,AI医疗正在越来越多地影响着人们的生活。 目前,湖南各医疗机构主要有哪些AI技术,开展
2025-05-16 11:58:42 -
工信部:去年新增独角兽企业中,超半数来自新能源、人工智能等硬科技赛道
近年来,新增初创企业、独角兽企业数量有所减少,风投行业也面临各种挑战。对于创建独角兽企业面临的障碍,工业和信息化部副部长王江平在近日举行的国新办新闻发布会上表示,独角兽企业的成长,一方面需要企业自
2025-06-20 12:45:20 -
金融街论坛观察:“AI+金融”在多个业务领域落地开花
中新经纬10月20日电 (李自曼)AI与金融的融合正成为推动数字金融转型升级的重要力量。在2024金融街论坛年会期间,多位金融界和科技界专家学者、公司高管就“AI+金融”相关主题进行了深入探讨。 中国银行业协会首席信
2025-06-20 14:21:20 -
新加坡媒体:人工智能时代让中印重新评估彼此
新加坡《思想中国》杂志10月15日文章,原题:人工智能:中印关系中新出现的战略威慑力量?在近日的东亚峰会期间,中印未举行双边会谈。这表明了当前双方战略接触中的信任赤字。然而,双方需要重新接触,特别是在
2025-06-22 15:36:49 -
政府带货AI+推出49个应用场景
近日,深圳罗湖区政府带货人工智能,一次推出了49个应用场景,未来的罗湖将是一个AI触手可及的城区。 随着人工智能的触角深入到各行各业,如何利用AI在未来抢得发展先机,成为各级政府的必解题。在罗湖推出的49
2025-06-24 11:17:22 -
张军出席第19届亚太首席大法官会议并作专题发言表示 深化人工智能领域的司法交流合作 努力为人类司法文明进步作出新贡献
张军出席第19届亚太首席大法官会议并作专题发言表示 深化人工智能领域的司法交流合作 努力为人类司法文明进步作出新贡献 当地时间10月12日至13日,第19届亚太首席大法官会议在马来西亚吉隆坡举办
2025-06-25 11:06:12













