中文语言大模型的现实窘境:缺乏高质量的语料库与开源数据集
AI奇点网6月2日报道丨为什么国内的语言大模型如雨后春笋般萌发,但是十分好用又能媲美ChatGPT的几乎没有呢?每天几乎都能从各大媒体的评论区听到类似的声音——“这一看就是ChatGPT套壳”“又是拿国外开源的大模型然后谎称是自研吧”之类的评价。
诚然,目前国产的大模型还有诸多需要追赶国际先进企业的差距。业内人士对这个现象的解释是,高质量的中文数据集实在紧缺,训模型时只能直接购买外文标注数据集或者直接采集开源的国外语料库作为外援。一旦“进口语料”加入的训练参数量多了,就会出现跟ChatGPT相似的回答方式。
业内渐渐形成共识:通往AGI的道路,对数据数量和数据质量都将持续提出极高的要求。
目前的国际主流大模型,参数数据集主要以英文为主,如Common Crawl、BooksCorpus、WiKipedia、ROOT等,最流行的Common Crawl中文数据尽然只占据4.8%,你要想想,中国是一个14亿人口大国,竟然凑不出一个强大的语料库,多少有点男子国足的窘境。
目前的中文数据集是什么情况?公开数据集不是没有,近2个月来,国内不少团队先后开源了中文数据集,除通用数据集外,针对编程、医疗等垂域也有专门的开源中文数据集发布。开源的还包括MSRA-NER、Weibo-NER等,以及GitHub上可找到的CMRC2018、CMRC2019、ExpMRC2022等存在,但整体数量和质量,和英文数据集相比可谓九牛一毛。并且其中相当一部分的内容已经非常陈旧。
要想尽快训练出中文大模型,行之有效的解决方法之一,是直接用英文数据集训大模型。不嫌麻烦的话,甚至可以给模型接一个翻译软件,把所有语言都转换成英语,然后把模型的输出转换为中文,再返回给用户。但是这种转译的方法是不能满足中文博大精深的语言系统,也无法翻译出古诗词和古典经文还有成语,存在极大的文化冲突。
国内不少大模型团队决定走自己的第二条路,着手利用私有数据库做数据集。比如:百度有内容生态数据,腾讯有公众号数据,知乎有问答数据,阿里有电商和物流数据。这些具备较强的社交属性平台的训练团队选择先将这些收集到的人类沟通数据进行严格搜集、整理、筛选、清洗和标注,能保证训出模型的有效性和准确性。
不具备社交属性的企业就用爬虫工具从全网爬数据,华为为了打造盘古大模型,从互联网爬取了80TB文本,最后清洗为1TB的中文数据集;浪潮源1.0训练采用的中文数据集高达5000GB;天津超算中心的天河天元大模型也在全域搜集整理网页数据,同时集成各种开源的数据集。值得注意的是,除了预训练数据,目前阶段人类反馈数据同样不可或缺。
必须强调的是,光有巨量的中文数据集还是不够的,还需要有人为AI提供用户反馈。提供人类反馈最直接的办法,就是告诉AI助手“你的回答不对”,或者直接在AI助手生成的回复旁边点赞或踩一踩。
先用起来就能先收集一波用户反馈,让雪球滚起来,这就是为什么大家都抢着发布大模型的原因之一。现在,国内的类ChatGPT产品,从百度文心一言、复旦MOSS到智谱ChatGLM,都提供了进行回答结果的用户反馈按钮。所以建议各位致力于希望中国AIGC产业崛起的小伙伴们,当遇到AI回答出现错误或者不令人满意的时候,可以高抬贵手点一个赞或者点一个踩。
-
中文语言大模型的现实窘境:缺乏高质量的语料库与开源数据集
目前的国际主流大模型,参数数据集主要以英文为主。你要想想,中国是一个14亿人口大国,竟然凑不出一个强大的语料库,多少有点男子国足的窘境。
2025-04-26 10:17:07 -
OpenAI后悔了!对外人透露ChatGPT后续开发计划后,要求撤回
OpenAI CEO奥特曼邀请20位AI产业的高级技术人员举办了一次闭门会议,其中一名与会者将OpenAI的后续AI开发计划公布于世。
2025-04-26 09:55:26 -
AI版权第一战!老牌摄影图库网站正式起诉AI绘画平台Stable Diffusion
英国一家老牌的摄影图库网站 Getty Images 已正式在英国发起对 Stability AI 的商业版权诉讼,Stability AI是开源 AI 艺术生成器 Stable Diffusion 的开发商。
2025-04-26 09:35:12 -
5月份,美国至少有4000人因为AI技术取代被解雇
据不完全统计,今年5月份美国企业的裁员人数激增,其中有 5% 是因为被人工智能技术AIGC发展而所致。
2025-04-25 17:01:31 -
英伟达财报会被提及86次:「AI」成为了企业老板们最爱“唠叨”的话题
生成式 AI 似乎成为了所有人都在谈论的话题,各大企业的老板们也都知晓此事,并且在不断的对 AI 发表着各自的看法。
2025-04-25 16:32:08 -
阿里发布“通义听悟”智能音视频助理服务:基于通义千问大模型,首发免费领100小时
阿里云举行AI产品应用发布会,宣布通义大模型进展,聚焦音视频内容的AI新品“通义听悟”正式上线,成为国内首个针对音频视频内容转制文本的大模型应用产品。
2025-04-25 16:02:34
-
AI绘画ComfyUI进阶教程丨如何实现Clip精准控图,流程自动化入门!
大家好,又到学习时刻? 本期跟大家分享CLIP构图相关的一些进阶基础内容,以及自动化逻辑编程基础,希望能对大家有所启发,最后不要忘记支持欧阳一波啦?!
2024-12-17 13:16:14 -
大语言模型「新王」Claude 3全面测评:原生多模态大模型各项能力实力超群,连打麻将都学会,实测比GPT-4好用
OpenAI「不可战胜」的神话,看样子是要被打破了。Claude 3的多版本发布后,“中杯”Sonnet直接免费体验,“大杯”Opus充个会员也能即刻享受,各路测评纷至沓来。
2024-12-13 18:57:45 -
阿里旗下夸克APP上线“AI学习助手”:内置海量试题,拍照一键解疑,巧用大模型帮助当代学子高效备考、快速进阶
夸克“AI学习助手”采用夸克宝宝的虚拟形象为用户进行题目讲解。基于大语言模型和视觉技术,AI智能讲解能够给用户提供 “考点分析”、“详解步骤”、“答案总结”等详细内容。
2025-02-18 16:08:16 -
有手就行:Stability AI推出简笔画生成图片工具Stable Doodle
近日,图像生成模型 Stable Diffusion 背后的初创公司 Stability AI 推出了一项新的服务,可以将简笔画转换为图像。这项服务名为 Stable Doodle,利用最新的 Stable Diffusion 模型分析简笔画的轮廓,让每个人都能得到堪称艺术的作品。
2025-04-10 13:09:46 -
应用商店下载排行第一,“Meta版推特”Threads注册用户超5000万
新上线社交应用Threads已注册激活用户超过5000万,该数字仍在持续增长。当前在英国和美国苹果应用商店免费应用中的下载量排名第一。
2025-04-14 13:36:13 -
Music To Image音生图工具是什么_AI音频生成图像工具有哪些_AI音生图工具有哪些_Music To Image怎么用
「Music To Image」是一款AI音频生成图片的多模态转换工具,它的本质生成逻辑是音频→文本提示词→图像。
2024-12-17 00:06:33 -
字节跳动公测首个AI聊天机器人App“豆包”丨快手首个大语言模型“快意”亮相丨腾讯:下半年发布自研基础大模型
【AI奇点网2023年8月21日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-04-04 15:01:22 -
ChatGPT怎么本地登录_GPT怎么使用_GPT本地项目
本期就ChatGPT的这次更新再次将完全新人使用指南提上日程,并对此次更新做些设想和想象。希望大家喜欢!
2024-12-19 07:41:20 -
钉钉发布V7.5版本:首次推出AI个人助理产品「超级助理」,人人都可以创建专属的AI助理并上架应用市场
钉钉举行V7 5版本的迭代产品发布会,钉钉正式发布了基于70万家企业需求共创的AI助理产品,推动AI的使用门槛进一步降低,让人人都能创造AI助理。
2025-02-19 14:21:28 -
上美股份创始人否认因AI裁员,称今年总体人数会增800人
国货美妆公司创始人否认因“AI”裁员。2月6日,有网传截图称,上美股份创始人在工作群里下达了淘汰人员的任务。6日晚间,记者从知情人士方面了解到,上美股份创始人、董事长兼CEO吕义雄发朋友圈辟谣称,“我们公司不
2025-02-19 15:46:14