旷视科技推出「地表最小」多模态视觉大模型Vary-toy:麻雀虽小技能俱全,GTX 1080Ti显卡轻松运行,开源免费玩
一款名为Vary-toy的超小体积的大模型来了!模型大小不到20亿参数,消费级显卡可训练,几年前的GTX1080Ti 8G的老显卡轻松运行。
你想将一份图片文档转换成Markdown的格式?
以往需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤。而现在只需一句话命令:
无论中英文,图片中的大段文字都能分分钟提取出来:
对一张图做对象检测,还是能给出具体坐标的那种:
Vary-toy项目的研究由来自旷视科技、国科大、华中大的研究人员共同提出。
据介绍,Vary-toy虽小,但却几乎涵盖了目前LVLM(大型视觉语言模型)主流研究中的所有能力:文档OCR识别、视觉定位、图像描述、视觉问答。
现在,Vary-toy代码和模型均已开源,并有在线demo可试玩。
网友对于这款大模型,最感兴趣的地方莫过于执行训练的运算卡竟然是GTX 1080,心情Be like:
“青春版”Vary模型
其实,去年的12月,该研发团队就发布了Vary大模型的首项研究成果“Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models”。
研究人员指出CLIP视觉词表在密集感知能力上的不足,并用一种简单有效的扩充词表方案给出了一种全新的OCR范式。Vary发布后得到广泛关注,目前Github得到了超过1200颗星星,但也有不少人因为资源受限运行不了。
考虑到目前开源得很好且性能出色的“小”VLM比较少,于是该团队又新发布了号称是“年轻人的第一个多模大模型”的Vary-toy。
与Vary相比,Vary-toy除了小之外,也训练了更强的视觉词表,新的词表不再将模型局限于文档级OCR,而是给出了一个更加通用和全面的视觉词表,其不仅能做文档级OCR,还能做通用视觉目标检测。
那这究竟是如何做到的?
Vary-toy的模型结构和训练流程如下图所示,总的来说,训练共分两个阶段。
首先在第一阶段,使用Vary-tiny+结构,预训练出一个相比原版Vary更好的视觉词表,新的视觉词表解决了原Vary只用它做文档级OCR的网络容量浪费问题、以及没有充分利用到SAM预训练优势的问题。
然后在第二阶段中,将第一阶段中训好的视觉词表merge到最终结构进行multi-task training/SFT。
众所周知,一个好的数据配比对于产生一个能力全面的VLM是至关重要的。
因此在预训练阶段,Vary-toy使用了5种任务类型的数据构建对话,数据配比和示例prompt如下图所示:
而在SFT阶段,只使用了LLaVA-80K数据。更多的技术细节,可以查看Vary-toy的技术报告。
实验测试结果
Vary-toy在DocVQA、ChartQA、RefCOCO、MMVet四个基准测试的得分如下:
Vary-toy在DocVQA上可以达到 65.6%的ANLS,在ChartQA上达到59.1%的准确率,RefCOCO88.1%的准确率:
MMVet上可以达到29%准确率,无论是从基准测试评分上还是可视化效果上,不到2B的Vary-toy甚至能和一些流行的7B模型的性能一较高下。
项目地址:
https://varytoy.github.io/
-
旷视科技推出「地表最小」多模态视觉大模型Vary-toy:麻雀虽小技能俱全,GTX 1080Ti显卡轻松运行,开源免费玩
一款名为Vary-toy的超小体积的大模型来了!普通消费级显卡就可以训练,几年前的GTX 1080Ti 8G的老显卡轻松运行。
2025-02-17 15:49:14 -
苹果疯狂招兵买马布局AI大模型技术研发:6月WWDC发布iOS 18系统,将搭载升级版Siri
《金融时报》报道,苹果公司正低调地进行一系列与人工智能相关的收购和人才招聘,目的是为其下一代 iPhone 装配端侧的 AI 技术做准备。
2025-02-17 15:14:36 -
腾讯文档AI版开启全民公测:一键生成Word/Excel/PPT/思维导图等,助你实现「年终总结」自由
1月26日,腾讯文档宣布,「腾讯文档AI版」开启公测,面向全体用户开放AIGC内容生成体验,支持常用的全品类文档生成、跨类型的文档信息转换处理等。
2025-02-17 14:49:02 -
阿里发布视频生成模型MotionShop:支持AI数字人物一键替换,让“二次元老婆”跳宅舞,免费玩!开源圈杀疯!
阿里杀疯了!又整出跳舞模型新活儿——全新的AI数字人像生成模型框架。新框架支持一键替换原视频当中的动态人物,并且完美还原原版舞蹈。
2025-02-17 14:27:35 -
猎豹移动发布猎户星空大模型丨OpenAI奥特曼计划创办芯片研发公司丨Stability AI发布迷你模型Stable LM 2 1.6B
【AI奇点网2024年1月23日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-02-17 14:02:20 -
微软在线AI生成图像平台Image Creator新增关联OneDrive云盘一键永久保存功能
1月18日,微软网络广告部门的主管表示,正改进旗下的AI图片生成工具Image Creator,用户生成的图片可以直接存储到OneDrive云盘中。
2025-02-17 13:34:26
-
阿里“通义听悟”升级:支持6小时超长视频内容解析提问,还可一键生成巨幅思维导图
阿里通义大模型应用产品“通义听悟”发布多项新功能,上线音视频问答助手“小悟”、一键 AI 改写、思维导图生成等六大功能。
2025-02-06 16:53:33 -
腾讯发布混元大模型原生AI应用「腾讯元宝」,已接入微信搜一搜,覆盖公众号内容生态
腾讯宣布旗下的主力大模型混元大模型全面升级,基于混元大模型打造了首个面向消费用户的APP「腾讯元宝」正式上线。
2025-01-21 14:37:34 -
AIGC基础应用教程丨探索AI在图像放大中的工具使用
当给到的图像素材尺寸太小或者不清晰的时候,有哪些好的AI图像放大的工具可以使用?本期就给大家推荐一些好用的工具
2025-02-06 14:24:28 -
国内大模型创企“月之暗面”发布Kimi模型重磅升级:扩容200万字上下文窗口,新增「继续」延长回复按钮
国内人工智能大模型创业公司“月之暗面”终于有了一次面向媒体的公开活动。发布了更长上下文窗口的版本:200万字上下文版本,即日起可在Kimi Chat上开启内测。
2025-02-06 17:17:20 -
小米公司开启小爱AI大模型多模态能力内测:支持图片内容问答、AI扩图、消除路人,适配小米14、Redmi K70等
3月15日,小米官方宣布小米社区开启新一轮的小爱AI大模型内测。现已开启“小爱同学多模态功能内测”。
2025-02-07 13:53:52 -
硅谷版“罗密欧与朱丽叶”:马斯克vs奥特曼的爱恨情仇丨从兄弟同心到对薄公堂,8年发生了什么?
硅谷版“罗密欧与朱丽叶”故事正在上演,马斯克是奥特曼的引路人,但让OpenAI获得今天的成功,奥特曼成为科技圈的新晋网红,决定性因素在于微软的入局。
2025-02-08 13:18:00 -
GPT-4上线一周年纪念日,OpenAI投资的机器人闪亮登场,这是我们目前能看到最接近终结者的样子
一家OpenAI投资的机器人初创公司Figure AI发布一段人形机器人的演示视频,一台基于GPT-4大模型开发,被命名为「Figure 01」的机器人横空出世。
2025-02-08 15:55:02 -
快手AI文生视频大模型【可灵】首发实测:这可能将成为真正意义的第一款「中国版Sora」
昨天,6月6号,是快手的13周年生日。在这一天,所有AI圈的人都想不到,快手在13周年之际,没有任何预兆、没有任何宣传,直接发布了他们的AI视频大模型。可灵。
2024-12-13 20:45:55 -
Stable Diffusion 3最新模型测评丨SD3模型ComfyUI流程简单搭建
由于前不久StabilityAI开放了SD3新模型的使用权,这期我们就简单聊聊这款新模型的使用方法,以及StabilityAI对于SD3模型的发布策略,和未来的发展预期!如果本期讯息对大家有所帮助,就点赞关注支持欧阳一下吧!
2024-12-13 21:10:24 -
科大讯飞星火大模型3.0实测:高能进化,给AI注入灵魂,部分能力与GPT-4旗鼓相当
科大讯飞星火认知大模型3 0正式发布。星火3 0的整体性能已经超越ChatGPT,部分能力与GPT-4旗鼓相当。科大讯飞立下又一个Flag,星火4 0要对标GPT-4
2024-12-13 22:43:43