当前位置: 首页 > 资讯 > 列表

紫东太初:造一个国产大模型,需用多少篇高质量论文? 天天视点

来源:个人图书馆-菌心说    时间:2023-06-19 13:57:32

什么是单目标图像?举一个例子,模型训练的目标是让模型找到一匹马,图片里只有马,这种更像实验室里的任务,而在现实世界,往往要求解决多目标图像的任务。

要我说,“古道西风瘦马”,瘦马摆出不同姿势,模型能不能认出?本质是理解目标。


【资料图】

“结庐在人境,而无车马喧”里车和马的关系,本质是理解目标与场景的关系,这都需要模型去学习。

因为常犯错误的本质是大模型不理解“关系”。如此这般,我估计在下一阶段做图片生成的时候,就可能把车生成在马脑袋上。

王金桥院长认为,论文研究的目标是学习关联关系之间的特征,学出来了,就掌握了“关系”。图片小块与小块之间的关系,以及与之对应的

这篇论文的方法是建造了一个视觉大模型预训练框架

这段话是我写的,但是表达也真够枯燥。知识图谱擅长关系,关系是一类特征。

视觉任务在上一阶段干了很多“找东西”的工作,比如目标检测。这些目标之间的关系里也藏着规律,模型需要继续学习。

王金桥院长解读:“不能只理解图片局部的内容,用自监督学习的预训练框架

在视觉自监督学习能力进步的背后,是学者们兼程而进。

不仅如此,王金桥院长继续谈道:“原来模型只是学一个层次,现在一口气学三个层次。专业说法是,学习不同粒度之间的统一表达。学得更多,懂得越多。论文作者们的目的是尽量把视觉信息里所有的特性信息都学出来。”

向上一路。论文作者们希望视觉大模型能够学到通用的世界的知识,来路可鉴,一路向前,往通用大模型的方向发展。

通用大模型若无法实现“统一表达”,遑论“通用”。小模型有小模型的用处,但是,一堆小模型“一起干活”的工作方法不会是主流。

绝大多数的从业者是从小模型起家。王金桥院长的观点是:“别被你眼前拧了一个螺丝钉的活,限制了你对整体大局的判断。”

过去成功,未来未必成功。

下功夫也意味着,打硬仗、重投入、周期长、有耐心。

我把

大模型需要计算集群才能完成艰巨的训练任务,如果大模型只有三个难点,那分布式框架会是其中一个。

作为典型的基础工作,在这个方面,谷歌

没有分布式框架无法训练“身负”大参数量的大模型。从论文出产的角度,这是一个大模型的基础工作在目标检测任务上跑了一个结果,顺便发了一篇顶级学术会议论文而已。这项工作的负责人是朱优松博士。

同时,我也了解到这个分布式框架曾跑在鲲鹏实验室早期的计算集群上。

目标检测是指在图像或视频中定位和识别对象,是计算机视觉领域的一个重要问题,但是在这篇论文中,论文作者们有一种“项庄舞剑,意在沛公”的意味,目标检测任务不是目的,而是想用目标检测任务为后续的视觉自监督打基础。

训练时用较大批次样本会加大训练难度,困难有两个方面:一方面支持训练的基础软件要有实力,一方面需要梯度优化技术。

论文中梯度优化技术的方法是

这个矩衰减的函数就相当于一个有序列的矩阵。这个矩阵先进先出,后进后出,维持了一个有一定规模的矩阵,好比一个过渡作用的房间。

炼就一个国产大模型所包含的技术难度史无前例,“紫东太初”大模型跋山涉水,从顶级工程实践和先进理论两个角度验证现有工作,河山带砺,春山可望。

国产大模型注定艰难,作为科技科普作者的我,学习上进的压力也很大。科学家们夜以继日,直面时代挑战。有时候,他们也是我的精神支柱。午夜星光,凌晨拂晓,每每加班加不下去的时候,想起他们也在加班,我的心里就舒服多了,继续写。

X 关闭

Copyright www.caikuang.b0.cn 版权所有
网站备案号:京ICP备2021034106号-36
邮箱:55 16 53 8 @qq.com