紫东太初：造一个国产大模型，需用多少篇高质量论文？天天视点

当前位置：首页 > 资讯 > 列表

来源：个人图书馆-菌心说时间：2023-06-19 13:57:32

什么是单目标图像？举一个例子，模型训练的目标是让模型找到一匹马，图片里只有马，这种更像实验室里的任务，而在现实世界，往往要求解决多目标图像的任务。

要我说，“古道西风瘦马”，瘦马摆出不同姿势，模型能不能认出？本质是理解目标。

【资料图】

“结庐在人境，而无车马喧”里车和马的关系，本质是理解目标与场景的关系，这都需要模型去学习。

因为常犯错误的本质是大模型不理解“关系”。如此这般，我估计在下一阶段做图片生成的时候，就可能把车生成在马脑袋上。

王金桥院长认为，论文研究的目标是学习关联关系之间的特征，学出来了，就掌握了“关系”。图片小块与小块之间的关系，以及与之对应的

这篇论文的方法是建造了一个视觉大模型预训练框架

这段话是我写的，但是表达也真够枯燥。知识图谱擅长关系，关系是一类特征。

视觉任务在上一阶段干了很多“找东西”的工作，比如目标检测。这些目标之间的关系里也藏着规律，模型需要继续学习。

王金桥院长解读：“不能只理解图片局部的内容，用自监督学习的预训练框架

在视觉自监督学习能力进步的背后，是学者们兼程而进。

不仅如此，王金桥院长继续谈道：“原来模型只是学一个层次，现在一口气学三个层次。专业说法是，学习不同粒度之间的统一表达。学得更多，懂得越多。论文作者们的目的是尽量把视觉信息里所有的特性信息都学出来。”

向上一路。论文作者们希望视觉大模型能够学到通用的世界的知识，来路可鉴，一路向前，往通用大模型的方向发展。

通用大模型若无法实现“统一表达”，遑论“通用”。小模型有小模型的用处，但是，一堆小模型“一起干活”的工作方法不会是主流。

绝大多数的从业者是从小模型起家。王金桥院长的观点是：“别被你眼前拧了一个螺丝钉的活，限制了你对整体大局的判断。”

过去成功，未来未必成功。

下功夫也意味着，打硬仗、重投入、周期长、有耐心。

我把

大模型需要计算集群才能完成艰巨的训练任务，如果大模型只有三个难点，那分布式框架会是其中一个。

作为典型的基础工作，在这个方面，谷歌

没有分布式框架无法训练“身负”大参数量的大模型。从论文出产的角度，这是一个大模型的基础工作在目标检测任务上跑了一个结果，顺便发了一篇顶级学术会议论文而已。这项工作的负责人是朱优松博士。

同时，我也了解到这个分布式框架曾跑在鲲鹏实验室早期的计算集群上。

目标检测是指在图像或视频中定位和识别对象，是计算机视觉领域的一个重要问题，但是在这篇论文中，论文作者们有一种“项庄舞剑，意在沛公”的意味，目标检测任务不是目的，而是想用目标检测任务为后续的视觉自监督打基础。

训练时用较大批次样本会加大训练难度，困难有两个方面：一方面支持训练的基础软件要有实力，一方面需要梯度优化技术。

论文中梯度优化技术的方法是

这个矩衰减的函数就相当于一个有序列的矩阵。这个矩阵先进先出，后进后出，维持了一个有一定规模的矩阵，好比一个过渡作用的房间。

炼就一个国产大模型所包含的技术难度史无前例，“紫东太初”大模型跋山涉水，从顶级工程实践和先进理论两个角度验证现有工作，河山带砺，春山可望。

国产大模型注定艰难，作为科技科普作者的我，学习上进的压力也很大。科学家们夜以继日，直面时代挑战。有时候，他们也是我的精神支柱。午夜星光，凌晨拂晓，每每加班加不下去的时候，想起他们也在加班，我的心里就舒服多了，继续写。

X 关闭

推荐内容