这些模型结合了高分辨率照片的动态平铺技术,在不牺牲推理能力的情况下显著提高了 OCR 相关任务的性能。
性能
在性能方面,NVLM 1.0 模型在多个基准测试中取得了令人印象深刻的成绩。
归功于在训练过程中集成了高质量的文本数据集,在 MATH 和 GSM8K 等纯文本任务中,NVLM-D1.0 72B 模型比其纯文本骨干提高了 4.3 分。
在视觉问题解答和推理任务中,这些模型还表现出了强大的视觉语言性能,在 VQAv2 数据集上的准确率为 93.6%,在 AI2D 上的准确率为 87.4%。
在 OCR 相关任务中,NVLM 模型的表现明显优于现有系统,在 DocVQA 和 ChartQA 数据集上的准确率分别为 87.4% 和 81.7%,突出显示了其处理复杂视觉信息的能力。
NVLM-X 和 NVLM-H 模型也取得了这些成绩,它们在处理高分辨率图像和多模态数据方面表现出色。
研究的主要发现之一是,NVLM 模型不仅在视觉语言任务中表现出色,而且还保持或提高了纯文本性能,这是其他多模态模型难以达到的。
例如,在基于文本的推理任务(如 MMLU)中,NVLM 模型保持了较高的准确率,在某些情况下甚至超过了纯文本模型。
想象一下在自动驾驶汽车中的应用场景。NVLM 1.0 可以通过摄像头实时获取道路信息,并与车辆导航系统进行语言沟通。
它不仅能识别交通标志,还能理解复杂路况下的人类指令,例如“如果前方有施工,请寻找替代路线”。这得益于其强大的视觉-语言处理能力以及出色的文本推理能力,使得自动驾驶更加智能、安全、可靠。
小结
英伟达开发的 NVLM 1.0 模型代表了多模态大型语言模型的重大突破,该模型通过在多模态训练中集成高质量文本数据集,并采用动态平铺和高分辨率图像平铺标记等创新架构设计,解决了在不牺牲性能的前提下平衡文本和图像处理的关键难题。
NVLM 系列模型不仅在视觉语言任务方面超越了领先的专有系统,而且还保持了卓越的纯文本推理能力,让多模态人工智能系统的发展又向前迈进一大步。
IT之家附上参考地址