麻省理工学院 | 一条通往更好的计算机视觉的更简单的途径

查学校

选专业

找案例

看排名

逛热点

下载App

关于我们

更多服务

400 183 1832

麻省理工学院 | 一条通往更好的计算机视觉的更简单的途径

指南者留学 2022-11-24 23:46:25 阅读量：1370

指南者留学全国统一咨询热线：<a href="tel:4001831832" style="color:#1677ff; text-decoration:none;">400-183-1832</a>，全国各地区、各分公司联系方式均为此号码。在机器学习模型能够完成一项任务之前，例如在医学图像中识别癌症，该模型必须经过训练。训练图像分类模型通常涉及向模型展示聚集在一个庞大数据集中的数百万例图像。   然而，使用真实的图像数据可能会引发实际和伦理方面的担忧:这些图像可能会违反版权法，侵犯人们的隐私，或对特定种族或民族群体有偏见。为了避免这些陷阱，研究人员可以使用图像生成程序为模型训练创建合成数据。但这些技术是有限的，因为通常需要专业知识手工设计一个图像生成程序，可以创建有效的训练数据。   来自麻省理工学院、MIT- ibm沃森人工智能实验室和其他地方的研究人员采取了不同的方法。他们没有为特定的训练任务设计定制的图像生成程序，而是从互联网上收集了21,000个公开可用的程序数据集。然后，他们使用大量的基本图像生成程序来训练计算机视觉模型。   这些程序产生各种各样的图像，显示简单的颜色和纹理。研究人员没有策划或修改这些程序，每个程序只包含几行代码。   与其他经过综合训练的模型相比，他们用这个大型程序集训练的模型对图像的分类更加准确。虽然他们的模型表现不如那些用真实数据训练的模型，但研究人员表明，增加数据集中图像程序的数量也会提高模型的性能，揭示了一条获得更高精度的路径。   “事实证明，使用大量未经策划的程序实际上比使用一小组人们需要操纵的程序要好。数据很重要，但我们已经证明，在没有真实数据的情况下，你可以走得很远，”在计算机科学和人工智能实验室(CSAIL)工作的电气工程和计算机科学(EECS)研究生Manel Baradad说，他是描述该技术的论文的主要作者。   合著者包括中国国际工程学院EECS系研究生王通洲;MIT-IBM沃森人工智能实验室首席科学家兼经理Rogerio Feris;Antonio Torralba，电气工程和计算机科学德尔塔电子教授，CSAIL成员;资深作者菲利普·伊索拉(Phillip Isola)， EECS和CSAIL的副教授;以及摩根大通银行和Xyla, Inc.的其他人。这项研究将在神经信息处理系统会议上发表。   反思pretraining   机器学习模型通常是预先训练的，这意味着它们首先在一个数据集上训练，以帮助它们构建可以用于处理不同任务的参数。x射线分类模型可以先使用大量合成生成的图像数据集进行预训练，然后再使用小得多的真实x射线数据集进行实际任务训练。 这些研究人员先前表明，他们可以使用少量的图像生成程序为模型预训练创建合成数据，但这些程序需要精心设计，以便合成图像与真实图像的某些属性匹配。这使得这项技术难以扩大规模。   在新的工作中，他们使用了大量的非策划图像生成程序的数据集。   他们从网上收集了21000个图像生成程序。所有的程序都是用一种简单的编程语言编写的，只包含一些代码片段，因此它们可以快速生成图像。   “这些程序是由世界各地的开发人员设计的，以产生具有我们感兴趣的一些属性的图像。它们产生的图像看起来有点像抽象艺术，”巴拉达德解释道。   这些简单的程序运行速度非常快，以至于研究人员不需要提前生成图像来训练模型。研究人员发现，他们可以同时生成图像和训练模型，从而简化了过程。   他们使用大量的图像生成程序数据集，对计算机视觉模型进行有监督和无监督图像分类任务的预训练。在监督学习中，对图像数据进行标记，而在无监督学习中，模型学习对没有标记的图像进行分类。   提高准确性   当他们将预先训练的模型与使用合成数据预先训练的最先进的计算机视觉模型进行比较时，他们的模型更准确，这意味着他们更经常地将图像放入正确的类别。虽然准确性水平仍然低于用真实数据训练的模型，但他们的技术将用真实数据训练的模型与用合成数据训练的模型之间的性能差距缩小了38%。   “重要的是，我们发现，对于收集的程序数量，性能呈对数增长。我们不会使性能饱和，所以如果我们收集更多的程序，模型的性能会更好。因此，我们有办法扩展我们的方法，”Manel说。   研究人员还使用每个单独的图像生成程序进行预训练，以努力发现有助于模型准确性的因素。他们发现，当一个程序生成更多样化的图像集时，该模型表现得更好。他们还发现，彩色图像和充满整个画布的场景往往最能提高模型的性能。   现在，他们已经证明了这种预训练方法的成功，研究人员希望将他们的技术扩展到其他类型的数据，如包括文本和图像的多模态数据。他们还想继续探索提高图像分类性能的方法。   “与根据真实数据训练的模型相比，仍有差距要缩小。这为我们的研究指明了方向，我们希望其他人也能效仿。”   <blockquote> 注：本文由院校官方新闻直译，仅供参考，不代表指南者留学态度观点。 </blockquote>

预约咨询