英伟达待发布最新研究成果,通过现有数据集模拟新图像,以期突破人工智能训练的潜力。
英伟达展示了其最新的人工智能模型,该模型使用了一个小数据集——生成式对抗网络通常使用的数据集的一小部分,据了解,这些数据集的对象是来自大都会艺术博物馆的艺术品。
从数据集中,英伟达开发的人工智能能够创建新的图像,复制原始艺术家的作品,这些图像可以用来帮助进一步升级人工智能模型。
人工智能通过应用一种突破性的神经网络训练技术取得了这一重要的成就,这种技术类似于流行的NVIDIA StyleGAN2模型。
该技术被称为自适应识别器增强技术(ADA), 英伟达称该技术可以将所需的训练图像数量减少10-20倍,同时仍能获得良好的效果。
英伟达图形研究副总裁David Luebke说:
这些结果意味着人们可以使用生成式对抗网络来解决耗时太长或难以获取大量数据的问题,我迫不及待地想看看艺术家、医学专家和研究人员用它来做什么。
医疗保健是英伟达的研究可以应用的一个特别令人兴奋的领域。例如,它可以帮助创建癌症组织学图像来训练其他AI模型,这项突破将有助于解决当前大多数数据集的问题。
人工智能训练通常需要大型数据集,但并不是一直有效可用的。另一方面,大型数据集很难确保其内容是否合适,不会无意中导致算法偏差。
今年早些时候,麻省理工学院被迫删除了一个名为8000万小图像的大型数据集。该数据集在训练人工智能方面很流行,但被发现包含带有种族主义、厌恶女性和其他不可接受的标签的图像。
麻省理工学院网站上的一份声明称,他们并不知道这些冒犯性的标签,它们是“使用来自WordNet的名词进行自动数据收集的结果”。
该声明还解释了数据集中包含的8000万张图片——大小只有32×32像素——意味着手工检查几乎是不可能的,也不能保证所有冒犯性的图片都会被删除。
从一个可以手动检查的小数据集开始,像英伟达ADA这样的技术可以用来创建新的图像来模拟原始图像,并可以放大到训练人工智能模型所需的大小。
在一篇博文中,英伟达写道:
“通常需要5万到10万张训练图像来训练高质量的生成式对抗网络。但在许多情况下,研究人员根本没有可供他们使用的数万或数十万张样本图像。
由于只有几千张图像可供训练,许多生成式对抗网络在产生真实的结果时会不准确。当鉴别器仅仅记住了训练图像而不能向生成器提供有用的反馈时,就会出现这种问题,称为过拟合。”