斯坦福大学 | DALL-E揭示了人类的创造力

查学校

选专业

找案例

看排名

逛热点

下载App

关于我们

更多服务

400 183 1832

斯坦福大学 | DALL-E揭示了人类的创造力

指南者留学 2023-01-20 16:23:11 阅读量：1467

指南者留学全国统一咨询热线：<a href="tel:4001831832" style="color:#1677ff; text-decoration:none;">400-183-1832</a>，全国各地区、各分公司联系方式均为此号码。由DALL-E 2、Midjourney和Stable Diffusion等最新一代文本到图像生成器生成的通常令人愉快和引人注目的图像，在艺术和人工智能领域都引起了很大的轰动。这些图像是由简单的文本提示生成的(例如，一只狒狒驾驶着彩色的小艇)，看起来非常像人类智能创造力的产物。   为了探索这些模型到底有多有创造力，以及它们能教给我们什么关于我们自己创新倾向的本质，我们询问了四位人工智能、大脑和创造力方面的权威(我们还询问了GPT-3，一种与DALL-E关系密切的语言生成模型)，请他们解释他们对DALL-E的能力和艺术潜力的看法。   DALL-E如何工作 dalle首先从互联网上获取数十亿比特的文本，并将它们翻译成一个抽象概念，存储在“潜在”或逻辑空间的某个位置。例如，在可描述事物的宇宙中，“狒狒”将被“定位”在与其他灵长类动物有密切联系的地方，可能离“非洲”、“热带大草原”或“动物园”不远。图片也从互联网上读取，并与它们的标题相关联，并转置到相同的逻辑区域。因此，文字和图像的相关描述虽然仍然是不同的，但通过相互之间的强烈关联来定位。这使得DALL-E可以在用户的文本提示所指示的空间中找到图像类型。然后，它会生成一组它已经了解到这张图像可能包含的关键特征。在我们的“小舢板上的狒狒”的例子中，它会提出狒狒的特征，比如皮毛的颜色，像人一样的手臂和手，或者是狗一样的头的形状，以及小舢板的特征，比如弯曲的船舷。然后，DALL-E部署所谓的扩散模型，该模型从静态噪声开始，然后以文本描述的潜在表示形式通知的方式雕刻像素，从而在每次程序运行时构建唯一的图像。   第一个扩散模型是由贾莎·索尔-迪克斯坦(Jascha Sohl-Dickstein)于2015年在斯坦福大学发明的，他现在是谷歌大脑小组的研究科学家。七年前，当索尔-迪克斯坦还是神经动力学与计算实验室的博士后时，他和实验室主任、神经科学家Surya Ganguli博士“正在探索非平衡热力学的想法，”Ganguli说。Ganguli说:“这项工作导致了这样一种想法，即可以通过训练神经网络来逆转扩散过程中的时间流，将数据转化为噪声，然后将噪声转化为数据。”   灵感来自大脑 Wu Tsai神经科学研究所跨学科博士后学者Isaac Kauvar博士在斯坦福自主代理实验室工作，研究人工智能、神经科学和心理学的交叉领域，他指出了DALL-E生成图像的方式与创造性的人类艺术家如何生成图像之间的两个类比。最明显的是DALL-E是围绕一种被称为“神经网络”的软件架构构建的，如果不是在细节上，它在概念上模仿了大脑神经元的组成，每个神经元都与许多其他神经元有连接。这些联系可以在学习过程中加强或削弱，从而形成有意义的联想模式。   更重要的是，“在较高的水平上，DALL-E从自己的潜在空间构建图像的方式与人类大脑存储和识别概念，然后将其转化为输出的方式并不完全不同，”Kauvar说。这些抽象的概念帮助我们将狒狒这个词与一系列不同的联想和图像联系起来——彩色的屁股、动物园的围栏、非洲的大草原。   人类创造力的“卡通”版? Wu Tsai neuroo下属的神经科学家、作者David Eagleman博士也认为，DALL-E这样的模型至少与人类智能有一个共同点:它们的工作原理是“吸收大量的例子，然后在组合和重组的基础上产生新的东西，”他说。“有创造力的人也会吸收世界，进行混音，然后做出全新的版本。”   但是，当谈到创造力时，Eagleman说，“这些图像生成器所缺乏的东西至少与它们与我们共享的东西一样重要。也就是说，他们没有任何方法来过滤什么是好的，更不用说什么是深刻的或美丽的。”   Eagleman将图像生成器学习和制作艺术的方式称为人类做这些事情的“卡通版本”。他认为，首先，仅仅制造新东西是不够的。他说，为了充分发挥创造力，一个人或一台有创造力的机器必须能够过滤这些新事物，并根据人类的标准选择最能引起共鸣和最相关的东西。“DALL-E不能那样做。它有新鲜感，但没有过滤，没有选择性，”他说。“在它能够根据人类的标准进行过滤之前，它必须先了解什么是人，才能知道人类是否或为什么会欣赏一幅特定的画。”   “这些人工智能是如此令人印象深刻，”伊格曼说，“但它们并没有做人类大脑所做的事情。一点也不。他们使用非常不同的技术来获得奇怪的相似，而且通常是美妙的结果。但最有趣的可能是，如此不同于人类的生物如何能得出如此令人印象深刻的结果。”   尊重创造过程 作为一名视觉艺术家，Kauvar指出了DALL-E的工作方式与许多人的工作方式之间的另一个关键区别。“当我画画的时候，”他说，“这是一个迭代的过程。我通常不知道自己会在哪里结束。我先把一些东西写下来，然后激发下一个迭代，再激发下一个迭代，以此类推。另一方面，DALL-E决定要画什么，然后直接在几秒钟内立即做出那个东西。DALL-E可以快速产生许多变体，但它依赖于人类来评估或修改它们。”   尊重人类艺术创作行为过程的重要性是米歇尔·埃兰博士，威廉·罗伯逊科人文学科教授和以人为本的人工智能研究所副主任，也认为这是人类创造力和机器创造力之间的关键区别。她说，艺术家重视创作过程，认为这是创作行为的关键部分，甚至对艺术品本身的意义至关重要。   她说:“像DALL-E这样的东西可以让你更快、更简单地得到一个可用的产品，从而‘释放你的创造力’，这表明艺术家们在工作中受到了思想、反思、经验、关心和时间的负担。”“但对许多艺术家来说，作品的意义是对这些努力和过程的一种表达，而不是附带的。”   行动，而不是思考 计算神经科学家Manish Saggar博士，Wu Tsai neuroand HAI附属机构，精神病学和行为科学助理教授，研究人类创造力和大脑已有十多年。在2017年发表在《大脑皮层》(brain Cortex)上的一篇论文中，他发现，处于高度创造性状态的大脑的一个可衡量的品质是，大脑皮层的右前额叶部分同时失活，同时大脑许多不同区域之间的连通性增强。这种增强的连通性包括前额叶皮层和小脑之间的交流，Saggar说，小脑可以被认为是大脑的图形处理单元(GPU)。“这就像CPU和它的抑制功能正在关闭，而GPU正在接管创造性工作。”Saggar说，这就像是从严格的执行控制中退出，转向更分布式的、基于图像的过程，这可能与DALL-E的做法大致类似。   萨格的团队还发现，大多数极具创造力的人都有强烈的行动倾向。他们不只是(甚至主要是一开始)考虑他们可能会画什么;他们只是拿起笔在纸上开始画画。“少想多做”是激发创造力的好建议，Saggar说。   同样地，文本到图像的模型可以如此具有生成性，可能是因为它没有试图强制预设的期望，并应用传统的方法来解决问题;它只是简单地寻找模式关联并进行尝试。DALL-E认为一点也不……它只会。   但依格曼认为，在某些时候，为了完成创造过程，人们必须使用他所谓的“人类过滤器”，从所有这些新事物中识别出最好的，然后偶尔继续使用自己喜欢的新事物，直到它成为真正伟大的事物。尽管这些强大的文本到图像的生成器令人吃惊和印象深刻，但他们还没有接近完全创造性意义上的艺术家。   当我们询问DALL-E的表弟GPT-3关于人类和人工智能创造力之间的区别时，它提出了一个批评，即人类至少有一个算法没有的独特选择过滤器:“人类仍然更善于产生新想法的一个重要方式是人类有情感... .情绪有助于识别哪些想法是好的，哪些是坏的。他们给了我们追求某些想法的动力，而不是其他想法。”   仍然是人类的经历 像人脑一样，DALL-E可以从具体的想法或提示中归纳出更广泛的关联网络，使其能够根据“经验”创建令人信服的图像。它还可以以有趣或有创意的方式组合概念。例如，我们要求它把狒狒放在海上的一只小艇上，并以乔治·修拉的风格来描绘它;它创造了一只沉思而孤独的狒狒，漂浮在五彩缤纷的点彩派海洋中。   但DALL-E仍然缺乏人类创造力的几个核心要素。首先，它没有对什么使图像重要、新奇、有趣或有意义的情感评价。也许与此相关的是DALL-E没有扩展的艺术过程。对于人类艺术家来说，这个过程是核心——尝试事物，评估它们，迭代到下一个版本或下一个想法，最终发现或专注于艺术家最初创作艺术的动力。   由于这些原因，至少在目前，充分的创造力仍然存在于人类的领域。也许这就是为什么DALL-E的最佳产品反映了算法图像生成器与使用它的人类创造者或艺术家的创造力、选择性和洞察力之间的合作关系。   斯坦福人工智能研究院的使命是推进人工智能研究、教育、政策和实践，以改善人类状况。学习更多的知识。   <blockquote> 注：本文由院校官方新闻直译，仅供参考，不代表指南者留学态度观点。 </blockquote>

预约咨询