DALL-E 2的错误揭示出人工智能的局限性

2022-11-09 10:47

OpenAI的文字图像转换器与文本、科学和偏见作斗争。在2022年4月，人工智能（AI）研究实验室OpenAI继2021年推出的DALL-E后，又推出了DALL-E 2。这两个人工智能系统都可以根据自然语言的文本描述来生成令人惊奇的图像，包括照片、插图、绘画、动画和其他能用语言表达艺术风格的几乎任何图片（见下图）。

OpenAI的文字图像转换器与文本、科学和偏见作斗争。

在2022年4月，人工智能（AI）研究实验室OpenAI继2021年推出的DALL-E后，又推出了DALL-E 2。这两个人工智能系统都可以根据自然语言的文本描述来生成令人惊奇的图像，包括照片、插图、绘画、动画和其他能用语言表达艺术风格的几乎任何图片（见下图）。DALL-E 2的分辨率更高，处理速度更快，增加的编辑功能能够让用户仅使用文本命令修改已生成图像，例如“把那个花瓶换成植物”或“让狗的鼻子更大一点”。

对于DALL-E 2，全球最初的反应是震惊和欣慰。它可以在几秒钟之内把任何物体和生物组合在一起，可以模仿任何艺术风格，还能描绘任何地点，并且可以刻画各种照明条件。比如说，看到宇航员骑着一匹马的安迪•沃霍尔（Andy Warhol）风格图片，谁能不被感动？不过，随着人们列出可以被这种技术轻易扰乱的行业，也难免出现了一丝担忧。

OpenAI尚未向公众、商业实体乃至整个人工智能社区发布相关技术。OpenAI的研究员马克•陈（Mark Chen）：“我们和大家一样担心滥用的问题，而且非常重视这件事。”该公司确实邀请了一些人，针对DALL-E 2进行实验。过去几个月出现的研究结果充分说明了现今深度学习技术的局限性，也给我们打开了一个窗口，了解对于人类世界，人工智能有哪些能够理解，又有哪些完全没有理解。

工作原理

OpenAI在论文预印本网站ArXiv上发布的一篇论文表明，DALL-E 2接受了从互联网上截取的约6.5亿个图像-文本对的训练。通过这个庞大的数据集，它学习图像与描述这些图像的文字之间的关系。OpenAI在训练之前对数据集进行筛选，移除了包含明显暴力、色情和其他恶劣内容的图片。“模型没有暴露这些概念之下。”陈说，“所以它生成未见过内容的可能性非常非常低。”但研究人员明确指出，这种过滤有局限性，DALL-E 2仍然有可能生成有害的内容。

一旦这种“编码器”模型经过训练，可理解文本和图片之间的关系，OpenAI就将它与一个可根据文本提示生成图片的解码器配对，使用一种名为“扩散”的方法，从随机的点图案开始，慢慢改变图案，生成图像。此外，该公司集成了一些过滤器，以便生成的图像符合内容政策，并承诺了不断进行更新。可能产生禁止内容的改变会被阻止，而且为了防止深度伪造，它无法准确地再现在训练过程中见过的面孔（这可部分解释为什么它通常会产生超现实的面孔）。到目前为止，OpenAI还采用了人工审查员检查被标记为可能有问题的图像。

由于DALL-E 2明显有可能被滥用，OpenAI最初授权使用的只有几百人，大多是人工智能研究人员和艺术家。与该实验室的语言生成模型GPT-3不同，即便是有限的商业应用，DALL-E 2 也尚不具备，而且OpenAI也未公开讨论相关计划。不过，浏览DALL-E 2用户创建并发布在Reddit等论坛上的图像，可以发现有些专业应用确实应该引起担忧，例如DALL-E 2擅长的美食摄影、公司手册和网站的图片库，以及适用于宿舍海报或杂志封面上的插图。

问题所在

热心的实验者生成的图像表明，尽管DALL-E 2有很多优势，但关于这个世界，它还需要学习很多东西。以下是3个最明显、最引人关注的错误。

文本：DALL-E 2虽然擅长理解生成图像的文本提示，却很难将可理解的文本放入图像，这一点令人感到费解。用户发现，要求放入任意类型的文本都会产出一堆混乱的字母。珍妮尔•肖恩（Janelle Shane）喜欢在自己的人工智能博客里利用该系统创建公司的徽标，并观察由此产生的混乱。不过，未来的版本可能会纠正该问题，因为OpenAI的GPT-3团队有着丰富的文本生成专业知识。肖恩：“ 最终， DALL-E 的后继者将能够拼写‘松饼屋’（ Waffle House ），那一天我一定会很伤心的。我还得换一种不同方式来扰乱它、找乐子。 ”

科学：你可以说DALL-E 2理解一些科学定律，因为它可以轻松地描绘掉落的物体或漂浮在太空中的宇航员。但要求它生成解剖图、X光图、数学证明或蓝图时，它生成的图像看似正确，而实际上却是完全错误的。例如，要求DALL-E 2“按比例绘制太阳系图解插图”，在得到的结果图像中，地球非常奇怪，而且有太多假设的太阳系邻居。“DALL-E不懂什么是科学。它只知道怎样阅读文字说明，然后绘图。”OpenAI的研究院阿迪蒂亚•拉梅什（Aditya Ramesh）说，“因此它不理解其中的含义，而试着编造一些看起来相似的东西。”

偏见：DALL-E 2被认为是一种接受图片和文本训练的多模态人工智能系统，会表现出某种形式的多模态偏见。例如，如果用户要求它生成一名首席执行官、一名建筑工人或者一名技术记者的图片，它通常会根据其在训练数据中看到的图片-文本对来提供男性的图片。在发布DALL-E 2之前，OpenAI要求从事该领域相关工作的外部研究员来充当“红队”，他们的见解有助于OpenAI评估该系统的风险和局限性。他们发现，除了表现有关性别的社会成见，该系统会过多地表现白人和西方传统与环境。

陈认为“我们可以采取某些机器学习缓解措施”来纠正这些偏见，该团队已经采取了一些措施，例如，在训练期间他们发现，由于在训练数据中消除了的色情内容，在建立的数据集中男性要多于女性，这导致DALL-E 2生成更多男性的图像。“所以我们调整了训练方法，并提高了女性图像的权重，使其更有可能生成女性图像。”陈解释道。为了帮助DALL-E 2产生更多样化的结果，用户还可以使用“女性宇航员”或“印度婚礼”等指定性别、种族或地理位置的提示。

总之，DALL-E 2团队表示，他们渴望看到早期用户在测试系统时发现的问题和故障，他们也已经在考虑接下来的工作。“我们非常有兴趣提高系统的整体智能。”拉梅什说，并补充说该团队希望能在“DALL-E中加深对语言及其与世界关系的理解”。他指出OpenAI的文本生成工具GPT-3对普通常识、科学和人类行为有着非常惊人的理解。“一个充满希望的目标是尝试通过DALL-E将GPT-3的知识与图像领域联系起来。”拉梅什说。

THE END

责任编辑：赵龙

相关阅读

合肥市人工智能教育马敏名师工作室推出系列线上课程2022-11-09
当人工智能爱上奥特曼2022-11-09
人工智能，为高校注入智慧动能2022-11-09
当硬核装备碰撞人工智能看科技如何改变生产和生活2022-11-09
人工智能公司小冰宣布完成10亿元新融资2022-11-09
酶工程研究新突破，日本科学家结合人工智能解决30年难题2022-11-09
延安人工智能冰雹预警应用获批“揭榜制”项目2022-11-09
东华大学人工智能研究院理事会副理事长吴达鉴莅临东方泵业参观交流2022-11-09
辉瑞辉瑞积极探索运用人工智能工具对特应性皮炎疾病识别和评估2022-11-09
中国人工智能大模型地图即将发布2022-11-09

展会预告

新品

搭载Lofic HDR® 3.0技术思特威发布全新5000万像素1.0μm像素尺寸
近日，技术先进的CMOS图像传感器供应商思特威（SmartSens，股票代码688213），面向中高端智能手机及消费类…
搭载Lofic HDR® 3.0技术思特威发布全新5000万像素1.0μm像素尺寸超高动态范围CMOS图像
奥尼新款4K超清AI智能会议摄像头C98Pro即将上市
汉威科技傅里叶红外气体分析仪 5公里开外，500种气体，一眼便知！
汉威科技推出红外家用可燃气体探测器
思特威推出全新两亿像素超高分辨率手机应用CMOS图像传感器

访谈

护航视频监控网络安全做物联网安全的守护者 ——专访天防安全总经理段伟恒

在万物互联时代，网络安全的重要性日益凸显，尤其在快速发展的城市建设中，搭建的巨大物联网络对其安全保障…
做行业赋能者 HID迎接数字化浪潮新机遇破解新挑战

今年3月份，全球可信身份解决方案提供商HID发布了最新的《安防行业现状报告》（以下简称“报告”），该报告…
数字化浪潮下，安防厂商如何满足行业客户的定制化需求?

回顾近两年，受疫情因素影响，包括安防在内的诸多行业领域都遭受了来自市场 “不确定性”因素的冲击，市场…

企业

福建灵信科技发布“低空无人机巡飞防控解决方案”，构建低空立体
随着低空经济的蓬勃发展，无人机在各领域的应用日益广泛，但非授权飞行（黑飞）也给特定高安全等级和敏感区…
福建灵信科技发布“低空无人机巡飞防控解决方案”，构建低空立体安全屏障
星网宇达：公司的安防雷达采用相控阵技术，主要用于安防监控和反无人机领域
e签宝智能合同Agent入选杭州“人工智能+”标杆项目，与宇树科技、海康威视等共筑AI第
思特威回应差异化涨价：安防AIoT需求回暖联动国产代工厂优化供应链
熵云脑机入选中国标准化协会脑机接口与类脑智能专业委员会理事单位