名为 DALL-E 的人工智能软件将您的文字变成图片

作者：大宰相时间：2023-07-06 A- A+

最近在浏览社交媒体动态时，您很可能会注意到带有标题的插图。它们现在很流行。

您所看到的图片很可能是由名为 DALL-E 的文本转图像程序生成的。在发布插图之前，人们会插入文字，然后通过人工智能模型将其转换为图像。

例如，推特用户发布了一条推文，其中写道：“生与死，拉比拿着鳄梨，大理石雕塑。” 附图非常优雅，展示了一个穿着长袍、戴着圆顶礼帽、留着胡须的男子的大理石雕像，手里抓着一个牛油果。

AI模型来自谷歌Imagen 软件以及由微软支持的初创公司 OpenAI开发了 DALL-E 2。在其网站上，OpenAI 将 DALL-E 2 称为“一种新的人工智能系统，可以根据自然语言的描述创建逼真的图像和艺术”。

但该领域发生的大部分事情都来自相对较小的一群人分享他们的照片，并且在某些情况下产生了很高的参与度。这是因为谷歌和 OpenAI 尚未向公众广泛提供该技术。

OpenAI 的许多早期用户都是员工的朋友和亲戚。如果您正在寻求访问权限，则必须加入等候名单，并注明您是否是专业艺术家、开发人员、学术研究员、记者或在线创作者。

OpenAI 的 Joanne Jang 在该公司的帮助页面上写道：“我们正在努力加快访问速度，但可能需要一些时间才能普及到所有人;截至 6 月 15 日，我们已邀请 10,217 人尝试 DALL-E 。”网站。

DALL-E Mini是一种公开可用的系统。它利用了组织松散的开发团队的开源代码，并且经常超出需求。尝试使用它时可能会出现一个对话框，显示“流量过多，请重试”。

这有点让人想起谷歌的 Gmail 服务，该服务在 2004 年以无限的电子邮件存储空间吸引了人们。早期采用者一开始只能通过邀请进入，让数百万人等待。现在 Gmail 是世界上最受欢迎的电子邮件服务之一。

用文本创建图像可能永远不会像电子邮件那样普遍存在。但这项技术确实正在流行，其部分吸引力在于其独特性。

私人研究实验室 Midjourney 要求人们填写一份表格，如果他们想通过 Discord 聊天应用程序的频道尝试其图像生成机器人。只有少数人在使用 Imagen 并发布其中的图片。

文本到图片服务非常复杂，可以识别用户提示中最重要的部分，然后猜测说明这些术语的最佳方式。除了外部数据之外，谷歌还利用数百个内部 AI 芯片，根据 4.6 亿个内部图像文本对来训练其 Imagen 模型。

界面很简单。通常有一个文本框、一个启动生成过程的按钮以及下面一个用于显示图像的区域。为了表明来源，Google 和 OpenAI 在来自 DALL-E 2 和 Imagen 的图像的右下角添加了水印。

构建该软件的公司和团体有理由担心每个人都会同时闯入大门。使用这些人工智能模型处理网络请求来执行查询可能会变得昂贵。更重要的是，这些模型并不完美，并且并不总能产生准确代表世界的结果。

工程师根据网络上的大量文字和图片(包括人们在 Flickr 上发布的照片)对模型进行训练。

总部位于旧金山的 OpenAI 认识到，通过本质上搜索网络来学习如何制作图像的模型可能会带来潜在的危害。为了尝试解决这一风险，员工从训练数据中删除了暴力内容，并且如果用户提交可能违反公司针对裸体、暴力、阴谋或政治内容的政策的提示，过滤器会阻止 DALL-E 2 生成图像。

OpenAI 研究科学家 Prafulla Dhariwal 表示：“我们正在持续改进这些系统的安全性。”

研究结果中的偏差也很重要，它代表了对人工智能更广泛的关注。来自德克萨斯州的开发人员鲍里斯·戴玛 (Boris Dayma) 和其他参与 DALL-E Mini 工作的人在他们的软件解释中阐明了这个问题。

他们写道：“受教育程度较高的职业(例如工程师、医生或科学家)或高体力劳动的职业(例如建筑行业)大多由白人男性代表。” “相比之下，护士、秘书或助理通常是女性，通常也是白人。”

尽管存在风险，OpenAI 对这项技术能够实现的各种事物感到兴奋。达里瓦尔表示，它可以为个人开辟创意机会，并有助于室内设计或装饰网站的商业应用。

随着时间的推移，结果应该会不断改善。4 月份推出的 DALL-E 2比 OpenAI 去年宣布的初始版本更逼真，而且该公司的文本生成模型GPT每一代都变得更加复杂。

阅读排行