LLM 生成图文并茂的内容

图文并茂的内容比纯文字内容更容易被理解，但大语言模型只能生成文字。

如何突破这一局限，让 LLM 也能生成图文并茂的内容呢？本文将介绍 4 种方法，从简单易用到高度定制，以满足不同场景和技术水平的需求。

方法1: 集成图文生成能力的AI助手 (便捷但效果有限)

一些AI助手(如: ChatGPT，Gemini 和豆包)，已经集成了图像生成能力。你只需在提示词中明确指示需要生成图像，模型就能自动完成文本和图像的创作。比如:

写一篇描写春天的散文。要图文并茂。
图文并茂的介绍 LLM 的注意力机制。

原理是，在模型认为需要生成图片时，会调用生图模型来生成图片。

我试了 ChatGPT，Gemini 和豆包，生成图片的效果并不好。

方法2: 让模型生成图片描述的占位 (高质量但需人工干预)

这种方法是利用模型强大的文本生成能力。先让模型生成图片的文字描述，作为内容中的占位符。然后，将这些描述作为提示词输入到生图工具来生图。

例如：

写一篇关于秋季公园的文章，并在文章中合适的位置插入两张图片，用文字描述图片内容作为占位符。

模型可能的输出：

秋天的公园是色彩斑斓的。树叶变成了红色、黄色和橙色，像燃烧的火焰一样。
[图片占位符：一张广角照片，展示秋季公园的景色，地面铺满落叶，远处的树木色彩丰富，阳光透过树梢洒下来。] 
微风吹过，树叶沙沙作响，仿佛在低语。
[图片占位符：一张特写照片，展示一片红色的枫叶，叶片脉络清晰可见，背景虚化，突出叶片的质感。]

后续，将图片占位符复制到 Midjourney 或 DALL-E 等专业生图工具中，即可获得高质量的图片。

方法3：低代码 (灵活高效，适合非编程人员)

低代码平台，例如 Dify，提供了一种更友好的方式来构建包含 LLM 和图像生成功能的应用程序。

你可以直接创建 Agent 类型的应用，并在工具中选择生图工具。 [图片占位]

也可以用 Workflow 编排复杂的图文混合的场景。 [图片占位]

方法4: 写代码(高度定制，功能强大)

代码方案是最灵活和强大的方法，你可以自由组合各种技术，构建功能极其强大且高度个性化的图文内容生成系统。本质就是调用大语言模型和生图工具的API，将它们整合在一起。

总结

本文介绍了四种利用 LLM 生成图文并茂内容的方法，每种方法都有其独特的优势和适用场景。

如果你追求效率和便捷性，并且对图像的要求和定制化要求不高，那么选择方法 1。
如果你希望获得更高质量和更可控的图像，并且愿意投入更多时间和精力，那么方法2 值得考虑。
如果你是非编程人员，但有比较复杂场景。那么方法3 是一个高效的选择。
如果你是开发者，需要构建高度定制化、功能强大的应用。那就选方法4。

Joel 的大唠嗑

Explorer

LLM 生成图文并茂的内容

方法1: 集成图文生成能力的AI助手 (便捷但效果有限)

方法2: 让模型生成图片描述的占位 (高质量但需人工干预)

方法3：低代码 (灵活高效，适合非编程人员)

方法4: 写代码(高度定制，功能强大)

总结

Graph View

Table of Contents

Backlinks