图文并茂的内容比纯文字内容更容易被理解,但大语言模型只能生成文字。
如何突破这一局限,让 LLM 也能生成图文并茂的内容呢?本文将介绍 4 种方法,从简单易用到高度定制,以满足不同场景和技术水平的需求。
方法1: 集成图文生成能力的AI助手 (便捷但效果有限)
一些AI助手(如: ChatGPT,Gemini 和 豆包),已经集成了图像生成能力。你只需在提示词中明确指示需要生成图像,模型就能自动完成文本和图像的创作。比如:
- 写一篇描写春天的散文。要图文并茂。
- 图文并茂的介绍 LLM 的注意力机制。
原理是,在模型认为需要生成图片时,会调用生图模型来生成图片。
我试了 ChatGPT,Gemini 和豆包,生成图片的效果并不好。
方法2: 让模型生成图片描述的占位 (高质量但需人工干预)
这种方法是利用模型强大的文本生成能力。先让模型生成图片的文字描述,作为内容中的占位符。然后,将这些描述作为提示词输入到生图工具来生图。
例如:
写一篇关于秋季公园的文章,并在文章中合适的位置插入两张图片,用文字描述图片内容作为占位符。
模型可能的输出:
秋天的公园是色彩斑斓的。树叶变成了红色、黄色和橙色,像燃烧的火焰一样。
[图片占位符:一张广角照片,展示秋季公园的景色,地面铺满落叶,远处的树木色彩丰富,阳光透过树梢洒下来。]
微风吹过,树叶沙沙作响,仿佛在低语。
[图片占位符:一张特写照片,展示一片红色的枫叶,叶片脉络清晰可见,背景虚化,突出叶片的质感。]
后续,将图片占位符复制到 Midjourney 或 DALL-E 等专业生图工具中,即可获得高质量的图片。
方法3:低代码 (灵活高效,适合非编程人员)
低代码平台,例如 Dify,提供了一种更友好的方式来构建包含 LLM 和图像生成功能的应用程序。
你可以直接创建 Agent 类型的应用,并在工具中选择生图工具。 [图片占位]
也可以用 Workflow 编排复杂的图文混合的场景。 [图片占位]
方法4: 写代码(高度定制,功能强大)
代码方案是最灵活和强大的方法,你可以自由组合各种技术,构建功能极其强大且高度个性化的图文内容生成系统。本质就是调用大语言模型和生图工具的API,将它们整合在一起。
总结
本文介绍了四种利用 LLM 生成图文并茂内容的方法,每种方法都有其独特的优势和适用场景。
- 如果你追求效率和便捷性,并且对图像的要求和定制化要求不高,那么选择方法 1。
- 如果你希望获得更高质量和更可控的图像,并且愿意投入更多时间和精力,那么 方法2 值得考虑。
- 如果你是非编程人员,但有比较复杂场景。那么 方法3 是一个高效的选择。
- 如果你是开发者,需要构建高度定制化、功能强大的应用。那就选 方法4。