25/03/26

模型

OpenAI 发布了 GPT-4o 多模态生图。图片生成效果很好。比 Gemini 好。也能改图。GPT-4o多模态生图正式上线 - 用嘴改图,此为王道

Gemini 发布 2.5 Pro 实验版。是个推理模型。上下文达到 100万 tokens。可以在 Ai Studio 里体验。

25/03/21

模型

OpenAI 发布了

  1. 新的语音转文本模型(STT): gpt-4o-transcribe,gpt-4o-mini-transcribe。说是价格和效果都比 whisper 好。
  2. 新的文本转语音模型(TTS): gpt-4o-min-tts。支持设定说话的风格。比如: “用娇滴滴的语气”。 据说效果不够好。
  3. 调试语音的 Playground: OpenAI.fm

25/03/19

英伟达 GTC 大会

模型

Gemini 支持 Canvas。 可以生成文档和 HTML(支持预览)。

25/03/12

模型

Google 发布了

  • 轻量级开源模型 Gemma 3
  • 多模态 Gemini 2.0 Flash Experimental 模型。支持图片生成和编辑。

25/03/11

模型

Openai 发布了 Responses API⁠,内置工具(网络搜索, 计算机使用) 和 Agents SDK