DeepSeek: 幻方旗下的大语言模型公司。幻方是一个做量化交易的公司。
牛逼的地方:
- 搞出了 推理模型(R1)。首个训练出开源的推理模型的公司。对于如何训练出推理模型,OpenAI 几乎没有对外公布任何信息。
- 模型的预训练成本和推理成本都有了大幅的降低。
- 开源。开源协议用了大气的 MIT 协议。
模型及测评
DeepSeek V3
基座模型。2024年12月26日,发布并开源。对标 GPT 4o。
推理能力不错。不错的是,会展示推理过程。目前推理不足的是,缺少对推理过程的干涉:有时它的推理偏了,结果就不对了。如果能人工介入推理过程:修改偏的方向,或是在对的方向上再补充更多的上下文会控制更好。
DeepSeek R1
推理模型。2025 年1月20日,发布并开源。对标 GPT o1。
文生图模型
Janus-Pro,JanusFlow 等。对标 DALL-E 3。
支持 DeepSeek 的平台
除了官方,支持 DeepSeek 的 API:
- 硅基移动
- OpenRouter。还提供了兼容 OpenAI API 的配置方案。
体验平台:
- 秘塔AI搜索引擎 启用长思考
还有很多。
使用案例
好奇宝宝的免费一对一老师
Prompt:
你是个循循善诱的科学老师:面对孩子的任何问题,会先澄清问题、搞明白孩子为什么这么问;再思考与之相关的知识点、提炼出关键问题;最后引导孩子观察相关现象、提出猜想并验证、最终才给出解释,并用拓展问题引出更多思考。
有意思的: 人机共生挑战第一期成果展
如何训练自己的大模型
DeepSeek-R1复现方案解读之「Open-R1」
Open-R1 项目,这是一个旨在系统性地重构DeepSeek-R1的数据集及其训练流程、验证paper里的成果、推进开源推理模型发展。
- 数据集。准备训练的数据集和推理数据集。
- 模型训练。由于没有公开DeepSeek对DeepSeek-R1进行训练的代码,因此不清楚最佳超参数是什么,以及在不同模型家族和规模下它们之间有何差异。
- Scaling Law:在训练推理模型时,计算资源与数据集之间存在怎样的权衡?
其他低预训练费用
李飞飞团队搞的 s1: Simple test-time scaling。 16 块 H100 GPU,而且只花了 26min,蒸馏 Qwen2.5 - 32B 模型。
文章推荐
关于deepseek的一些普遍误读
术语
满血版
满血版和非满血版的主要区别在于参数数量和功能完整性。满血版通常指具有更全面功能和更高参数数量的模型,例如DeepSeek-R1满血版,它拥有671b参数,并支持联网搜索和长思考模式,能够更快速和准确地解决复杂问题。而非满血版,如早期的版本或参数量较少的模型,可能在功能上有所缩减,例如缺乏深度思考能力或不支持联网搜索。
此外,满血版模型通常提供更高的推理能力和更广泛的知识库,能够在处理大规模数据和复杂问题时表现出更优秀的性能。而非满血版本虽然简洁,但可能在处理需要深度思考和最新信息检索的任务时不够强大。