LLM

AI 会拉大精英和普通人的能力。 AI 解决复杂问题的能力越来越强。但普通人缺少发现问题和评判解决方案好坏的品味。

LLM(大语言模型) 本质是智力服务。LLM 能提升做事的效率。但用好 LLM 有难度。

主要内容:

能力边界。
原理剖析。
能力拓展。
应用场景。
对人类的影响。
未来趋势。
资源。

1 能力边界

能力

推理能力: 数学推理。写代码。常识推理。生成能力: 写文章，生图，生视频，生歌。导航

LLM 训练的数据很多。它比人类看问题的视角更全面。

Benchmark

MMLU
Humanity’s Last Exam 难度比较高。位于人类知识前沿的多模态基准，旨在成为该类基准的最终封闭式学术基准，具有广泛的主题覆盖。
Elo 由人类使用后打分。
GAIA 评估 Agent 解决现实世界问题。
OSWorld 评估 Agent 使用计算机的能力。

局限性

1 幻觉

LLM 的幻觉是指，LLM 生成的想象出来的内容。不好的方面是：会误导用户。好的方面是：产生创造力的内容。

有办法可以减少幻觉的发生。

幻觉的累积

做一个任务，多个步骤用到 LLM，那 LLM 的幻觉是在在累积。假设一个步骤的成功率是 90%，那 10 个步骤的成功率是 90% 的 10 次方，也就是 35% 左右。

2 不能用外部的数据和工具

可以被解决。

如果使用联网搜索要注意: 需求转化为网络搜索关键字的局限性

3 感知能力

多模态。支持的模态还不够丰富。触觉，气味等等。

没有生存压力，也没有情感。

4 Context 长度

5 使用难度

用户很难说清楚的问题。

6 其他

模型生成的内容比较啰嗦，怎么让其简洁也没用。

评估

性能评估: Context 长度，输出速度。

其他评估：费用，合规(内容审核，安全性的审核)。

排行榜(LLM Leaderboard)

Vellum LLM Leaderboard 包含开源和闭源模型。
Open LLM Leaderboard 只有开源模型。

评估工具: Language Model Evaluation Harness

2 原理剖析

架构: Transform, MOE。
- TODO: 注意力机制
训练过程: 预训练，微调，后训练。

预训练

海量数据，海量计算。学习到的知识，存储在模型的参数中。 Embedding 的向量值是这个时候学来的。

微调

通过微调，LLM可以更好地适应特定的应用场景，如文本分类、情感分析、问答系统等。

后训练

后训练（Post-training）是指在预训练模型的基础上，针对特定任务或数据集进行的额外训练，以优化模型性能并使其更好地适应特定需求。以下是后训练的主要内容和步骤：

监督微调（SFT）：使用特定任务的数据集对预训练模型进行微调，调整模型参数以更好地适应任务需求。这种方法通常涉及在特定任务的数据集上进行训练，使得模型能够更好地适应新的任务或领域。
参数高效微调（PEFT）：更新模型参数的一小部分，同时保持其余部分不变，从而减少训练时间和计算资源的需求。这种方法适用于资源有限的情况，如使用单个GPU进行微调。
基于人类反馈的强化学习（RLHF）：通过人类反馈构建奖励模型，使用强化学习技术对模型进行进一步优化。这种方法可以提高模型的对齐度和生成质量。
蒸馏技术（Distillation）：将大型模型的知识转移到小型模型中，以提高小型模型的性能和效率。这种方法常用于部署阶段，以减少模型的计算需求。
数据合成和拒绝采样：使用数据合成技术生成偏好数据，并通过拒绝采样技术选择高质量的数据进行训练。这种方法可以提高模型的训练效率和效果。

模型支持 Function Call就是在后训练阶段做的。

Transform

该架构的效果，依赖：算法，数据和算力。

数据：海量的数据。

算力：依赖英伟大高性能 GPU 的算力。 Scaling Law 。

3 能力拓展

LLM 只能用预训练的数据，也不能用外部的工具。能力拓展：

数据层面
1. MCP
2. RAG
工具层面
1. 使用工具。工具使用的规范。

4 应用场景

每个行业的知识工作者做的事，都或多或少的可以让 LLM 来做。如:

写作。
- 金融：行业调研，行业分析。
- 互联网：用户调研，营销文案，写代码。
- 电商：商品文案。
- 法律：诉状。
数据分析。
- 金融：风险分析。
- 互联网：用户的使用数据，用户画像。
- 电商：选品，商品分析。
- 法律：法律文书。
作图，视频，音频。
沟通类:
- 智能客服。
- AI 陪伴。
- AI 教学。

我的应用

5 对人类的影响

积极的影响:

《机器之爱的恩典 - AI 如何让世界变得更好》

对其他行业的影响:

营销: AIO

6 未来趋势

短期

模型层面:

专有化模型是模型厂商的重点擅长解决特定的复杂任务。

中间件 & 应用层面:

Agent 解决复杂问题的能力的提升。 Manus 之类会越来越多。
Chat 的回复里能输出组件。

长期

AGI。

7 资源

新闻

重点论文

Attention Is All You Need 注意力机制。
REAC T: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS 工具调用，ReAct 模式:

自媒体

NLP 前沿
自媒体
- 橘子的汽水铺
- 归藏的 AI 工具箱
- 数字生命卡兹克
- 赛博禅心。大聪明
- 通往 AGI 之路。
- 向阳乔木
- AI产品黄叔
国内媒体
- 机器之心
- 极客公园
- 量子位
- 雷锋网

Joel 的大唠嗑

Explorer

LLM