入门级理解

LLM的知识是怎么来的？
- LLM依然是统计学的范畴，通过深度学习让模型里学习到或者叫压缩了整个互联网上尽可能多的文本信息(知识)。LLM回答的每一个词，仍然是基于统计概率而泛化推测的。
LLM为什么可以服从命令？
- 大模型的“服从性”本质是统计概率下的模式匹配，而非真正的理解。它通过海量数据学习“在何种指令下应生成何种文本”，并在微调中优化对齐人类需求。

大规模预训练语言模型（大模型）

Generative Pretrained Transformer ，也有个叫法是大型语言模型（LLM）。相比于在此之前的NLP模型，它能完成更加通用和智能的NLP任务，比如搜索、推荐、问答、内容创作、写代码。

OpenAI的GPT系列将大模型推向了大风口。

2018.06 GPT 1.2亿参数
2019.02 GPT-2 15亿参数
2020.05 GPT-3 1750亿参数
2022.12 ChatGPT
2023.03 GPT-4

预训练架构的几大门派

NLP各种任务其实收敛到了两个不同的预训练模型框架里：

对于自然语言理解类任务，其技术体系统一到了以Bert为代表的“双向语言模型预训练+应用Fine-tuning”模式(非自回归)；
对于自然语言生成类任务，其技术体系统一到了以GPT为代表的“自回归语言模型（即从左到右单向语言模型）+Zero/Few Shot Prompt”模式;
自编码（autoencoding，AE）：在输入文本中，随机删除连续的一个或者多个token，然后通过上下文来预测该token。这类模型主要以Bert为代表（Mask Language Model）。
自回归（autoregressive，AR）：通常来讲是根据上文内容预测下一个可能的token（实际上反过来也可以，通过下文预测上文的单词），如GPT系列。对比下，自编码由于抠字，不太适合做NLG（Natural Language Generation）的任务（训练和预测过程不一致），而自回归由于属于只能看到一侧的信息，在做NLU任务上有缺陷（类似ELMo这种双向自回归的看上去能够解这个问题，实际上效果见仁见智），却天然适合NLG。
编码预训练语言模型(Encoder-only Pre-trained Models)
- Encoder-only Transformer模型通常用于提取输入序列的特征表示，而不需要生成输出序列。这在许多自然语言处理（NLP）任务中很有用，如情感分析、命名实体识别等。通过使用编码器，可以将输入序列转换为一个固定长度的向量表示，然后将该表示传递给其他模型或任务进行进一步处理。
- 代表作 BERT
解码预训练语言模型(Decoder-only Pre-trained Models)
- Decoder-only Transformer模型通常用于生成式任务，如文本生成或图像描述生成。在这些任务中，我们只需要使用解码器来生成输出序列，而不需要编码器来处理输入序列。这种模型结构可以减少计算量和内存需求，因为不需要为编码器分配资源。
- 代表作 GPT
基于编解码架构的预训练语言模型(Encoder-Decoder Pre-trained Models)
- Encoder-Decoder Transformer模型通常用于翻译任务、摘要任务
- 代表作 T5

LLM模型结构

LLM Visualization

LLM相比它的前身比如Bert，最大的区别不是模型结构而是参数规模。 LLM默认一般使用fp16精度来训练。

Transformer 架构已成为开发各种 LLM 的事实标准骨干，现有 LLM 的主流架构可以大致分为三种类型:

编码器-解码器架构
因果解码器架构: Causal Mask 是 Transformer Decoder 架构实现“自回归生成”的基石
前缀解码器架构

结构解析

Embedding
Transformer Block
- LayerNorm
- Attention with 位置编码 RoPE ALiBi
- LayerNorm
- FFN
output
- LayerNorm
- linear
- softmax

GPT模型输出的logits， key_states， value_states，key_states.3，value_states.3 分别是什么意思？

推理步骤

大模型推理流程
Main Stages of Auto-regressive Decoding for LLM Inference
原始输入是文本
Prefill阶段
- Tokenize 将用户输入的文本转换为向量 Embedding
- Computing 纯推理
- Sampling 依据推理结果采样，选一个最终的结果
- Return
逐词多轮Decoding 阶段
- Computing
- Sampleing
- Detokenize 将推理结果向量转换为文本
- Return
最终输出是文本

生成策略

Beam search Top-k sampling

模型规模

n_layers 32
n_heads 32
d_model 4096
‌hidden_size‌：表示模型隐藏层的维度大小，在 Transformer 块中对应输入和输出的维度，通常记为 d_model。它定义了模型主体隐藏状态的尺寸
vocab size 151851
sequence length 8192
intermediate_size‌：表示前馈网络（FFN）中隐藏层的维度大小，通常记为 p 或类似符号。它专门用于 FFN 层的中间扩展。

sequence length 和 context length

一次前向传播过程中能够处理的最大输入或输出序列的长度
一段对话的总文本长度

外置超参数

温度（Temperature）用于调整语言模型生成文本的随机性，在抽样策略阶段，对这些概率进行调整，以控制生成文本的多样性和可预测性。
顶部概率（Top P）代表了一种概率分布截断技术，它允许模型在生成每个词时只考虑概率最高的一定比例的词汇。
Top-k限制每步生成仅从概率最高的k个词中采样，避免选择极低概率的无关词汇
MinP 过滤掉概率低于0的词汇（实际应用中通常设为极小正值如0.01）
最大长度（Max Length）用于控制模型生成的词的最大数量。指定最大长度有助于防止过长或不相关的响应，并控制模型的生成成本。
停止序列（Stop Sequences）
频率惩罚（Frequency Penalty）频率惩罚对模型输出的下一个词应用惩罚，频率惩罚的值与该词在响应和提示中出现的频率成正比。频率惩罚越高，一个词再次出现的可能性就越小。这个设置通过给出现次数更多的词更高的惩罚来减少模型响应中词的重复。
存在惩罚（Presence Penalty）

关于token

config.json

"bos_token_id": 151643,    <|endoftext|>
"eos_token_id": [
    151645,   <|im_end|>
    151643
],
"pad_token_id": 151643,

tokenizer.json

tokenizer_config.json

"eos_token": "<|im_end|>",

提示工程（Prompt Engineering）

https://www.promptingguide.ai/zh

Chain-of-Thought(CoT)是一种改进的Prompt技术，目的在于提升大模型LLMs在复杂推理任务上的表现，对于复杂问题尤其是复杂的数学题大模型很难直接给出正确答案

LLM推理中的role是什么意思？system、user、assistant

提示学习 Prompt Learning

比如做情感分类任务：

监督学习的做法是输入“我今天考砸了”，模型输出分类的分数或分布.
而提示学习的做法则是在“我今天考砸了”后拼接上自然语言描述“我感觉很 __”，让模型生成后面的内容，再根据某种映射函数，将生成内容匹配到某一分类标签。

大模型训练

pre-training 把整个互联网的文本信息压缩到模型中
post-training-1: Fine Tuning 让模型学会和人对话，成为助手
post-training-2: Reinforcement Learning

预训练 (Pre-Training)

学习无标记文本数据。

指令精调(Instruction Tuning)

让LLM理解输入命令的含义，并正确执行

有监督微调（Supervised Fine-Tuning - SFT）

使用标注好的数据集用于LLM微调，这些数据集包含输入和期望输出的示例。

大模型微调技术

https://zhuanlan.zhihu.com/p/618894319

全参数微调 Full Tuning
2019年 Houlsby N 等人提出的 Adapter Tuning
2021年微软提出的 LORA (Low-Rank Adaptation
2021年斯坦福提出的 Prefix Tuning
谷歌提出的 Prompt Tuning
2022年清华提出的 P-tuning v2

huggingface PEFT

把微调技术工程化了 https://huggingface.co/docs/peft/index

强化学习 RLHF

极简的工程实践

Reproducing GPT-2 (124M) in llm.c

https://github.com/karpathy/llm.c/discussions/481

inference a baby Llama 2 model in pure C?

https://github.com/karpathy/llama2.c

Karpathy 的 minGPT 和 nanoGPT 都是基于 GPT 架构的轻量级实现

开源大模型

llama
falcon
chatGLM
- 教学：
  - https://keg.cs.tsinghua.edu.cn/jietang/publications/ChatGLM&Beyond.pdf
  - https://www.bilibili.com/video/BV1x34y1A7uQ
- 部署和微调：
  - https://huggingface.co/THUDM/chatglm2-6b
  - https://github.com/THUDM/ChatGLM2-6B
- chatGLM 模型结构
  - PrefixEncoder
  - GLMBlock
    - SelfAttention
  - RotaryEmbedding 位置编码
  - GLMTransformer
  - RMSNorm
baichuan
qwen
- https://github.com/QwenLM/Qwen
bloom
- https://huggingface.co/bigscience/bloom
DeepSeek
- https://arxiv.org/pdf/2412.19437
- DeepSeek对模型架构进行了全方位创新。它提出的一种崭新的MLA（一种新的多头潜在注意力机制）架构，把显存占用降到了过去最常用的MHA架构的5%-13%，同时，它独创的DeepSeekMoESparse结构，也把计算量降到极致，所有这些最终促成了成本的下降。

大模型推理性能优化 (accelerate LLM inference)

综述：

大语言模型推理性能优化综述
综述 A Survey on Efficient Inference for Large Language Models
大模型推理加速技术的学习路线是什么?
https://zhuanlan.zhihu.com/p/642412124
https://github.com/horseee/Awesome-Efficient-LLM

优化方向:

kvcache
transformer/attention变种
- 这是奔着模型结构变种的方向探索 the efficient structure design for Large Language Models.
batch批处理化
低比特量化
分布式化

性能指标：

time to first token (TTFT)
the time between tokens (TBT)

专家并行

Prefill-Decode PD分离

在 PD 分离式架构中： Prefill Instance 专注于 Prefill 阶段的计算。 Decode Instance 专注于 Decode 阶段的生成任务。当 Prefill Instance 完成 KV Cache 的计算后，会将其传输给 Decode Instance，后者接续生成结果。这种架构独立优化了两个阶段的性能，因此又被简称为 PD 分离。

PD分离遇到的最大挑战是如何在不同GPU设备之间传输KVCache

https://zhuanlan.zhihu.com/p/1894492016718639469

kv cache优化

在自回归生成过程中做 attention 时, 一个 token i 的特征向量 (feature vector) 会线性映射拆成 Qi, Ki, Vi 三个特征向量. 其中, Qi 用于与序列中之前所有的 Kj, Vj 向量做 attention, 从而得出输出特征向量 Oi. 而 Ki, Vi 则会被留存下来, 以便之后的 token 在做 attention 时不再重复计算. 用于留存序列中 Ki, Vi 的存储空间 (或者是这个张量) 被称为 KV-Cache.

LLM在decoding阶段的每次推理只会用到当前的Q，这次用的Q下次不会用到，所以不用Cache Q

kv cache容量需求： batch_size * seq_length * attention_head_num * attention_head_dim * layer_num * key_bits * 2

单个 Token 的 KVCache 由四大因素决定：Layers、NumHead、HeadDim、以及 KVCache 数据类型决定的。

Chunked Prefills

让处于 Prefill 阶段的请求与 Decode 阶段的请求组成一个批次（batch）进行计算。对于过长的token请求, 如果在一个batch内处理除了会及其占用显存资源导致显存超限外, 还有可能因为单请求无法并行处理严重影响其他请求的TTFT, 所以有了chunked_prefill这个功能, 主要作用就是将过长请求切分成多个chunk分别进行处理。

连续批处理技术

In-flight Batching / continuous batching / iteration-level batching

单处理也就是不组成Batch或者说一个Batch中数据始终为1，也就是单个提示（Prompt）传过来直接送入到LLM进行推理。单条数据虽然简单而且灵活，不过因为每次只能处理一条数据，对GPU资源的利用率较低。因此，我们通常会将多条数据放入一个批次进行处理，从而提升GPU的利用率。

与之相对应的处理方式叫做静态批处理 static batching

在处理实时数据流（如聊天消息）时，连续批处理会不断地将即时到达的消息聚合成批次，并将每个批次作为一个单元送入模型进行处理。也就是说在每次 decode 的迭代过程中，做 batch 的调度调整。这种方式可以减少模型推理的延迟并提高吞吐量。 https://www.anyscale.com/blog/continuous-batching-llm-inference

Speculative decoding

长度外推技术

https://www.cnblogs.com/rossiXYZ/p/18808744 https://kexue.fm/archives/9948

StreamingLLM

Attention Sink https://www.high-flyer.cn/blog/streamingllm/

Flash Attention

通过重新组织注意力计算来减少内存IO，从而发现显著的性能提升。优化访问HBM次数过多的性能问题 https://github.com/Dao-AILab/flash-attention https://www.high-flyer.cn/blog/flash_attn/

大模型量化技术

性能优化的大方向之 model compression methods for Large Language Models.

综述： https://www.zhihu.com/question/10439431486
综述： https://arxiv.org/pdf/2308.07633
llm.int8
- 按列分组，把取值特别大的组特别处理，把矩阵乘法拆成两波
- 存储占用减小了，但计算速度变慢
gptq
smoothquant
autoAWQ
QServe: W4A8KV4

gptq

obq gptq

bitsandbytes 低比特体系

LLM大模型部署 inference/runtime

推荐阅读LLM 的推理优化技术纵览

fastllm

https://github.com/ztxz16/fastllm https://zhuanlan.zhihu.com/p/646193833

vllm(PagedAttention)

vLLM 主要用于快速 LLM 推理和服务，其核心是 PagedAttention，这是一种新颖的注意力算法 https://github.com/vllm-project/vllm

chatglm.cpp

https://github.com/li-plus/chatglm.cpp

llama.cpp

https://github.com/ggerganov/llama.cpp

whisper.cpp

https://github.com/ggerganov/whisper.cpp https://github.com/openai/whisper

huggingface/text-generation-inference tgi

https://github.com/huggingface/text-generation-inference

lmdeploy

https://github.com/InternLM/lmdeploy

TensorRT-LLM

https://github.com/NVIDIA/TensorRT-LLM

FlashInfer

https://github.com/flashinfer-ai/flashinfer

sglang

https://github.com/sgl-project/sglang

BasePrefixCache

match_prefix：匹配命中了哪些cache。
cache_finished_req：req执行完了，把引用-1。告诉大家，这个前缀我不用了。
cache_unfinished_req：req没执行完，这个前缀我要用，引用+1。同时自己的kv cache也更新到radix tree（以及一些特殊逻辑的处理 SWARadixCache RadixCache -> HiRadixCache ChunkCache

OmniServe

https://github.com/mit-han-lab/omniserve

ollama

LLM 服务接口

stream_chat 流式输出

在使用ChatGPT时，模型的回复内容是一个字一个字蹦出来的，而不是整段话直接出现，因为模型需要不断预测接下来要回复什么内容，如果等整段回复生成之后再输出到网页，用户体验就会很差，一直以为这种流式输出效果是用WebSocket实现的，后来接入openai接口，发现接口是http协议，才了解到SSE技术。

Server-Sent Events (SSE) 是一种基于 HTTP 协议的服务器推送技术，它允许服务器向客户端发送数据和信息。与 WebSocket 不同，SSE 是一种单向通信方式，只有服务器可以向客户端推送消息。SSE 是 HTML5 规范的一部分，使用非常简单，主要由服务端与浏览器端的通讯协议（HTTP协议）和 EventSource 接口来处理 Server-sent events 组成，服务器端的响应的内容类型是“text/event-stream”.

openAI 服务接口

你可参考openai官网或者https://openai.apifox.cn/

普通问答接口

curl https://api.openai.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -d '{
     "model": "gpt-4-turbo",
     "messages": [{"role": "user", "content": "Say this is a test!"}],
     "temperature": 0.7
   }'

查询Embedding接口

curl https://api.openai.com/v1/embeddings \
 -H "Content-Type: application/json" \
 -H "Authorization: Bearer $OPENAI_API_KEY" \
 -d '{
  "input": "Your text string goes here",
  "model": "text-embedding-ada-002"
}'

模型微调接口

curl https://api.openai.com/v1/fine_tuning/jobs \
 -H "Content-Type: application/json" \
 -H "Authorization: Bearer $OPENAI_API_KEY" \
 -d '{
    "training_file": "file-prompt-completion.jsonl",
    "model": "gpt-3.5-turbo"
}'

多模态

当前LLM顾名思义，最擅长的是人类的语言文字，我们希望模型还能像人类一样理解图像、声音、视频。多模态LLM的实现本质上是将不同模态的语义空间统一，并通过大规模预训练和精细对齐，使模型能够自由地在多种模态间转换和推理。随着技术的进步，这类模型正逐步接近人类的多模态认知能力。

DALL-E

Stable Diffusion

Sora

关注大模型的落地应用

如果openai把GPT做到像OS一样，那它也许就会如windows操作系统一样垄断，并且你没有机会也没有必要去自己开发GPT，绝大多数人的归属就是基于它做应用即可。

知识问答

文字创作

写代码

智能控制

GPT强大的理解能力，能够帮人类完成一些事情的感知->理解->决策->响应。让GPT读、写任何具备API接口能力的服务、设备。

基于基于ID（sid）的物料表示

在搜推广领域，希望模型具有召回、排序某种物料的能力，这意味着LLM模型参数内部要记住这些物料id。怎么做到呢？

大模型应用层框架

AI Agent

Agent代理的意思，显而易见，个人助理。Agent并非ChatGPT升级版，它不仅告诉你“如何做”，更会帮你去做.

Agent = LLM+Planning+Feedback+Tool use

RAG 检索增强生成

LLM 擅长于一般的语言理解与推理，而不是某个具体的知识点。如何为ChatGPT/LLM大语言模型添加额外知识？

当用户提出问题时，系统会根据用户输入来搜索数据存储。然后将用户问题与匹配结果结合起来，并使用提示（对 AI 或机器学习模型的明确指令）将其发送到 LLM，以生成所需的答案。

文档切块算法向量数据库

LangChain

LangChain 是一个框架，用于开发由 LLM 驱动的应用程序。

组件包

PromptTemplate
OutputParser 用于让 LLM 结构化输出并进行结果解析，方便后续的调用

MCP 协议

模型上下文协议（Model Context Protocol）

A2A 协议

Reference

大型语言模型（LLM）技术精要 Numbers every LLM Developer should know LLM推理性能优化 Large Language Models: A Survey A Survey on Large Language Models for Recommendation Hands On Large Language Models - Jay Alammar

大模型时代 Large language model