Patterns
Scaling Law
现有的预训练语言模型对于数据的需求量远高于扩展法则 (e.g. Chinchilla) 中所给出的估计规模. 很多更小的模型也能够通过使用超大规模的预训练数据获得较大的模型性能提升. 这种现象的一个重要原因是由于 Transformer 架构具有较好的数据扩展性. 目前为止, 还没有实验能够有效验证特定参数规模语言模型的饱和数据规模 (即随着数据规模的扩展, 模型性能不再提升).
Emergent Ability
大语言模型的涌现能力被非形式化定义为
在小型模型中不存在但在大模型中出现的能力:
- In-context learning.
- Instruction following.
- Step-by-step reasoning.
Hallucination
Reduce factual, faithfulness, and intrinsic hallucinations:
- Data: high quality and factual data.
- RAG.
- Validation: multistep reasoning, fact-checking, consistency checking, etc.
- External tools: search engine, calculator, interpreter, etc.
Recursive Language Models
RLM
通过分治与递归, 实现多跳推理代码, 解决长文本带来的 Context Rot 问题.
References
- 大语言模型综述.
- Efficient LLM architectures survey.
- Foundational LLM whitepaper.
- Text-to-video generation survey.
- LLMs safety survey.