注意力计算复杂度是 $O(n^2)$, 且是稀疏的 (模型不会均匀地关注所有输入):
Context provide a Dependency Injection style method,
- Create custom XXXContextProvider: