除了模型架構外, 也可嘗試優化優化器

Gradient Centralization