南通市网站建设_网站建设公司_前端开发_seo优化-文昌市网站建设公司

标签：#Triton #CUDA #AICompiler #HPC #PyTorch #LayerNorm

PyTorch 的torch.nn.LayerNorm虽然底层调用了 cuDNN 或 ATen 的优化实现，但在处理特定 Shape 或与其他算子结合时，依然存在性能损耗：

Triton 的核心思路：将所有计算（均值、方差、归一化、仿射变换）融合在一个 Kernel 中，数据只从 Global Memory 读一次，写一次，中间全部在 GPU 的 SRAM（片上内存）中完成。

LayerNorm 的公式如下：

其中，计算是按行 (Row-wise)独立的。

南通市网站建设_网站建设公司_前端开发_seo优化