FusionStitching, Deep Fusion and Code Generation for Tensorflow Computations on GPUs
FusionStitching系统概述
输入HloModule,经过以下三个阶段,最终输出LLVM IR。
- Computation Fusion
- Schedule Planning
- Code Generation
论文主要针对XLA Fusion算法进行了改进,提出了实现Block合并策略的Schedule和Shared Memory Planning技术,以及实现对应的IR Emitter。