softmax_mask_fuse_upper_triangle¶
对输入 x
进行带 mask 的 softmax 操作,并且总是 mask 住 x 的上三角矩阵部分(不包含对角线部分)。 该 API 主要针对加速 Transformer 架构而设计。将 tmp = x + mask, rst = softmax(tmp)
两个操作合为一个操作。计算公式为:
\[out = softmax(LowerTriangular(x))\]
注解
该 API 只可在 GPU 上运行
参数¶
x (4-D Tensor) - 输入的 Tensor,必须为 4D 的 shape,数据类型为:float16、float32。x 的第四维必须大于等于 32,并且小于 8192。第三维与第四维必须相同。
返回¶
Tensor
,维度和数据类型都与 x
相同,存储运算后的结果
代码示例¶
>>> import paddle
>>> import paddle.incubate as incubate
>>> paddle.seed(1)
>>> paddle.set_device("gpu")
>>> x = paddle.rand((1, 1, 32, 32))
>>> rst = incubate.softmax_mask_fuse_upper_triangle(x)
>>> print(rst)
Tensor(shape=[1, 1, 32, 32], dtype=float32, place=Place(gpu:0), stop_gradient=True,
[[[[1. , 0. , 0. , ..., 0. ,
0. , 0. ],
[0.49575609, 0.50424391, 0. , ..., 0. ,
0. , 0. ],
[0.26035303, 0.25114325, 0.48850375, ..., 0. ,
0. , 0. ],
...,
[0.04379999, 0.04194880, 0.05150032, ..., 0.02721255,
0. , 0. ],
[0.02348574, 0.01959674, 0.02609110, ..., 0.04046615,
0.02248267, 0. ],
[0.02280738, 0.03144657, 0.02892209, ..., 0.03885521,
0.03342311, 0.02842640]]]])