softmax¶
稀疏 softmax 激活函数,要求 输入 x
为 SparseCooTensor 或 SparseCsrTensor 。
当输入 x 为 SparseCsrTensor 时,仅支持 axis=-1,是由于 Csr 稀疏存储格式,更适合按行读取数据。
如果将 x 从稀疏矩阵转换为稠密矩阵, \(i\) 代表行数, \(j\) 代表列数,且 axis=-1 时有如下公式:
\[softmax_ij = \frac{\exp(x_ij - max_j(x_ij))}{\sum_j(exp(x_ij - max_j(x_ij))}\]
其中,\(x\) 为输入的 Tensor。
参数¶
x (Tensor) - 输入的稀疏 Tensor,可以是 SparseCooTensor 或 SparseCsrTensor,数据类型为 float32、float64。
axis (int, 可选) - 指定对输入 SparseTensor 计算 softmax 的轴。对于 SparseCsrTensor,仅支持 axis=-1。默认值:-1。
name (str,可选) - 具体用法请参见 Name,一般无需设置,默认值为 None。
返回¶
多维稀疏 Tensor, 数据类型和稀疏格式与 x
相同。
代码示例¶
import paddle
paddle.seed(100)
mask = paddle.rand((3, 4)) < 0.5
x = paddle.rand((3, 4)) * mask
print(x)
# Tensor(shape=[3, 4], dtype=float32, place=Place(gpu:0), stop_gradient=True,
# [[0.83438963, 0.70008713, 0. , 0.88831252],
# [0.02200012, 0. , 0.75432241, 0.65136462],
# [0.96088767, 0.82938021, 0.35367414, 0.86653489]])
csr = x.to_sparse_csr()
print(csr)
# Tensor(shape=[3, 4], dtype=paddle.float32, place=Place(gpu:0), stop_gradient=True,
# crows=[0 , 3 , 6 , 10],
# cols=[0, 1, 3, 0, 2, 3, 0, 1, 2, 3],
# values=[0.83438963, 0.70008713, 0.88831252, 0.02200012, 0.75432241,
# 0.65136462, 0.96088767, 0.82938021, 0.35367414, 0.86653489])
out = paddle.sparse.nn.functional.softmax(csr)
print(out)
# Tensor(shape=[3, 4], dtype=paddle.float32, place=Place(gpu:0), stop_gradient=True,
# crows=[0 , 3 , 6 , 10],
# cols=[0, 1, 3, 0, 2, 3, 0, 1, 2, 3],
# values=[0.34132850, 0.29843223, 0.36023921, 0.20176248, 0.41964680,
# 0.37859070, 0.30015594, 0.26316854, 0.16354506, 0.27313042])
coo = x.to_sparse_coo(sparse_dim=2)
print(coo)
# Tensor(shape=[3, 4], dtype=paddle.float32, place=Place(gpu:0), stop_gradient=True,
# indices=[[0, 0, 0, 1, 1, 1, 2, 2, 2, 2],
# [0, 1, 3, 0, 2, 3, 0, 1, 2, 3]],
# values=[0.83438963, 0.70008713, 0.88831252, 0.02200012, 0.75432241,
# 0.65136462, 0.96088767, 0.82938021, 0.35367414, 0.86653489])
out = paddle.sparse.nn.functional.softmax(coo)
print(out)
# Tensor(shape=[3, 4], dtype=paddle.float32, place=Place(gpu:0), stop_gradient=True,
# indices=[[0, 0, 0, 1, 1, 1, 2, 2, 2, 2],
# [0, 1, 3, 0, 2, 3, 0, 1, 2, 3]],
# values=[0.34132853, 0.29843226, 0.36023924, 0.20176250, 0.41964683,
# 0.37859073, 0.30015597, 0.26316857, 0.16354507, 0.27313042])