报错调试¶

一、动转静报错日志¶

1.1 错误日志怎么看¶

如下是一个动转静报错实例代码：

import paddle
import numpy as np

@paddle.jit.to_static
def func(x):
    two = paddle.full(shape=[1], fill_value=2, dtype="int32")
    x = paddle.reshape(x, shape=[1, two])
    return x

def train():
    x = paddle.to_tensor(np.ones([3]).astype("int32"))
    func(x)

if __name__ == '__main__':
    train()

执行后，报错日志如下图：

报错日志从上到下一共可以分为 4 个部分：

原生的 Python 报错栈：如 1 中的前两行所示，表示/workspace/Paddle/run_dy2stat_error.py文件第 145 行调用的函数train()导致的后续一系列报错。
动转静报错栈起始标志位：In transformed code，表示动转静报错信息栈，指运行转换后的代码时的报错信息。实际场景中，可以直接搜索In transformed code关键字，从这一行以下开始看报错日志即可。
用户代码报错栈：隐藏了框架层面的无用的报错信息，突用户代码报错栈。我们在出错代码下添加了波浪线和 HERE 指示词来提示具体的出错位置，并扩展了出错行代码上下文，帮助你快速定位出错位置。如上图 3 中所示，可以看出最后出错的用户代码为x = paddle.reshape(x, shape=[1, two])。
框架层面报错信息：提供了静态图组网报错信息。一般可以直接根据最后三行的信息，定位具体是在生成哪个 OpDesc 时报的错误，一般是与执行此 Op 的 infershape 逻辑报的错误。如上报错信息表明是 reshape Op 出错，出错原因是 tensor x 的 shape 为[3]，将其 reshape 为[1, 2]是不被允许的。

NOTE：在某些场景下，会识别报错类型并给出修改建议，如下图所示。Revise suggestion下面是出错的排查建议，你可以根据建议对代码进行排查修改。

1.2 报错信息定制化展示¶

1.2.1 未经动转静报错模块处理的原生报错信息¶

若你想查看 Paddle 原生报错信息栈，即未被动转静模块处理过的报错信息栈，可以设置环境变量 TRANSLATOR_DISABLE_NEW_ERROR=1 关闭动转静报错模块。该环境变量默认值为 0，表示默认开启动转静报错模块。在 1.1 小节的代码中添加下面的代码即可以查看原生的报错信息：

import os
os.environ["TRANSLATOR_DISABLE_NEW_ERROR"] = '1'

可以得到如下的报错信息：

1.2.2 C++报错栈¶

默认会隐藏 C++报错栈，你可设置 C++端的环境变量 FLAGS_call_stack_level=2 来显示 C++ 报错栈信息。如可以在终端输入export FLAGS_call_stack_level=2来进行设置，之后可以看到 C++端的报错栈：

二、调试方法¶

在调试前请确保转换前的动态图代码能够成功运行，下面介绍动转静中推荐的几种调试方法。

2.1 pdb 调试¶

pdb 是 Python 中的一个模块，该模块定义了一个交互式 Python 源代码调试器。它支持在源码行间设置断点和单步执行，列出源代码和变量，运行 Python 代码等。

2.1.1 调试步骤¶

step1：在想要进行调试的代码前插入import pdb; pdb.set_trace()开启 pdb 调试。

import paddle
import numpy as np

@paddle.jit.to_static
def func(x):
    x = paddle.to_tensor(x)
    import pdb; pdb.set_trace()       # <------ 开启 pdb 调试
    two = paddle.full(shape=[1], fill_value=2, dtype="int32")
    x = paddle.reshape(x, shape=[1, two])
    return x

func(np.ones([3]).astype("int32"))

step2：正常运行.py 文件，在终端会出现下面类似结果，在(Pdb)位置后输入相应的 pdb 命令进行调试。
```
> /tmp/tmpm0iw5b5d.py(9)func()
-> two = paddle.full(shape=[1], fill_value=2, dtype='int32')
(Pdb)
```

step3：在 pdb 交互模式下输入 l、p 等命令可以查看动转静后静态图相应的代码、变量，进而排查相关的问题。

> /tmp/tmpm0iw5b5d.py(9)func()
-> two = paddle.full(shape=[1], fill_value=2, dtype='int32')
(Pdb) l
  4     import numpy as np
  5     def func(x):
  6         x = paddle.assign(x)
  7         import pdb
  8         pdb.set_trace()
  9  ->     two = paddle.full(shape=[1], fill_value=2, dtype='int32')
 10         x = paddle.reshape(x, shape=[1, two])
 11         return x
[EOF]
(Pdb) p x
var assign_0.tmp_0 : LOD_TENSOR.shape(3,).dtype(int32).stop_gradient(False)
(Pdb)

2.1.2 常用命令¶

更多 pdb 使用使用方法可以查看 pdb 的官方文档

2.2 打印转换后的静态图代码¶

你可以打印转换后的静态图代码，有 2 种方法：

2.2.1 set_code_level() 或 TRANSLATOR_CODE_LEVEL¶

通过调用 set_code_level() 或设置环境变量 TRANSLATOR_CODE_LEVEL，可以在日志中查看转换后的代码：

import paddle
import numpy as np

@paddle.jit.to_static
def func(x):
    x = paddle.to_tensor(x)
    if x > 3:
        x = x - 1
    return x

paddle.jit.set_code_level() # 也可设置 os.environ["TRANSLATOR_CODE_LEVEL"] = '100'，效果相同
func(np.ones([1]))

此外，如果你想将转化后的代码也输出到 sys.stdout , 可以设置参数 also_to_stdout 为 True，否则将仅输出到 sys.stderr。 set_code_level 函数可以设置查看不同的 AST Transformer 转化后的代码，详情请见 set_code_level。

2.2.2 被装饰后的函数的 code 属性¶

如下代码中，装饰器@to_static 会将函数 func 转化为一个类对象 StaticFunction，可以使用 StaticFunction 的 code 属性来获得转化后的代码。

import paddle
import numpy as np

@paddle.jit.to_static
def func(x):
    x = paddle.to_tensor(x)
    if x > 3:
        x = x - 1
    return x

func(np.ones([1]))
print(func.code)

运行后可以看到动转静后的静态图代码：

def func(x):
    x = paddle.assign(x)

    def true_fn_0(x):
        x = x - 1
        return x

    def false_fn_0(x):
        return x
    x = paddle.jit.dy2static.convert_ifelse(x > 3, true_fn_0, false_fn_0, (
        x,), (x,), (x,))
    return x

2.3 使用 print 查看变量¶

print 函数可以用来查看变量，该函数在动转静中会被转化。当仅打印 Paddle Tensor 时，实际运行时会被转换为 Paddle 算子 Print，否则仍然运行 print。

import paddle
import numpy as np

@paddle.jit.to_static
def func(x):
    x = paddle.to_tensor(x)

    # 打印 x，x 是 Paddle Tensor，实际运行时会运行 Paddle Print(x)
    print(x)
    # 打印注释，非 Paddle Tensor，实际运行时仍运行 print
    print("Here call print function.")

    if len(x) > 3:
        x = x - 1
    else:
        x = paddle.ones(shape=[1])
    return x

func(np.ones([1]))

运行后可以看到 x 的值：

Variable: assign_0.tmp_0
  - lod: {}
  - place: CUDAPlace(0)
  - shape: [1]
  - layout: NCHW
  - dtype: double
  - data: [1]

2.4 日志打印¶

动转静在日志中记录了额外的调试信息，以帮助你了解动转静过程中函数是否被成功转换。你可以调用 paddle.jit.set_verbosity(level=0, also_to_stdout=False) 或设置环境变量 TRANSLATOR_VERBOSITY=level 来设置日志详细等级，并查看不同等级的日志信息。目前，level 可以取值 0-3：

0: 无日志
1: 包括了动转静转化流程的信息，如转换前的源码、转换的可调用对象
2: 包括以上信息，还包括更详细函数转化日志
3: 包括以上信息，以及更详细的动转静日志

注意： 日志中包括了源代码等信息，请在共享日志前确保它不包含敏感信息。打印日志的示例代码：

import paddle
import numpy as np
import os

@paddle.jit.to_static
def func(x):
    x = paddle.to_tensor(x)
    if len(x) > 3:
        x = x - 1
    else:
        x = paddle.ones(shape=[1])
    return x

paddle.jit.set_verbosity(3)
# 或者设置 os.environ["TRANSLATOR_VERBOSITY"] = '3'
func(np.ones([1]))

运行结果：

Sun Sep 26 08:50:20 Dynamic-to-Static INFO: (Level 1) Source code:
@paddle.jit.to_static
def func(x):
    x = paddle.to_tensor(x)
    if len(x) > 3:
        x = x - 1
    else:
        x = paddle.ones(shape=[1])
    return x

Sun Sep 26 08:50:20 Dynamic-to-Static INFO: (Level 1) Convert callable object: convert <built-in function len>.

此外，如果你想将日志也输出到 sys.stdout, 可以设置参数 also_to_stdout 为 True，否则将仅输出到 sys.stderr，详情请见 set_verbosity。

三、快速确定问题原因¶

经过对报错信息的种类进行汇总整理，可以将动转静的问题大致分为如下几个类别：

3.1 (NotFound) Input("X")¶

报错信息大致如下：

RuntimeError: (NotFound) Input("Filter") of ConvOp should not be null.
    [Hint: Expected ctx->HasInputs("Filter") == true, but received ctx->HasInputs("Filter"):0 != true:1.]
    [operator < conv2d > error]

此类问题的原因一般是：

执行到报错所在行的 Paddle API 时，某些输入或者 weight 的类型还是动态图的 Tensor，而非静态图的 Variable 或者 Parameter。

排查建议：

首先确认代码所在的 sublayer 是否继承了 nn.Layer
此行代码所在函数是否绕开了 forward 函数，单独调用的（2.1 版本之前）
查看是 Tensor 还是 Variable 类型，可以通过 pdb 交互式调试

3.2 Expected input_dims[i] == input_dims[0]¶

报错信息大致如下：

[Hint: Expected input_dims[i] == input_dims[0], but received input_dims[i]:-1, -1 != input_dims[0]:16, -1.]
    [operator < xxx_op > error]

此类问题的原因一般是：

逐个 append_op 生成静态图 Program 时，在执行到某个 Paddle API 时，编译期 infershape 不符合要求。

排查建议：

代码层面，判断是否是上游使用了 reshape 导致 -1 的污染性传播

动态图由于执行时 shape 都是已知的，所以 reshape(x, [-1, 0, 128]) 是没有问题的。但静态图组网时都是编译期的 shape（可能为-1），因此使用 reshape 接口时，尽量减少 -1 的使用。

可以结合调试技巧，判断是否是某个 API 的输出 shape 在动静态图下有 diff 行为

比如某些 Paddle API 动态图下返回的是 1-D Tensor，但静态图却是始终和输入保持一致，如 ctx->SetOutputDim("Out", ctx->GetInputDim("X"));

3.3 desc->CheckGuards() == true¶

报错信息大致如下：

[Hint: Expected desc->CheckGuards() == true, but received desc->CheckGuards():0 != true: 1.]

此类问题的原因一般是：

执行到报错所在行的 Paddle API 时，某些输入或者 weight 的类型还是动态图的 Tensor，而非静态图的 Variable 或者 Parameter.

如下是当前动、静态图对 slice 语法功能的汇总情况：

排查建议：

模型代码是否存在上述复杂的 Tensor slice 切片操作
推荐使用 paddle.slice 接口替换复杂的 Tensor slice 操作

3.4 Segment Fault¶

当动转静出现段错误时，报错栈信息也会很少，但导致此类问题的原因一般也比较明确。此类问题的一般原因是：

某个 sublayer 未继承 nn.Layer ，同时在_init_.py 函数中存在 paddle.to_tensor 接口的调用。导致在生成 Program 或者保存模型参数时，在静态图模式下访问了动态图的 Tensor 数据。

排查建议：

每个 sublayer 是否继承了 nn.Layer

3.5 Container 的使用建议¶

动态图下，提供了如下几种 container 的容器类：

ParameterList

class MyLayer(paddle.nn.Layer):
    def __init__(self, num_stacked_param):
        super(MyLayer, self).__init__()

        w1 = paddle.create_parameter(shape=[2, 2], dtype='float32')
        w2 = paddle.create_parameter(shape=[2], dtype='float32')

        # 此用法下，MyLayer.parameters() 返回为空
        self.params = [w1, w2]                            # <----- 错误用法

        self.params = paddle.nn.ParameterList([w1, w2])   # <----- 正确用法

LayerList

class MyLayer(paddle.nn.Layer):
    def __init__(self):
        super(MyLayer, self).__init__()

        layer1 = paddle.nn.Linear(10, 10)
        layer2 = paddle.nn.Linear(10, 16)

        # 此用法下，MyLayer.parameters() 返回为空
        self.linears = [layer1, layer2]                        # <----- 错误用法

        self.linears = paddle.nn.LayerList([layer1, layer2])   # <----- 正确用法