Road map

这篇文档会介绍 Paddle Lite 近期对外的开源版本和计划。

其中包含的 feature 为最小集合,按最终发布的版本为准。

2.12

  • 易用性提升: 支持同一 FP32 模型在不同 Arm CPU 架构下运行期间动态支持 FP32 和 FP16 精度的推理,初步完成框架与 Arm CPU 计算库编译解耦。

  • 量化推理: 支持 PaddleSlim 量化新格式模型,降低在不同硬件的迁移成本;新增 Armv9 和 SVE 指令支持,MobileNetV1 和 MobileNetV2 模型性能分别提升 21% 和 10% ,其它模型上均有不同程度的性能提升。

  • 新硬件支持: 新增支持高通 QNN 及 SA8295P 芯片,支持 Linux、Android、QNX 操作系统,支持 HTP 后端 INT8、FP16、INT8 和 FP16 混合精度。

2.11

  • 新增非结构化 1x1 稀疏卷积实现,非结构化稀疏卷积 相对于稠密卷积,在 75% 稀疏下,性能有20%-40% 提升(支持int8/fp32精度计算)

  • 新增非结构化 1x1 稀疏卷积实现,非结构化稀疏卷积 相对于稠密卷积,在 75% 稀疏下,性能有20%-40% 提升(支持int8/fp32精度计算)

  • 新增 “全流程/多后端” 稳定性主动验证方法 AutoScanTester

2.10

  • 新增 Apple Metal 后端支持

  • 新增 NNAdapter: 飞桨推理 AI 硬件统一适配框架

  • ARM CPU 性能增强

  • 编译策略升级

  • benchmark 工具升级

2.9.1

  • ARM CPU FP32 和 Int8 在重点模型上性能优化

  • OpenCL 重点模型,高低端硬件性能优化

  • 库体积进一步压缩,根据模型裁剪算子效果会更明显

2.9

  • ARM CPU

    • 支持 FP16 执行

  • OpenCL 性能增强

2.8

  • 框架升级

    • opt 工具功能增强:+量化模型压缩功能

    • 版本间的兼容性增减:+算子版本控制方法

    • 编译系统优化:减少编译耗时

    • 文档易用性增强

  • 硬件平台增强:昆仑 XPU、RK NPU、ARM OPENCL

  • 性能增强:ARM模型性能提升

  • 支持Paddle2.0: 支持更多Paddle2.0模型和算子

2.0.0-beta1

  • model_optimize_tool 从 ARM 上执行修改为 Host 上执行,只从 kernel 分布来确定计算图优化;后续硬件针对优化会发布新的工具;

  • Paddle 模型支持参数 composed 的格式

  • 增加分层编译来控制常用模型的部署库的大小,分两个模式 basic, extra;默认 basic 模式只发布核心的op 和kernel;将控制流相关的Op和kernel 折叠进 extra 按需编译

  • 增加 INT8 量化,从 PaddleSlim 训练到 PaddleLite 部署完整案例

  • 支持内存中加载模型,以支持 APP 的简易加密

2.0.0-beta1-prerelease

  • 完善编译和 benchmark 文档

  • 增加第三方依赖代码的离线下载功能,加速编译过程

  • 去掉 tiny_publish 模式下无关的第三方代码下载,可以不依赖任何第三方