paddle.vision¶

paddle.vision 目录是飞桨在视觉领域的高层 API。具体如下：

内置数据集相关 API
内置模型相关 API
视觉操作相关 API
数据处理相关 API
其他 API

内置数据集相关 API¶

API 名称	API 功能
DatasetFolder	通用数据加载方式 DatasetFolder
ImageFolder	通用数据加载方式 ImageFolder
Cifar10	Cifar10 数据集
Cifar100	Cifar100 数据集
FashionMNIST	FashionMNIST 数据集
Flowers	Flowers 数据集
MNIST	MNIST 数据集
VOC2012	VOC2012 数据集

内置模型相关 API¶

API 名称	API 功能
LeNet	LeNet 模型
AlexNet	AlexNet 模型
alexnet	AlexNet 模型
MobileNetV1	MobileNetV1 模型
mobilenet_v1	MobileNetV1 模型
MobileNetV2	MobileNetV2 模型
mobilenet_v2	MobileNetV2 模型
MobileNetV3Small	MobileNetV3Small 模型
MobileNetV3Large	MobileNetV3Large 模型
mobilenet_v3_small	MobileNetV3Small 模型
mobilenet_v3_large	MobileNetV3Large 模型
ResNet	ResNet 模型
resnet18	18 层的 ResNet 模型
resnet34	34 层的 ResNet 模型
resnet50	50 层的 ResNet 模型
resnet101	101 层的 ResNet 模型
resnet152	152 层的 ResNet 模型
wide_resnet50_2	50 层的 WideResNet 模型
wide_resnet101_2	101 层的 WideResNet 模型
resnext50_32x4d	ResNeXt-50 32x4d 模型
resnext50_64x4d	ResNeXt-50 64x4d 模型
resnext101_32x4d	ResNeXt-101 32x4d 模型
resnext101_64x4d	ResNeXt-101 64x4d 模型
resnext152_32x4d	ResNeXt-152 32x4d 模型
resnext152_64x4d	ResNeXt-152 64x4d 模型
VGG	VGG 模型
vgg11	11 层的 VGG 模型
vgg13	13 层的 VGG 模型
vgg16	16 层的 VGG 模型
vgg19	19 层的 VGG 模型
DenseNet	DenseNet 模型
densenet121	121 层的 DenseNet 模型
densenet161	161 层的 DenseNet 模型
densenet169	169 层的 DenseNet 模型
densenet201	201 层的 DenseNet 模型
densenet264	264 层的 DenseNet 模型
InceptionV3	InceptionV3 模型
inception_v3	InceptionV3 模型
GoogLeNet	GoogLeNet 模型
googlenet	GoogLeNet 模型
SqueezeNet	SqueezeNet 模型
squeezenet1_0	squeezenet1_0 模型
squeezenet1_1	squeezenet1_1 模型
ShuffleNetV2	ShuffleNetV2 模型
shufflenet_v2_x0_25	输出通道缩放比例为 0.25 的 ShuffleNetV2 模型
shufflenet_v2_x0_33	输出通道缩放比例为 0.33 的 ShuffleNetV2 模型
shufflenet_v2_x0_5	输出通道缩放比例为 0.5 的 ShuffleNetV2 模型
shufflenet_v2_x1_0	输出通道缩放比例为 1.0 的 ShuffleNetV2 模型
shufflenet_v2_x1_5	输出通道缩放比例为 1.5 的 ShuffleNetV2 模型
shufflenet_v2_x2_0	输出通道缩放比例为 2.0 的 ShuffleNetV2 模型
shufflenet_v2_swish	使用 swish 进行激活的 ShuffleNetV2 模型

视觉操作相关 API¶

API 名称	API 功能
read_file	读取并输出文件的字节内容（1-D Tensor）
decode_jpeg	将 JPEG 图像解码为三维 RGB Tensor 或者一维灰度 Tensor
roi_pool	兴趣区域的最大池化
RoIPool	兴趣区域的最大池化
psroi_pool	位置敏感的兴趣区域池化
PSRoIPool	位置敏感的兴趣区域池化
roi_align	基于双线性插值的兴趣区域对齐
RoIAlign	基于双线性插值的兴趣区域对齐
deform_conv2d	计算 2-D 可变形卷积
DeformConv2D	计算 2-D 可变形卷积
yolo_box	生成 YOLO 检测框
yolo_loss	计算 YOLO 损失
prior_box	为 SSD 系列目标检测算法生成候选框
generate_proposals	生成候选检测框
distribute_fpn_proposals	将候选检测框分配到不同的 FPN 层级
box_coder	编码/解码带有先验框信息的目标边界框
nms	计算非极大抑制

数据处理相关 API¶

API 名称	API 功能
adjust_brightness	调整图像亮度
adjust_contrast	调整图像对比度
adjust_hue	调整图像色调
BaseTransform	图像处理的基类，用于自定义图像处理
BrightnessTransform	调整图像亮度
center_crop	对图像进行中心裁剪
CenterCrop	对图像进行中心裁剪
ColorJitter	随机调整图像的亮度，对比度，饱和度和色调
Compose	以列表的方式将数据集预处理的接口进行组合
ContrastTransform	调整图像对比度
crop	对图像进行裁剪
Grayscale	对图像进行灰度化
hflip	水平翻转图像
HueTransform	调整图像色调
Normalize	对图像进行归一化
normalize	对图像进行归一化
Pad	对图像进行填充
pad	对图像进行填充
RandomCrop	对图像随机裁剪
RandomHorizontalFlip	基于概率水平翻转图像
RandomResizedCrop	基于概率随机按照大小和长宽比对图像进行裁剪
RandomRotation	对图像随机旋转
RandomVerticalFlip	基于概率垂直翻转图像
Resize	对图像调整大小
resize	对图像调整大小
rotate	对图像随机旋转
perspective	对图像进行透视变换
RandomPerspective	基于概率对图像进行透视变换
affine	对图像进行仿射变换
RandomAffine	基于随机产生的变换矩阵参数，对图像进行仿射变换
erase	使用给定的值擦除输入图像选定区域中的像素
RandomErasing	擦除图像中随机选择的矩形区域内的像素
SaturationTransform	调整图像饱和度
to_grayscale	对图像进行灰度化
to_tensor	将`PIL.Image`或`numpy.ndarray`转为`paddle.Tensor`
ToTensor	将`PIL.Image`或`numpy.ndarray`转为`paddle.Tensor`
Transpose	将输入的图像数据更改为目标格式
vflip	垂直翻转图像

其他 API¶

API 名称	API 功能
get_image_backend	获取用于加载图像的模块名称
image_load	读取一个图像
set_image_backend	指定用于加载图像的后端