AI变革家居软装？飞桨实现拍图搜商品功能

发布日期：2019-06-03 16:00浏览量：1301次

随着消费互联网流量红利的逐渐殆尽，移动互联网的主战场转向产业互联网，家居行业3D数字化进程高歌猛进，行业开始沉淀下了大量的与真实商品对应3D模型数据，如何应用真实商品的3D数据的多维度特点，来改善消费者的购物体验具有重要意义。

国内地产交付房子时存在毛坯房和精装房的区分。

△ 图（毛坯房）

△ 图（精装房）

根据次元视界2018年上百家一二线城市的消费者调查数据（来源：http://wap.panguvr.com/docs/detail/134）显示，90%的消费群体会在软装装修前上网搜图。但如今，线下实体店仍然占据80%的销售额，线上流量无法直接转化成消费行为是行业中的一大痛点。如何将线上线下的优势结合，优化资源配置，快速实现线下家居实体业的「进化」，成为家居企业发展的重中之重。

但实现线下家居实体业的进化存在诸多难点：

从消费者角度看信息大爆炸时代内容庞杂，很难利用效果图在线上直接搜索到，或在线下快速找到想要家居产品。即使搜索到，也难以想象其实际的大小、摆放效果等。而逛实体店“按图索骥”，又会有店铺分散、产品分散，费时费力的问题。

从家居行业商户角度看，线上销售渠道虽然逐渐丰富，但随之而来的也是大量卖家涌入线上平台，线上流量争夺激烈、红利减少，产品大概率为2D图片，用户体验差。

总结来说，随着新零售、大家居、互联网家装等新理念席卷，“线上+线下”双融合的家装营销模式更符合行业发展趋势。引导消费者通过效果图来直接展开消费行为为产业革新的关键。

这些问题，随着近年来卷积神经网络（Convolutional Neural Network, CNN）为代表的深度学习模型的广泛应用，有了很好的解决方法。

次元视界应用飞桨（PaddlePaddle），将Faster R-CNN应用于效果图真实商品检测，并结合可视化技术（Web3D、混合现实、全景云图），为消费者带来高品质的视觉感知服务，实现以图搜商品。

飞桨（PaddlePaddle）是百度自研的集深度学习框架、工具组件和服务平台为一体的技术领先、功能完备的开源深度学习平台，有全面的官方支持的工业级应用模型，涵盖自然语言处理、计算机视觉、推荐引擎等多个领域，并开放多个领先的预训练中文模型。

有关飞桨（PaddlePaddle）的更多信息，请查看：

http://www.paddlepaddle.org/

在下文中，我们将详细介绍飞桨（PaddlePaddle）如何与Faster R-CNN结合起来，实现以图搜商品的功能。

什么是Faster R-CNN

Faster R-CNN可以看作特征提取网络、Fast R-CNN和区域建议网络（Region Proposal Network, RPN）的组合。根据相关资料显示，以图搜商品的搜索准确率，会根据物体类别有所不同，大致分为三个类别：

平面物体，如画报、装饰画等，准确率可达到 95%以上；
三维刚性物体，如立体家居模型，准确率在 80%以上；
对于柔性或纹理单一物体，如纺织类、纹理单一的物品等，识别相对困难。

目前，图像搜索在某些垂直领域已经可以成熟应用，然而面向“万物搜索”，仍有较大的提升空间。不过，对于家居行业来说，商品基本上是在平面物体、三维刚性物体上展示，因而在搜索时可以达到较高的准确率。

家居商品检测方法

效果图Object Detection

以图搜商品将解决文字搜索无法精确描述场景的问题，如海淘搜索商品时语种不对称、实时场景中看到心仪商品但信息不对称的情况等。不过，想要对效果图进行解锁提取家具的单品图，我们需要采用目标检测（Object Detection），目的是将效果图中的每个家具独立框选出来，并且识别出框中的是沙发、茶几、电视柜、床等家具类别。

△ 图（效果图框选家具标识类别）

目标检测的第一步是要区域提名（Region Proposal）,类似于光学字符识别（OCR），简单的说就是尽量切碎到小的连通域，然后再根据相邻块的一些形态学特征进行合并，所以一定程度上可以说区域提名是更难的一个问题。

从机器学习的角度来说，问题的核心在于如何有效地去冗余候选区域，其实冗余候选区域大多是发生了重叠，选择性搜索利用这一点，自底向上合并相邻的重叠区域，从而减少冗余。

单品图特征检索

通过Object Detection我们可以提取效果图获得家具单品图和单品类型，假设我们提取了类型为床的单品图。

△ 图（床搜索原图）

输入单品图和类型，快速找到相似的商品

感知哈希（hash）算法的应用

感知哈希（hash）算法是一个有可比较的哈希函数的类，图像特征被用于生成独特（但不是唯一）的指纹，而这些指纹是可比较的。提取家具图像hash值的我们需要进行如下步骤：

缩小尺寸：去除高频和细节的最快方法是缩小图片，将图片缩小到8x8的尺寸，总共64个像素；
简化色彩：将8*8的小图片转换成灰度图像；
计算平均值：计算所有64个像素的灰度平均值；
比较像素灰度：将每个像素的灰度，与平均值进行比较。大于或等于平均值，记为1；小于平均值，记为0；
计算hash值：组合在一起，就构成了一个64位的整数，这就是这张图片的指纹。

3D数据采集

通过实时渲染技术快速生成每个家居3D模型不同角度的几十张图像数据,并且混合复杂背景提升训练后的识别准确率。

△ 图（多角度图片示例）

基于3D模型我们还可以采集商品的搭配色彩表、材质信息、尺寸信息等更多维度的数据集，为之后的软装搭配智能推荐算法打下基础。

用不同深度学习框架的体验

首先我们先尝试的是谷歌的TensorFlow 深度学习框架，但在衡量本土化支持、开发者支持以及之后的商业化潜力后，我们决定无缝迁移到百度的飞桨（PaddlePaddle）。

由于之前《次元视界》已经基于TF 的Fast RCNN 做了将近三个月的大量数据联系，迁移到飞桨（PaddlePaddle）后我们有了以下发现——飞桨（PaddlePaddle）更完美地支持了模型并行和数据并行多机训练。由于我们的数据，是每个家居3D模型不同角度的几十张图像数据、海量模型，包括大家居所有品类，这就意味着需要处理大于几个Terabyte的数据。

飞桨（PaddlePaddle）的运算占用内存小、速度快、支持并行，对我们的工作量非常适合。经过一周的训练，我们的模型轮廓识别准确率已达到89%，高于TF5%的识别率，并且其中的False Positive Rate (FPR) 也比之前减少了32%。