阿里云大数据助力知衣科技打造 AI 服装行业核心竞争力-bet体育365冻卡么-365bet真人平台-365bet体育在线投注官网-bet体育365冻卡么

知衣的核心功能场景是以图搜图，前提是需要对海量的图片库数据进行识别。以离线的方式对图片库的所有图片进行机器学习分析，将每一幅图抽象成高维（256 维）特征向量，然后将所有特征借助 Proxima 构建成高效的向量索引。

模型训练

图片识别之前需要训练模型。由专业的服务行业背景的人员对图片库进行标注，然后线下部署的 GPU 集群从阿里云对象存储 OSS 批量拉取已标注的图片进行训练。为了降低标注的成本，知衣科技采用了主动学习（Active Learning）方法，即基于一部分已标注的图片由机器学习训练出一个模型，然后对未标注的图片进行预测，让人工对预测结果再次进行确认和审核，再将标注的数据使用监督学习模型继续进行模型训练，逐步提升模型效果。

批量图片识别

模型生成以后打包到 Docker 镜像，然后在 GPU 节点上运行容器服务就可以对海量的服装图片进行识别，提取出高维的特征向量。因为提取的特征向量数据量很大且需要进行清洗，知衣科技选择将特征向量先缓存在阿里云日志服务 SLS，然后通过 DataWorks 编排的数据开发任务同步 SLS 的特征向量并进行包含去重在内的清洗操作，最后写入向量检索引擎 Proxima。

一次批量识别图片的工作量很大，线下的 GPU 服务器计算性能有瓶颈，所以知衣科技借助云上弹性的 GPU 资源做计算资源的补充。线下 GPU 和云上 GPU 组成一个计算资源池，共同消费同一批需要进行图片识别的计算任务，效率大大提升。云上购买的是 GPU 抢占式实例，一般是按量价格的 2 ~ 3 折，可进一步降低成本。

单词图片识别

以在线 serving 的模式，在 Web 前端提供单次单张图片识别功能，比如用户上传一张图片，通过模型的推理输出如下结果：

以图搜图

构建好服装图片的特征向量库，我们就可以实现以图搜图的功能。当用户上传一张新图片的时候，我们用之前的机器学习方法对其进行分析并产出一个表征向量，然后用这个向量在之前构建的向量索引中查找出最相似的结果，这样就完成了一次以图片内容为基础的图像检索。选择合适的向量检索引擎非常重要。

初期，知衣科技选择 Faiss 部署分布式服务，在多台 GPU 服务器上部署特征向量搜索匹配服务，将搜索请求分发到每台 GPU 子服务进行处理，然后将 TOP N 的相似结果数据汇总返回给调用方。

在使用 Faiss 的过程中，知衣技术团队也遇到了实际的困难，例如：稳定性问题、GPU 资源不足、运维成本高、带宽争抢、特定场景下召回结果集不足等。当然这并不是 Faiss 本身的问题，而是需要投入更多人力开发运维分布式系统才能匹配业务需求。

借助阿里达摩院自研的向量检索引擎 Proxima，知衣实现了对大数据的高性能相似性搜索，Proxima 集成在之前在用的阿里云托管版 Elasticsearch。Proxima 功能和性能上与 Faiss 相比各有千秋，主要是针对 Faiss 使用上的困难， Elasticsearch + Proxima 解决了以下问题：

稳定性提升：开箱即用的产品服务 SLA 由阿里云保障，多节点部署的高可用架构。到目前为止，极少碰到接口超时问题。

算法优化：基于图的 HNSW 算法不需要 GPU，且与 Proxima 集成做了工程优化，性能有很大的提升（1000 万条数据召回只需要 5 毫秒）。目前业务发展特征向量已经增长到 3 亿。

运维成本降低：分片基于 Elasticsearch 引擎，数据量大的情况下直接扩容 Elasticsearch 计算节点就可以。

无带宽争抢：以图搜图的服务直接部署在云上，不占用专线带宽，图搜场景下没有再出现超时查询告警。

召回结果集满足业务需求：Proxima 也是基于 segment 分片取 Top N 相似，聚合后再根据标签进行过滤。因为 segment 较多，能搜索到的数据量相较之前的方案有了明显的增长。

365bet真人平台-365bet体育在线投注官网-bet体育365冻卡么

阿里云大数据助力知衣科技打造 AI 服装行业核心竞争力

相关文章

肾【中医百科】

Nvidia GTX 750 性能分析

windows11怎么关触控板

回顾16年前，在北京地下通道一唱成名，登上春晚的西单女孩，怎样了

路亚入门之如何选择适合的路亚用线

今借到欠条不还会怎样

友情链接