INFORMATION

行业新闻

当前位置:首页 >> 新闻中心 >> 行业新闻

基于REW-YOLO与RGB-D技术的通讯仓储物品识别与定位系统

时间:2026-04-23   访问量:147

摘要随着通讯行业的迅猛发展,仓储物流系统面临日益复杂的运行环境与业务需求。通讯设备种类繁多,包括路由器、交换机、光纤模块、室分设备、电缆盘及天线等,其存储形态呈现高密度堆叠、随机旋转与部分遮挡等特征,导致传统依赖人工盘点与条形码扫描的管理方式效率低下、劳动强度大且差错率高。针对这些痛点,本文提出一种面向通讯仓储场景的物品识别与定位系统框架,综合利用REW-YOLORotation-Enhanced Weighted YOLO)目标检测模型与RGB-D深度视觉技术,实现对仓储物品的精确识别与三维定位。实验结果表明,该系统可为通讯仓储的智能盘点与定位作业提供可行的技术路径和工程实现参考。

关键词:REW-YOLORGB-D;物体识别;通讯仓储;深度学习;目标检测;三维定位

引言

近年来,随着5G网络大规模建设和东数西算等工程的推进,运营商通讯设备的种类与数量呈爆发式增长。省、市级集中仓库及片区中转仓需同时管理上万件不同型号的板卡、RRUBBU、光模块、电源模块及各种辅材。这些物品外观多样、包装形态复杂,且出入库频繁,给传统仓储管理模式带来巨大压力。目前,许多环节仍依赖人工肉眼识别与手持终端扫描条码,不仅劳动强度大,而且在光照不足、标签破损或箱体遮挡等场景下易出现漏扫、错扫问题,直接影响库存准确性和作业效率。

图片 1.png 

1 REW-YOLORotation-Enhanced Weighted YOLO)模型

计算机视觉与深度学习技术的发展,为解决上述问题提供了关键手段。YOLO系列模型以其单阶段、端到端的结构,在工业视觉检测中得到广泛应用。然而,传统YOLO模型普遍假设目标边界框为轴对齐矩形,对旋转、倾斜或堆叠物体的检测能力有限,在通讯仓储这种存在大量倾斜纸箱、电缆卷轴及不规则器件的场景下,往往出现目标边界框重叠严重、定位偏差大等问题。Wang[1]提出REW-YOLORotation-Enhanced Weighted YOLO)通过引入旋转边界框参数和加权损失设计(模型如图1所示),结果表明该模型在不显著增加计算量的前提下,提高了对旋转目标的检测性能,适合应用于通讯仓储等复杂环境。

另一方面,传统仅基于二维图像的检测方法难以获得目标在空间中的真实位置和高度信息,在多层货架或高密度堆叠环境中无法满足三维定位和路径规划的需要。艾青林等[2]提出RGB-D技术通过在RGB彩色图像的基础上增加深度通道,使得每个像素都具备颜色+距离的信息,为物体三维重建、位姿估计和空间测量等任务提供了重要支撑。将RGB-D与旋转检测框架结合,有望提高在重叠和遮挡场景中的感知精度。

基于上述背景,面向通讯仓储典型应用需求,本文设计并实现了一套基于REW-YOLORGB-D技术的物品识别与定位系统,旨在实现对仓储物品的精确识别与三维定位,为通讯仓储的智能盘点与定位作业提供可行的技术路径和工程实现参考。

系统设计与方法

基于REW-YOLORGB-D技术的通讯仓储物品识别与定位系统以模块化架构为核心,首先通过REW-YOLO旋转目标检测框架处理复杂仓储场景下的倾斜、堆叠与遮挡问题,实现高精度物体检测;其次,融合RGB-D深度信息进行三维定位,获得目标在空间中的真实位姿;最后,构建完整的系统架构,确保数据流高效流通与实际部署的可行性。通过这些方法,该系统能有效适应通讯仓储的动态环境,提供可靠的识别与定位支持。

1.REW-YOLO旋转目标检测框架

传统YOLO系列模型通过对输入图像进行网格划分,预测每个网格中若干个候选边界框的中心位置(x,y)、宽高(w,h)和类别概率,从而实现实时目标检测。然而,在通讯仓储场景中,物品经常以任意角度堆叠或倾斜放置,使用轴对齐边界框进行拟合会导致以下问题:一是包围盒面积被迫增大,引入大量背景噪声,削弱特征表达的判别性;二是在多目标紧密堆叠时,矩形框之间严重重叠,增加NMSNon-Maximum Suppression)阶段的误抑制风险。

REW-YOLO在常规YOLOv8检测头基础上增加了角度回归分支,引入旋转边界框参数θ,使每个目标的预测结果扩展为(x,y,w,h,θ)。为提高训练稳定性,本文采用以下方式对角度进行编码:

图片 2.png 

通过将角度映射到[0,1]区间,可有效缓解梯度震荡问题。

在损失函数设计方面,REW-YOLO将总损失表示为:

图片 3.png 

其中,Lcls为分类损失,采用Focal Loss以抑制易分类样本的影响;Lbox为边界框回归损失,采用基于旋转IoU的损失形式;Lrot为角度回归损失,使用平滑L1损失:

图片 4.png 

λboxλrot分别为平衡系数,参考实际情况本次设置为2.00.5

通过上述设计,模型能够对旋转、倾斜及部分遮挡目标进行更精确的外接框拟合,提高整体检测性能。为进一步提升在仓储复杂场景下的鲁棒性,本文还将实例分割算法Mask R-CNN融入框架中,用于精确描绘物体轮廓,支持边缘粘连和胶带干扰的处理。

2. RGB-D三维定位方法

为了进一步获得目标在空间中的真实位置,本文引入RGB-D深度相机,结合相机内参完成从像素坐标到相机坐标的转换。RGB-D相机在采集彩色图像的同时,为每个像素提供深度值D(u,v),表示相机到该点的距离。设相机内参矩阵为:

图片 5.png   

其中fx,fy为在水平方向和垂直方向上的焦距,(cx,cy)为主点坐标。对检测得到的旋转边界框,首先在其内部选取若干个像素点(如中心点及四个顶点),根据深度图读取对应深度值z=D(u,v),再依据透视投影关系将其映射至相机坐标系:

图片 6.png 

由此便可获得目标在相机坐标系下的三维坐标(x,y,z)。考虑到深度图易受噪声影响,本文对旋转框内部深度值采用中值滤波与有效像素剔除策略,仅保留可信度较高的深度数据用于计算,进一步提高三维定位的稳定性。

在仓储实际应用中,若需要获得相对于仓库全局坐标系的位姿,还可结合外参矩阵[R|T],完成从相机坐标系到世界坐标系的转换:

图片 7.png 

其中R为旋转矩阵,T为平移向量。主要关注相机坐标系下的相对位置,因此在仿真实验中未对外参进行扩展讨论。为实现手眼标定,本文采用棋盘格方法确定相机坐标系和机器人坐标系的转换关系,确保定位精度在15mm范围内。

3.识别与定位系统架构

系统采用模块化设计,以方便部署和维护。整体数据流依次经过图像采集模块、物体检测模块、三维定位模块、数据处理与输出模块,各模块之间通过消息队列或共享内存进行解耦。

图像采集模块。参考冯仁宇等[3]安装方式,此次使用Intel RealSense D435RGB-D相机固定安装在货架正前方或顶部,按帧率30 FPS采集场景RGB图像及深度图。为减小环境光变化的影响,相机开启自动曝光与红外补光功能。

物体检测模块。接收采集到的RGB图像,经过归一化与尺寸缩放后输入REW-YOLO检测网络,输出每个目标的类别标签、置信度以及旋转边界框参数,并通过旋转NMS去除冗余候选框。

三维定位模块。利用深度图和相机内参矩阵,提取旋转框中心点及顶点的深度值,完成从像素坐标到三维坐标的转换,输出位姿信息。

数据处理与输出模块。将识别与定位结果按照通讯仓储业务需求进行结构化封装,生成物品ID—位姿置信度三元组,并通过RESTful API或消息总线推送给上层仓储管理系统。该模块同时负责结果可视化与日志记录,便于后续追踪与分析。

图片 8.png 

2 系统总体架构示意图

系统总体架构如图2所示,左侧为RGB-D摄像头与采集模块,中部为REW-YOLO检测与RGB-D融合定位模块,右侧为数据输出与系统接口模块,箭头表示数据在各模块之间的流转路径。该系统支持柔性手爪适配,实现吸盘、夹持等多种抓取方式,适用于混码组盘拆垛。

仿真与应用验证

1.数据集获取与预处理

为验证所提方法的有效性,在某运营商集中仓库内采集了5000RGB-D图像,覆盖10类典型通讯产品,包括室外RRU箱体、室内分布系统设备、1U/2U机框、整箱光模块、电缆盘、天线组件等。其中约60%的样本为单层摆放场景,40%为多层堆叠及混合遮挡场景。采集过程中刻意设置不同的光照条件(自然光、局部遮挡、偏暗角落等),以增强数据多样性。

在预处理阶段,首先对深度图执行中值滤波与孔洞填补,以缓解深度噪声和缺失问题;其次在RGB图像上进行几何与光照增强,包括随机旋转(±30°)、水平翻转、亮度与对比度扰动、遮挡模拟等,以构造更多倾斜与局部遮挡样本,提升模型的泛化能力。随后使用LabelImg工具对图像进行人工标注,采用旋转边界框形式记录各目标的中心点、宽高及朝向角度,多数图片包含26个目标实例。

图片 9.png 

3 部分仓储场景照片

数据集按7∶2∶1比例划分为训练集、验证集与测试集,保证各类别及不同堆叠场景在各子集中分布均衡。模型训练基于PyTorch框架实现,批次大小设为32,初始学习率0.001,训练轮数300轮;在训练过程中使用余弦退火学习率调度策略,并启用Early-Stopping机制,当验证集损失在20轮内不再下降时提前终止训练,以防止过拟合。

2.仿真平台与实验设置

为了系统评估算法在不同遮挡程度、堆叠高度和光照条件下的性能,本文在实际数据之外,构建了一个基于Unity3D的通讯仓储仿真环境。仿真平台按照1∶10比例还原货架尺寸与部分库区布局,并建立了多种典型设备三维模型。通过设置虚拟RGB-D相机,可方便地控制相机高度、俯仰角、焦距以及环境光照,从而生成大量标注精确、可重复的模拟样本。

图片 10.png 

4 仿真与实采数据联合实验平台示意图

仿真与实采数据联合实验平台如图4所示,左侧为安装在真实仓库和仿真场景中的RGB-D相机,中间为多层货架及随机堆叠的设备包装箱,右侧为GPU推理服务器与算法程序。系统在NVIDIA RTX 3080 GPU Intel Core i7处理器上运行,单次推理的平均延迟约22s

评估指标主要包括mAP@0.5FPSRMSE。其中,mAP@0.5指在IoU阈值0.5下的平均精度,用于评价目标检测性能;FPS指推理帧率,反映算法的实时性;RMSE指三维定位的根均方误差,定义为

图片 11.png 

(其中图片 12.png分别为第i个目标的真实与预测三维坐标,N为样本总数)。

为了进行对比实验,本文选取YOLOv4YOLOv8作为基线模型,在相同数据集和训练策略下重新训练,并在统一测试集上进行测试。实际平台搭建包括KuKa 6轴机器人(KR C5 M6)和图漾3D相机。

3.不同检测模型性能对比

YOLOv4YOLOv8REW-YOLO模型在真实+仿真混合测试集上的性能对比结果参见表1。由表1可见,在综合考虑检测精度与实时性的前提下,REW-YOLO mAP@0.5指标上相较YOLOv4YOLOv8分别提升了4.68.9个百分点,复杂场景下的mAP提升幅度更为显著,说明旋转边界框与加权损失设计有效增强了对倾斜与堆叠物体的检测能力。尽管引入旋转分支导致FPS略低于YOLOv8,但45FPS的推理速度仍能满足大部分通讯仓储实时盘点业务的需求。

1 不同检测模型性能对比

图片 13.png 

在定位误差方面,由于YOLOv4YOLOv8在目标框回归上采用轴对齐矩形,导致部分高度倾斜目标的中心点偏移较大,从而影响三维坐标计算;REW-YOLO 利用旋转框更准确地拟合目标轮廓,使得RMSE 显著降低至2.5cm,为后续机械臂或AGV设备的精确抓取提供了更可靠的位姿输入。

4.RGB-D融合效果对比

为量化RGB-D融合对三维定位精度的提升效果,在保持检测网络不变的情况下对比了RGB+固定深度假设“RGB-D融合两种方案。其中,RGB+固定深度假设方案是指在仅使用RGB图像进行目标检测的基础上,对检测到的边界框进行三维定位时,不依赖深度图,而是采用经验高度或货架层高作为深度值的近似估计。具体而言,该方案假设所有目标位于已知的固定高度平面(如货架的特定层高),或使用预设的平均经验高度(如基于历史数据或人工测量得到的典型物品高度)来代替真实深度值。这种方法简单易实现,但忽略了实际场景中的高度变异(如堆叠导致的z坐标差异或相机视角引起的透视distortion),容易在多层货架或不规则堆叠环境中引入系统性误差,导致定位精度下降。相反,“RGB-D融合方案则直接使用深度图测得的距离值,与检测到的边界框像素坐标结合,通过相机内参矩阵进行精确映射,实现真实的深度信息整合。

2 RGBRGB-D融合前后性能对比

图片 14.png 

实验结果表明,尽管两种方案在检测精度(mAP)上差距有限,但在三维定位误差上差异明显。纯RGB方法在多层货架和混合堆叠场景中常出现高度估计偏差,RMSE高达4.2cm;引入RGB-D深度信息后,定位误差降低约40%,且在不同光照条件下保持较为稳定的表现,证明深度信息在提升整体空间感知能力方面具有关键作用。具体可参见表2

5.遮挡与堆叠高度仿真实验

为了进一步考察算法在不同遮挡程度和堆叠高度下的鲁棒性,本文在仿真环境中设计了单层无遮挡(货物单层摆放,彼此间距较大)、两层中度遮挡(上层纸箱覆盖下层约30%面积)、三层高密度堆叠(多层纸箱随机偏转堆叠,遮挡比例超过60%)等三组场景。

具体设置为在Unity3D仿真平台中,利用内置的Occlusion Culling功能来模拟现实中的视觉遮挡效应。该功能通过动态计算相机视锥体内可见物体,自动隐藏被遮挡的部分,从而生成更逼真的RGB-D图像。在场景构建时,采用物理引擎模拟物品堆叠的动态过程,例如使用UnityPhysics系统应用重力和碰撞力,确保堆叠形态符合现实物理规律,如纸箱在多层堆叠时的稳定性。具体场景设计如下:

单层无遮挡场景。物品均匀分布于货架平面,间距设置为1020cm,无任何重叠。该场景作为基准,用于评估模型在理想条件下的性能上限。控制光照强度为标准自然光(约1000 lux),并添加轻微噪声(高斯噪声σ=0.01)以模拟相机传感器误差。

两层中度遮挡场景。上层物品随机放置于下层上方,覆盖面积控制在30%50%。引入随机旋转(角度范围±15°)来模拟实际仓储中的不规则放置,并调整遮挡比例通过UnityMesh Collider来精确计算可见像素比例。该场景代表典型出入库后货物临时堆放的情况。

三层高密度堆叠场景。物品多层叠加,覆盖率超过60%,并模拟随机偏转(角度20°45°)和局部光影变化(如使用UnityLight Probes创建动态阴影)。该场景模仿高峰期仓库拥挤状态,测试模型对严重遮挡的鲁棒性。还添加环境因素,如反射表面(金属箱体)和噪声增强(σ=0.05),以接近真实工业环境。

在数据生成过程中,每场景生成500幅图像,总计1500幅,每幅图像包含28个物品实例,使用虚拟RGB-D相机捕获(分辨率640×480,深度范围0.55m)。标注通过Unity脚本自动生成,确保像素级精确。

3 不同场景下模型性能对比

图片 15.png 

实验结果表明,随着遮挡程度的增加,三种模型的mAP均有所下降,但REW-YOLO下降幅度最小;在三层高密度堆叠场景中,YOLOv8mAP降至72.4%,而REW-YOLO仍可保持在84.0%左右。此外,REW-YOLO在所有场景中的RMSE均控制在3cm以内,表明其在复杂堆叠环境下具备更强的空间感知能力。具体可参见表3

实验结果显示,随着复杂度增加,基线模型性能下降明显。YOLOv4在高密度场景mAP降至68.2%,主要因轴对齐框无法有效处理重叠边界,导致NMS误判率升高(约25%实例被抑制)。YOLOv8虽优化了网络结构,但仍受限于传统IoU损失,在遮挡>50%时召回率掉至60%。相比之下,REW-YOLO受益于旋转IoU和加权损失,在中度遮挡场景mAP提升9.4%,高密度场景提升15.8%,召回率维持85%以上。这归因于角度回归分支的显式优化,能更好地拟合不规则轮廓,减少背景干扰。

此外,RMSE分析表明,REW-YOLO在所有场景中均<3cm,而基线模型在高密度堆叠时升至5.6cm,突出旋转框在提升中心点准确性的作用。进一步可视化结果显示REW-YOLO在遮挡区域的边界拟合更紧致。

这些发现验证了系统对仓储复杂性的适应性,为实际部署提供阈值(如遮挡>60%时建议多相机融合)。

6.误差来源分析与讨论

综合上述实验结果可以看出,算法误差主要来源于以下几个方面:

1)深度噪声与反射:在金属材质或强反光包装箱表面,RGB-D相机的红外结构光易产生错误匹配,导致局部深度值突变;

2)旋转框拟合误差:当目标边界与背景对比度较低或边缘模糊时,旋转角度预测存在一定偏差,进而影响三维中心坐标;

3)标注与仿真差异:手工旋转框标注难以做到像素级精确,一定程度上限制了上限性能;而仿真数据与真实物理纹理存在域差异,也会对泛化效果产生影响。

针对上述问题,可通过引入更高精度的ToF深度相机、采用多帧深度融合与时间滤波技术,以及结合实例分割或边缘检测结果对旋转框进行二次优化等方式进一步降低误差。

结论

面向通讯行业仓储场景中物品种类多样、堆叠复杂和定位精度要求高等特点,提出了一种结合REW-YOLORGB-D深度视觉技术的物品识别与三维定位系统。实验结果表明该方法不仅为仓储智能化提供了高效、鲁棒的技术路径,还能显著提升盘点效率、降低人工强度和库存误差,具有重要的工程应用价值和推广潜力,未来通过与机器人、AGV及多模态传感器的集成,可进一步实现全流程自动化和多仓自适应部署。

参考文献:

[1]Wang G,Li S,Zhu X,etal.REW-YOLO: A Lightweight Box Detection Method for Logistics[J].Modelling, 2025,6:76.

[2]艾青林,刘刚江,徐巧宁.动态环境下基于改进几何与运动约束的机器人RGB-D SLAM算法[J].机器人,2021,43(02):167-176.

[3]冯仁宇,夏凯,杨灏泉,.3D视觉智能拆垛系统关键技术研究[J].物流技术与应用,2025 30(09):114-122.

 


地址:河南省郑州市高新区河阳路186号7号楼

手机:15890682428

电话:0371-63363076

QQ:893441309

微信:xuanyuan910314

Copyright © 2023 河南晟合轩智能科技有限公司 All Rights Reserved.

豫ICP备2023015433号-1