1.Mask R-CNN超详细介绍
2.Faster-rcnn 代码详解
3.rcnn中的源码hardnegativemining方法是如何实现的?
4.(三十)通俗易懂理解——R-CNN
5.Faster R-CNN详解和网络模型搭建
6.解读R-CNN
Mask R-CNN超详细介绍
Mask R-CNN是一个两阶段框架,用于目标检测和实例分割。使用它从Faster R-CNN扩展而来,源码增加了生成掩码的使用能力。框架包括主干网络,源码用于特征提取,使用css授权码源码如ResNet或,源码引入深度残差网络减少参数,使用简化训练过程。源码
在训练中,使用网络的源码深度会影响性能。为优化此问题,使用使用FPN(特征金字塔网络),源码能够将不同尺度的使用特征融合,有效利用所有阶段的源码特征。FPN通过top-down结构和横向连接,集成浅层和深层特征,构建适用于所有尺度的强语义特征金字塔。
主干网络生成特征图,输入RPN(区域建议网络)进行选择。RPN是一个轻量级网络,使用滑动窗口扫描图像,找出目标区域。通过预测类别和边界框,RPN选出最可能包含目标的区域,并调整其位置和尺寸,应用非极大值抑制选择最高前景分数的区域。
ROI池化解决RPN输出不同尺寸框的问题,ROIAlign方法通过采样和双线性插值,将裁剪的特征图调整为固定尺寸,用于后续处理。
在Faster R-CNN基础上,Mask R-CNN引入掩码分支,接收ROI分类器选择的正区域,生成掩码。掩码是低分辨率的x像素,以浮点数表示,提供更精细的分割信息。此设计保持了掩码分支的轻量化。
Faster-rcnn 代码详解
在深入理解Faster-RCNN的实现过程中,关键部分是fasterRCNN.pytorch中的核心代码。首先,我们关注的是网络的输入数据,包括:coco数据集: 使用的预训练模型基于ResNet,锚框数量为3乘以4,即个。原始图像(P, Q)的尺寸不变,而输入网络(M, N)的图像是经过resize处理后的。
图像数据: im_data是一个4维数组,表示batch内的每张,尺寸为[batch, 3, M, N],所有都被统一调整到(M, N)大小。
图像信息: im_info包含每张的王者荣耀新指标源码缩放比例等信息,形状为[batch, 3],如M, N和resize后的scale。
gt_boxes: 图像中真实目标的框信息,包括坐标和类别,最多个,实际数量由num_boxes记录。
num_boxes: 每张中真实框的数量,gt_boxes中不足的框用0填充。
整个Faster-RCNN的结构分为几个关键步骤:卷积特征提取: 通过RCNN_base网络,从输入图像中提取特征,输出为base_feat。
RPN网络: 用于计算RoI提议生成的loss,包括类别和边框回归,输出排序后的RoIs。
目标分配: 在训练阶段,通过RCNN_proposal_target确定每个RoI与gt_box的关联,用于计算类别和边框预测的loss。
RoI池化: 用roi_align方法将每个RoI转换为固定尺寸的特征图。
全连接层: 对特征图进行分类和边框预测,计算交叉熵和smooth_l1 loss。
在训练阶段,会根据上述步骤的损失进行反向传播更新网络参数。在测试阶段,通过bbox_transform_inv和nms进行后处理,得到最终的检测结果。 代码中的RPN网络涉及以下几个部分:RPN前置网络: 提供用于RoI提议的基础特征。
RPN提案生成: 通过RPN网络预测锚框的置信度和偏移。
目标锚框分配: 根据gt_boxes分配锚框的标签和目标偏移。
RPN损失: 计算RPN网络的loss。
而RCNN_proposal_target网络则负责gt_box和RoI的匹配,以及ROI Align的实现是后处理中的重要步骤,这里暂不详述。测试阶段的后处理包括修正RoIs并应用NMS来得到最终的检测结果。rcnn中的hardnegativemining方法是如何实现的?
RCNN中的Hard Negative Mining方法是为了提高目标检测模型的性能,特别是提升召回率。在目标检测任务中,模型通常会生成大量区域提议,包括正样本和大量的负样本。然而,大量无意义的负样本会使得模型难以从梯度中区分出真正有用的正样本信息。因此,Hard Negative Mining通过在训练过程中优先选择那些难以分类的负样本,即“hard negatives”,来优化模型的学习过程。
难例挖掘的核心思想是“宁可错杀一千,绝不放过一个”,即在训练时,模型倾向于提出比实际数量更多的区域提议,以增加发现所有目标物体的机会。然而,这种方法会导致大部分区域提议是负样本,训练时大部分梯度信息由无意义的jdk源码中的注释负样本主导,这与提高模型性能的目标背道而驰。Hard Negative Mining的目的是解决这个问题,通过在训练集中加入那些模型难以正确分类的负样本,以增强模型对复杂和难以识别目标的识别能力。
R-CNN方法采用了自举法(bootstrap)的方式来实现Hard Negative Mining。这个过程主要包括以下步骤:首先,从训练数据库中选取一部分初始的“非人脸”样本作为负样本集合。然后,使用当前的模型对这些样本进行分类,找出那些模型误分类为“人脸”的“非人脸”样本。这些误分类的样本被添加回训练数据库,作为新的负样本。接着,重复这一过程,直到模型的性能不再提升。这种方法通过不断更新负样本集,让模型在训练过程中更加关注那些难以分类的样本,从而提高模型的整体性能。
在R-CNN中,实现Hard Negative Mining的关键代码位于rcnn_train.m文件中的sample_negative_feature函数。该函数在非首次负例采样时,筛选出难以分类的负例样本,即那些满足特定条件的样本。这些样本通常是在SVM分类器中与边界距离较近,但被误分类的负样本。通过这种方式,模型能够更加关注那些难以识别的目标,从而提高检测性能。
总结来说,RCNN中的Hard Negative Mining方法通过优化负样本的选择策略,提高了模型在训练过程中的学习效率和性能,特别是对于那些难以识别的目标。这种方法通过自举法不断更新负样本集,确保模型能够从训练数据中学习到更多有关复杂目标的信息,从而实现更好的目标检测效果。
(三十)通俗易懂理解——R-CNN
R-CNN算法是年提出的一种经典Object Detection算法,主要用于识别图像中的物体位置和类别。该算法在PASCAL VOC 数据集上的mAP成绩为.3%,在当时已表现出较好的性能。下面将对R-CNN算法的解决的问题、算法简述、算法详解以及训练和测试过程进行详细阐述。 一、解决的问题 R-CNN算法主要解决Object Detection中的两个关键问题:定位(localization)和识别(recognition),即准确确定物体在图像中的位置,并识别出物体的类别。其核心是通过深度学习的方法,结合候选区域生成、特征提取、分类器训练和回归等步骤,实现对物体的精确检测。 二、汉字识别技术及源码算法简述 为了实现Object Detection,R-CNN算法使用了以下关键步骤:1. **候选区域生成**:采用Selective Search方法从图像中生成约个候选区域,这些区域是物体可能存在的位置。
2. **特征提取**:使用预训练的深度网络(如AlexNet)提取候选区域的特征。
3. **分类器训练**:针对每个类别训练SVM分类器,利用深度网络的特征进行分类。
4. **回归**:针对每个类别训练回归器,对候选区域进行修正以提高定位精度。
5. **结果筛选**:应用非极大值抑制(NMS)去除重复或重叠的检测结果。
三、算法详解 **训练过程**:1. **准备候选区域**:使用Selective Search算法生成候选区域,每个图像约个。
2. **特征预处理**:将候选区域归一化至x尺寸,进行CNN特征提取。
3. **分类器训练**:针对每个类别训练SVM分类器,使用深度网络的特征。
4. **回归器训练**:针对每个类别训练回归器,对候选区域进行定位修正。
5. **结果整合**:应用NMS剔除重复检测结果。
**测试过程**:1. **候选区域提取**:在测试图像上提取约个候选区域。
2. **特征提取**:将候选区域变形至x尺寸,进行CNN特征提取。
3. **分类与回归**:针对每个类别进行分类与回归,得到修正后的bounding boxes。
4. **结果筛选**:应用NMS剔除重复检测结果。
四、算法优点与缺点 R-CNN算法在当时已表现出较好的性能,但在训练时间、计算资源和内存占用方面存在一定的限制。随着Fast R-CNN等后续算法的改进,这些问题得到了有效解决,使得深度学习在Object Detection领域的应用更加广泛和高效。Faster R-CNN详解和网络模型搭建
论文原文: arxiv.org/abs/....
个人代码仓库: GitHub - dailonggang/Faster-R-CNN
文章部分引自: zhuanlan.zhihu.com/p/...
我们知道Faster RCNN是由R-CNN、Fast R-CNN改进而来,是非常经典的两阶段网络,下面我们就原理和代码进行介绍。在此之前大家可以先了解一下R-CNN、Fast R-CNN的原理,这样对Faster RCNN也能有更好的理解,毛遂自荐一下:
Faster R-CNN其实可以分为5个主要内容:
Faster R-CNN整体结构图如下所示:
下面就Faster R-CNN上面的5个部分做一个比较详细的介绍:
二、Resize
首先对输入的图像进行resize操作,以适应模型要求,单独resize.py文件进行实验。
三、Backbone
接下来利用ResNet网络进行特征提取得到特征图(Feature Map)。有关ResNet的原理和代码部分可以参考: ResNet网络结构详解与Pytorch版本模型的搭建。还可以单独进行调试。
四、RPN网络
RPN网络实际分为2条线,上面一条通过 softmax 对前景(positive)和背景(negative)进行分类,下面一条用于对anchors进行bounding box regression偏移量,以获得精确的跑分平台代理源码proposal。
Region Proposal Networks(RPN)和锚框(anchor)
RPN作为Faster RCNN的一大主要创新点,网络直接使用RPN生成候选区域,这也将生成区域提议的时间从2s缩减到了ms,大大提升了生成待检测区域的速度。从网络图也可以看出Faster R-CNN其实就是RPN和Fast-RCNN的结合。提到RPN网络,就不能不说锚框(anchor)。锚框是在原图上设置不同大小的假想框,来检测框中是否出现物体。简单地说,RPN依靠一个在共享特征图上滑动的窗口,为每个位置生成9种预先设置好长宽比与面积的框(anchor)。这9种初始anchor包含三种面积(×,×,×),每种面积又包含三种长宽比(1:1,1:2,2:1)。如下图所示:
anchor生成代码:
在原文中,经过特征提取后,共享特征图的大小约为×,RPN生成的初始anchor总数为(××9)。对于生成的anchor,RPN要做的事情有两个,第一个是判断anchor到底是前景还是背景,意思就是判断这个anchor到底有没有覆盖目标,在训练的时候排除掉了超越图像边界的anchor,剩下大约个,通过上面的分支,也就是先经过一个3×3卷积,得到一个相同大小shape的特征图,然后经过一个1×1的卷积层输出了个值,因为是每一个点对应9个anchor,每个anchor有一个前景分数和一个背景分数,所以9×2=;第二个是为属于前景的anchor进行第一次坐标修正。经过另一个1×1的卷积层输出了个值,因为是每一个点对应9个anchor,每个anchor对应了4个修正坐标的值,所以9×4=。那么,要得到这些值,RPN网络需要训练。在训练的时候,就需要对应的标签。那么,如何判定一个anchor是前景还是背景呢?文中做出了如下定义:如果一个anchor与ground truth的IoU在0.7以上,那这个anchor就算前景(positive)。类似地,如果这个anchor与ground truth的IoU在0.3以下,那么这个anchor就算背景(negative)。这样最终得到约个候选框。但是作者在进行RPN网络训练的时候,只使用了上述两种情况的anchor,与ground truth的IoU介于0.3和0.7的anchor没有使用。在训练anchor属于前景与背景的时候,是在一张图中,随机抽取了个前景anchor与个背景anchor。其实还有另一种方案就是取IoU最大值。正样本是在不够,就用负样本进行补充。下面的propsal还会细说。代码如下:
这里补充一点,其实原论文中是对k个anchor进行的操作,使用二分类交叉熵损失函数,如果按照我们使用2k个,那么就应该使用多分类交叉熵损失函数。另外,如果我们使用VGG作为主干特征提取网络的话,那么对于提取得到的特征图的感受野应该是,显然小于和这两个面积,但是论文中也提到了,其实小于只看部分也能推测出结果,通过后续算法验证也确实如此。
对于感受野的计算大家可以参见下面文章:
五、Proposal Layer
由网络结构图可以看出,Proposal Layer负责综合所有计算出精准的proposal,送入后续RoI Pooling Layer。
首先解释im_info。对于一副任意大小PxQ图像,传入Faster RCNN前首先reshape到固定MxN,im_info=[M, N, scale_factor]则保存了此次缩放的所有信息。然后经过Conv Layers,经过4次pooling变为WxH=(M/)x(N/)大小,其中feature_stride=则保存了该信息,用于计算anchor偏移量。
Proposal Layer forward按照以下顺序依次处理:
之后输出proposal=[x1, y1, x2, y2],注意,由于在第2步中将anchors映射回原图判断是否超出边界,所以这里输出的proposal是对应MxN输入图像尺度的,这点在后续网络中有用。另外我认为,严格意义上的检测应该到此就结束了,后续部分应该属于识别了。
通俗点来讲就是Proposal Layer会对RPN输出的分类和回归结果进行后处理(如NMS等),得到网络认为包含物体的区域,称为感兴趣的候选区域——RoI。至此,其实已经完成了定位任务,因为已经得到了包含物体的区域(bbox),只不过没有对物体类别进行细分,仅区分了前、背景。另外,由于anchor的位置和大小是人工预设的,且用于训练的样本有限,因此此处得到的检测结果可能并不够精准。
代码如下:
到这里RPN就解析完毕了。
六、RoI Pooling和Classifier
RoI Pooling就不再赘述。Classifier部分利用已经获得的proposal feature maps,通过full connect层与softmax计算每个proposal具体属于那个类别(如人,车,电视等);同时再次利用bounding box regression获得每个proposal的位置偏移量bbox_pred,用于回归更加精确的目标检测框。Classification部分网络结构如下图。
从RoI Pooling获取proposal feature maps后,送入后续网络,可以看到做了如下2件事:
注意,这里回归的结果是预测框中心点相对于正样本RoIs中心点坐标的位移以及两者长宽的比例,并且是归一化(减去均值除以标准差)后的结果。
代码如下:
在训练分类器和RoI边框修正时,步骤如下所示:
1) 首先通过RPN生成约个anchor(××9)。
2) 对个anchor进行第一次边框修正,得到修订边框后的proposal。
3) 对超过图像边界的proposal的边进行clip,使得该proposal不超过图像范围。
4) 忽略掉长或者宽太小的proposal。
5) 将所有proposal按照前景分数从高到低排序,选取前个proposal。
6) 使用阈值为0.7的NMS算法排除掉重叠的proposal。
7) 针对上一步剩下的proposal,选取前个proposal进行分类和第二次边框修正。
总的来说,Faster R-CNN的loss分两大块,第一大块是训练RPN的loss(包含一个SoftmaxLoss和SmoothL1Loss),第二大块是训练Fast R-CNN中分类器的loss(包含一个SoftmaxLoss和SmoothL1Loss),其实原论文中训练方法特别复杂,但是现在大多直接采用RPN Loss + Fast R-CNN Loss的联合训练方法。
宝藏UP主: Bubbliiiing的个人空间_哔哩哔哩_Bilibili
解读R-CNN
区域卷积神经网络(R-CNN)作为目标检测领域的革命性突破,显著提升了检测性能,相比于早期方法展现出显著优势。其核心创新在于:首先,通过CNN提取图像特征并生成feature map;其次,采用预训练策略,先在ImageNet大规模分类数据集上训练,随后在目标检测数据集上进行微调。
R-CNN的检测流程包括四步:首先,对图像生成大量候选区域;接着,对每个区域利用CNN提取特征;然后,将特征输入到SVM分类器中,以判断其类别归属;最后,通过回归器精确调整候选框的位置。预训练阶段,以AlexNet为基础,先在ImageNet上进行大规模分类训练,之后调整网络结构以适应目标检测任务。Fine-tune阶段,使用PASCAL VOC 的训练集,针对类(包括背景)进行训练,通过正负样本策略优化网络。此外,针对每个类别,单独训练SVM分类器,使用hard negative mining筛选负样本,并利用线性回归模型优化候选框的位置精度。
捋一捋pytorch官方FasterRCNN代码
pytorch torchvision 模块集成了 FasterRCNN 和 MaskRCNN 代码,本文旨在帮助初学者理解 Two-Stage 检测的核心问题。首先,请确保您对 FasterRCNN 的原理有初步了解,否则推荐阅读上一篇文章。
△ 代码结构
作为 torchvision 中目标检测的基础类,GeneralizedRCNN 继承了 torch.nn.Module。FasterRCNN 和 MaskRCNN 都继承了 GeneralizedRCNN。
△ GeneralizedRCNN
GeneralizedRCNN 类继承自 nn.Module,具有四个关键接口:transform、backbone、rpn、roi_heads。
△ transform
transform 接口主要负责图像缩放,并记录原始图像尺寸。缩放图像是为了提高工程效率,防止内存溢出。理论上,FasterRCNN 可以处理任意大小的,但实际应用中,图像大小受限于内存。
△ backbone + rpn + roi_heads
完成图像缩放后,正式进入网络流程。这包括 backbone、rpn、roi_heads 等步骤。
△ FasterRCNN
FasterRCNN 继承自 GeneralizedRCNN,并实现其接口。transform、backbone、rpn、roi_heads 分别对应不同的功能。
△ rpn 接口实现
rpn 接口实现中,首先使用 AnchorGenerator 生成 anchor,然后通过 RPNHead 计算每个 anchor 的目标概率和偏移量。AnchorGenerator 生成的 anchor 分布在特征图上,其数量与输入图像的大小相关。
△ 计算 anchor
AnchorGenerator 通过计算每个特征图相对于输入图像的下采样倍数 stride,生成网格,并在网格上放置 anchor。每个位置的 anchor 数量为 个,包括 5 种 anchor size 和 3 种 aspect_ratios。
△ 区分 feature_map
FasterRCNN 使用 FPN 结构,因此需要区分多个 feature_map。在每个 feature_map 上设置 anchor 后,使用 RegionProposalNetwork 提取有目标的 proposals。
△ 提取 proposals
RegionProposalNetwork 通过计算有目标的 anchor 并进行框回归,生成 proposals。然后依照 objectness 置信度排序,并进行 NMS,生成最终的 boxes。
△ 训练损失函数
FasterRCNN 在训练阶段关注两个损失函数:loss_objectness 和 loss_rpn_box_reg。这两个损失函数分别针对 rpn 的目标概率和 bbox 回归进行优化。
△ roi_pooling 操作
在确定 proposals 所属的 feature_map 后,使用 MultiScaleRoIAlign 进行 roi_pooling 操作,提取特征并转为类别信息和进一步的框回归信息。
△ 两阶段分类与回归
TwoMLPHead 将特征转为 维,然后 FastRCNNPredictor 将每个 box 对应的特征转为类别概率和回归偏移量,实现最终的分类与回归。
△ 总结
带有 FPN 的 FasterRCNN 网络结构包含两大部分:特征提取与检测。FasterRCNN 在两处地方设置损失函数,分别针对 rpn 和 roi_heads。
△ 关于训练
在训练阶段,FasterRCNN 通过 RPN 和 RoIHeads 分别优化 anchor 和 proposals 的目标概率和 bbox 回归,实现目标检测任务。
△ 写在最后
本文简要介绍了 torchvision 中的 FasterRCNN 实现,并分析了关键知识点。鼓励入门新手多读代码,深入理解模型机制。尽管本文提供了代码理解的指引,真正的模型理解还需阅读和分析代码。
目标检测算法(R-CNN,fastR-CNN,fasterR-CNN,yolo,SSD,yoloV2,yoloV3)
深度学习已经广泛应用于各个领域,主要应用场景包括物体识别、目标检测和自然语言处理。目标检测是物体识别和物体定位的综合,不仅要识别物体的类别,还要获取物体在图像中的具体位置。目标检测算法的发展经历了多个阶段,从最初的R-CNN,到后来的Fast R-CNN、Faster R-CNN,再到yolo、SSD、yoloV2和yoloV3等。
1. R-CNN算法:年,R-CNN算法被提出,它奠定了two-stage方式在目标检测领域的应用。R-CNN的算法结构包括候选区域生成、区域特征提取和分类回归三个步骤。尽管R-CNN在准确率上取得了不错的成绩,但其速度慢,内存占用量大。
2. Fast R-CNN算法:为了解决R-CNN的速度问题,微软在年提出了Fast R-CNN算法。它优化了候选区域生成和特征提取两个步骤,通过RoI池化层将不同大小的候选区域映射到固定大小的特征图上,从而提高了运算速度。
3. Faster R-CNN算法:Faster R-CNN是R-CNN的升级版,它引入了RPN(区域生成网络)来生成候选区域,摆脱了选择性搜索算法,从而大大提高了候选区域的生成速度。此外,Faster R-CNN还采用了RoI池化层,将不同大小的候选区域映射到固定大小的特征图上,进一步提高了运算速度。
4. YOLO算法:YOLO(You Only Look Once)算法是一种one-stage目标检测算法,它直接在输出层回归bounding box的位置和类别,从而实现one-stage。YOLO算法的网络结构包括卷积层、目标检测层和NMS筛选层。YOLO算法的优点是速度快,但准确率和漏检率不尽人意。
5. SSD算法:SSD(Single Shot MultiBox Detector)算法结合了YOLO的速度和Faster R-CNN的准确率,它采用了多尺度特征图进行目标检测,从而提高了泛化能力。SSD算法的网络结构包括卷积层、目标检测层和NMS筛选层。
6. yoloV2算法:yoloV2在yolo的基础上进行了优化和改进,它采用了DarkNet-作为网络结构,并引入了多尺度特征图进行目标检测。此外,yoloV2还采用了数据增强和新的损失函数,进一步提高了准确率。
7. yoloV3算法:yoloV3是yoloV2的升级版,它采用了更深的网络结构,并引入了新的损失函数和数据增强策略。yoloV3在准确率和速度方面都有显著提升,是目前目标检测领域的主流算法之一。
总之,目标检测算法的发展经历了多个阶段,从最初的R-CNN,到后来的Fast R-CNN、Faster R-CNN,再到yolo、SSD、yoloV2和yoloV3等。这些算法各有优缺点,需要根据实际需求进行选择。当前目标检测领域的主要难点包括提高准确率、提高速度和处理多尺度目标等。