语义分割与实例分割的区别

2020-11-21 网络
浏览
[人工智能]语义分割与实例分割的区别

/ 导读 /

人工智能为导向的当代盘算机视觉手艺,在过去的十年中发生了庞大的变化。本日,它被普遍用于图象分类、人脸辨认、物体检测、视频剖析以及机器人及自动驾驶汽车中的图象处置惩罚等范畴。图象支解手艺是如今展望图象范畴最热点的一项手艺,缘由在于上述许多盘算机视觉使命都须要对图象举行智能支解,以充足邃晓图象中的内容,使各个图象部份之间的剖析越发轻易。本文会偏重引见语义支解和实例支解的运用以及道理。

在入手下手这篇文章之前,我们得起首弄邃晓,什么是图象支解?

我们晓得一个图象只不过是许多像素的鸠合。图象支解分类是对图象中属于特定种别的像素举行分类的历程,因而图象支解可以认为是按像素举行分类的问题。

那末传统的图象支解与本日的图象支解的辨别在哪?

传统的图象支解算法均是基于灰度值的不一连和相似的性子。而基于深度进修的图象支解手艺则是应用卷积神经收集,来邃晓图象中的每一个像素所代表的实在天下物体,这在之前是不可思议的。

基于深度进修的图象支解手艺主要分为两类:语义支解及实例支解。

语义支解和实例支解的辨别又是什么?

语义支解会为图象中的每一个像素分派一个种别,然则统一种别之间的对象不会辨别。而实例支解,只对特定的物体举行分类。这看起来与目标检测相似,差别的是目标检测输出目标的边境框和种别,实例支解输出的是目标的Mask和种别。

智能图象支解的运用

相识完图象支解的基本观点,我们来看看图象支解在现实中的运用有哪些?

由于图象支解手艺有助于邃晓图象中的内容,并一定物体之间的关联,因而常被运用于人脸辨认,物体检测, 医学影像,卫星图象剖析,自动驾驶感知等范畴。在我们生活中,图象支解手艺的运用实例也很罕见,如智能手机上的抠图相机,在线试衣间,假造化装,以及零售图象辨认等,这些运用每每都须要运用智能支解后的图片作为操纵对象。

下面让我们来看看图象支解手艺是怎样运用在这些实例上的。

人脸辨认

人脸辨认手艺作为种别检测手艺险些被运用于每一台智能手机及数码相机上。经由过程这项手艺,相机可以很快的检测并精一定位人脸的生物特征,完成疾速自动聚焦。在定位人脸的生物特征后,算法还可以支解图象中人的五官及皮肤,完成自定义美颜,美容以至完成换脸的效果。

抠图相机及肖像形式

谷歌近来宣布了一个可以及时去除背景的 App: YouTube stories,经由过程支解图象中的远景和后景,内容创作者可以在创作故事时显现差别的背景。

除了抠图相机外,手机相机中的肖像形式也是罕见的图象支解运用。

如光荣手机上的肖像打光形式,我们可以看到跟着布光的角度和强度变化,除了图象的背景发生了明显的变化,人脸的细节,皮肤颜色,明暗度对照以至暗影角度都发生了变化。这类冷艳的效果离不开正确的图象前后景及面部组分支解手艺。

假造化装

假造化装罕见于亚马逊,道格拉斯等美妆在线商城。在图象支解手艺的协助下,人们以至不须要去专柜试色号,就可以直观的经由过程假造化装功用看到模特或许本身运用差别化装品组合的效果。可以预感,跟着美妆市场的继承扩大,AR假造试妆会成为将来的一项趋向。

在线试衣间

假造化装都能有了,假造试衣间一定也不会少。在智能图象支解手艺的协助下,不必脱衣也能完成圆满试穿。东芝的一款假造试衣间应用图象支解手艺将二维图象建立为三维模子,并完成差别衣物与人体表面的圆满叠合。

零售图象辨认

图象支解手艺还被普遍运用在零售及生产范畴。零售商和生产商会将图象支解后的图片作为图象搜索引擎的输入,以便于邃晓货架上货色规划。这项算法可以及时处置惩罚产物数据,以检测货架上是不是有货色。假如一个产物不存在,他们可以辨认缘由,正告跟单员,并为供应链的响应部份提出处理计划。

手写字符辨认

手机上有许多手写笔墨提取的App,它们的道理绝大部份也是基于智能图象支解手艺从手写文档中层层提取单词,来辨认手写字符。

医学影像

图象支解手艺在医学影像学中的运用,每每被许多门外汉疏忽。然则现实上在过去的十年中,智能图象支解手艺险些遍及医学影像学的各项搜检中。不仅是由于医学图象支解可以正确检测人类差别部位的疾病的范例,比方癌症,肿瘤等,更主要的是它可以有助于从背景医学影像(比方CT或MRI图象)中辨认出器官病变的像素,这是医学影像剖析中最具应战性的使命之一。

自动驾驶汽车

近几年,跟着自动驾驶汽车的鼓起,图象支解手艺也被普遍运用在这一范畴,如今主要被用来辨认车道线和其他必要的交通信息,或许将图象语义支解的效果与激光传感器的点云数据做数据婚配,完成像素级的多传感器融会。

智能图象支解的使命形貌

我们已在上文中议论了许多基于深度进修的图象支解手艺的运用,如今让我们来看看这项手艺的输出终究是什么?

简朴来讲,图象支解手艺的目标是输出一个 RGB 图象或单通道灰度图象的支解映照,个中每一个像素包含一个整数类标签。

差别于目标检测输出的是目标团体的边境框和种别,语义支解输出图象中每一个像素的种别,而实例支解输出的是目标的Mask和种别。

下面我们经由过程jeremyjordan的例子相识智能图象支解的输出是什么。

起首我们对左上的输入图片举行图象支解,展望图象中的每一个像素,为每一个大概的类建立一个输出通道,运用 one-hot 对类标签举行编码(右上)。经由过程猎取每一个通道的argmax,可以将多通道的展望效果紧缩为单通道支解图(右下)。当我们运用单通道支解图掩盖我们视察目标的单一通道时,图象中涌现特定类的地区会被高亮,我们称之为掩膜(Mask)。我们可以将掩膜掩盖在视察目标上,来搜检目标中的对象(左下)。值得注意的是,为了更轻易相识图象支解的历程,作者运用了一个低分辨率的展望图做效果展现,而在现实的图象支解中,展望图会被Resize到原始输入图象的尺寸。


     语义支解

在上文中,我们引见了智能图象支解手艺的使命终究是什么,而接下来我们会引见完成这项使命的要领。语义支解就是个中之一。

语义支解的目标是为了从像素级别邃晓图象的内容,并为图象中的每一个像素分派一个对象类。


Semantic Segmentation by Patch Classification

基于像素块分类的卷积支解收集是最原始的智能图象支解收集,该算法将待分类像素四周的一个图象块作为卷积神经收集的输入,用于练习与展望。

paper:2012-Deep Neural Networks Segment Neuronal Membranes in Electron Microscopy Images

作者采纳滑窗展望的要领遍历整张图象的内容,将每一个滑动窗口内的像素块馈送到神经收集中举行种别展望,将展望效果的编码标注在原图象中的对应位置,以完成近似像素级的支解。

然则这类要领存在不言而喻的瑕玷:

采纳滑窗展望的要领,图象块的贮存开支很大,而且窗口堆叠地区存在反复盘算,异常没有用力

像素块的大小限定了感觉域, 只能提取部分特征,图象差别地区的特征没法同享,分类机能很受限

没有充足应用到图象的上下文

FCN for Semantic Segmentation

基于像素块分类的语义支解在效果上只是近似像素级的支解,怎样完成完整的像素级支解是接下来的生长方向。

2015年J.Long 给出了当时全像素级支解的最好处理计划,Fully Convolutional Network 全卷积神经收集。FCN在收集架构上不再运用全衔接层,直接从笼统的特征中恢复每一个像素所属的种别。这类端对端的收集架构,不仅在速率上远快于像素块分类的体式格局,而且可以适用于任何大小的图象。

paper:2015-Fully Convolutional Networks for Semantic Segmentation

FCN的作者形貌了一种Dense prediction的展望体式格局。这类体式格局的特征在于将VGG-16等传统卷积分类收集的末了几个全衔接层都换成了卷积层,终究的输出效果不再是一维的种别几率信息,而是二维特征图中每一个像素点的分类几率信息。

我们可以看到在上图中,作者删除了卷积分类收集的末了一层,并将之前几个全衔接层都换成了卷积层,然后经由softmax层,取得每一个像素点的分类几率信息。

那末问题来了,在上图中我们终究获得的二维特征图只要64x64的大小,怎样保证我们输入和输出图象的尺寸一致?

我们已在Dense prediction的历程当中完成了Downsampling,如今我们须要找到一个Upsampling的体式格局。

罕见的Upsampling计划有两种:Shift-and-Stitch 和Bilinear Interpolation。

FCN的作者在这里给出了别的一种计划:转置卷积(Transpose Convolution)。经由过程转置卷积层和激活函数的客栈,FCN可以进修非线性上采样。

在有些研讨中,这类操纵又被称为反卷积(deconvolution),然则把转置卷积称作反卷积的说法有些不恰当。

转置卷积与反卷积的现实数学运算是差别的。反卷积在数学上做的是卷积的逆操纵,而转置卷积举行划定规矩卷积,但逆转其空间变更。

听起来有些令人困惑,我们来看下一个详细的例子。

一个5x5图象输入到步长为2,无添补的3x3卷积层,如许就可以获得一个2x2的图象。

假如我们想要逆转这个历程,我们须要逆数学运算,以便从我们输入的每一个像素生成9个值。我们以步长为2的3x3卷积核遍历2x2的输入图象,终究输出4x4的图象。这就是反卷积。

而转置卷积请求输出一定是一个和平常卷积输入大小雷同的图象,关于这个例子是5x5的图象。为了完成这一点,我们须要在输入上实行一些花梢的添补,即对2x2的输入特征矩阵举行内添补(如添补到3x3),使其维度扩大到适配卷积目标输出维度,然后才可以举行平常的卷积操纵。

运用转置卷积可以从之前的卷积效果中重修空间分辨率。这虽然不是数学上的逆,然则关于编码器-解码器体系构造来讲,它依然异常有用。

如今我们来看看FCN的收集构造。

原始的FCN只在Conv6-7这一步直接举行32倍上采样的转置卷积,我们会发明输出的效果过于隐约。

那末我们怎样改良这个效果呢?

这就得应用Resnet内里的skip-connection,融会差别收集层的输出信息,以取得更多的细节。在卷积神经收集中,低层收集每每有更多的细节信息,而高层收集具有更强的语义信息,然则对细节的感知才能较差。因而我们将Pool4层的输出与conv6-7上采样的效果相加,恢复到原图分辨率只须要16倍上采样。然后我们可以继承向更低层做信息融会,获得8倍上采样的效果,比拟于FCN-32及16,FCN-8的效果越发邃密。

总的来讲,FCN作为语义支解的开山之作,无论是构造照样思绪都值得后续的研讨者自创。然则在输出效果方面照样有待提拔,主要体如今纵然FCN-8的输出效果照样不够邃密,而且没有空间规整(spatial regularization)步骤,使得效果缺少空间一致性,即没有充足考虑像素与像素之间的关联。

U-Net for medical engineering

生物医学关于视觉使命的请求每每很高,目标输出不仅要包含目标种别的位置,而且图象中的每一个像素都应该有类标签。为了满足这些请求,Olaf Ronneberger 等人为生物医学特地开发了U-Net图象支解收集,经由过程运用更深的收集构造和跳层衔接大幅提拔了支解的邃密度。

paper:2015-U-Net: Convolutional Networks for Biomedical Image Segmentation

从上图中我们可以看到,U-Net的构造由左、右两部份构成,由于它的架构看起来像字母 U,因而被命名为 U-Net。U-Net包含一个压缩通道来捕获上下文,一个对称的扩大通道来恢复空间分辨率和一系列跨层衔接来融会低层级的细节信息和高层级的语义特征,从而完成精一定位。U-Net可以依据数据集的庞杂水平,经由过程增添和删减block来自在加深收集构造。值得注意的是U-Net的卷积历程没有Padding操纵,须要挑选恰当的输入尺寸,使得每次池化的输入尺寸都是偶数,以确保支解的正确。

实在仔细剖析U-Net 和 FCN 的基本构造会发明,二者都是压缩通道和扩大通道的组合,然则照样存在一些构造上的辨别。

其一是,U-Net没有运用VGG等ImageNet预练习的模子作为特征提取器,缘由在于U-Net做的是医学图象的二值支解,与ImageNet的输出分类完整差别。

其二是,U-Net在举行特征融会的时刻,采纳的是Concat,而不是FCN中的Add。Concat是通道数的增添, Add是特征图相加,通道数稳定。与Concat比拟,Add的盘算量少许多,然则Concat层更多用于差别标准特征图的语义信息的融会,而Add较多运用在多使命问题上。

SegNet

FCN和U-Net,这两种收集基本上定义语义支解的基本架构,即降采样层/压缩通道和上采样层/扩大通道的组合。

paper: SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation

SegNet 在FCN和U-Net的基本上,进一步优化了语义支解的收集构造,提出语义支解的模子由编码器Encoder和解码器Decoder组合,庖代了压缩通道和扩大通道的说法,被厥后的研讨人员所援用。SegNet的编码器收集由13个卷积层构成,对应于 VGG16收集中用于对象分类的前13个卷积层。而解码器收集的使命是将编码器进修的低分辨率特征语义投影到高分辨率的像素空间上,获得一个像素级的麋集分类。

值得注意的是,解码收集运用最大池化层索引举行非线性上采样,以生成希罕的特征映照,然后经由过程可练习的卷积模块举行卷积,使特征映照越发麋集。终究解码器输出的特征映照被供应给Softmax层举行逐像素分类。

那末最大池化层索引上采样与FCN的转置卷积层上采样辨别在哪?

从上图中我们可以看到,运用池化层索引举行上采样最明显的一个上风就是削减练习的参数目,削减内存开支。其次可以提拔边沿描写度。而且这类上采样形式具有普遍适用性,可以被用在到任何编码解码器收集中。

DeepLab

我们在上文中已议论了FCN,U-Net和Segnet这些典范的语义支解收集,接下来我们会议论代表着语义支解最前沿手艺的Deeplab系列。

Deeplab是由谷歌研讨人员开发的,如今被普遍运用的语义支解模子,它最主要的特征是以更低的盘算本钱取得更好的输出。

从2016年谷歌初次推出Deeplab V1,到最新的Deeplab V3 ,已三代半了。

本文将主要引见Deeplab v3 。

我们起首来看看Deeplab V3 的由来。

paper:Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation

上图中a是SPP空间金字塔构造,b是在Segnet和U-Net上被普遍承认的Encoder-Decoder体系构造,而Deeplab v3 连系了a和b,并经由过程运用Modified Aligned Xception和Atrous Separable Convolution,开发出更快,更壮大的收集。

我们可以看到,Deeplab V3 由Encoder和Decoder两部份构成,相关于V3 最大的革新是将 DeepLab 的 DCNN及ASPP 部份看作 Encoder,将 ASPP的输出的高层语义特征与DCNN中低层高分辨率信息融会后上采样成原图大小的部份看作 Decoder 。值得注意的是,这里的上采样体式格局是双线性插值。双线性插值采样在较低的盘算/内存开支下能给出相关于转置卷积上采样更好的效果。

接下来我们来看看Deeplab V3 的几个主要构成部份:

Atrous convolutions

Atrous Spatial Pyramidal Pooling(ASPP)

Modified Aligned Xception

1. Atrous Convolution

在上文中,我们提到过,FCN经由过程对输入图象举行32倍下采样,再上采样获得语义支解的效果。然则这类操纵的主要问题之一是由于DCNN(深度卷积收集)中反复的最大池化和下采样形成图象分辨率过分下落,图象细节信息丧失严峻。另外,由于在进修上采样的历程当中还涉及到其他参数,将采样数据上采样到32倍会是一项盘算和内存开支很大的操纵。

那末可否在雷同的盘算条件下,不必池化丧失信息的体式格局增大卷积的感觉野?

Deeplab的研讨人员为此提出了一种新的下采样的思绪:朴陋卷积/扩大卷积(Atrous/Dilated convolutions)。朴陋卷积能在雷同数目的参数下,取得更大的感觉野,从而防止在反复池化下采样的历程当中图象分辨率过分下降,从而丧失细节信息。

让我们来看看朴陋卷积是怎样在参数目稳定的情况下,增大感觉野的?

朴陋卷积的事情道理是经由过程增添朴陋来弥补卷积核各值之间的闲暇来增添卷积核的大小。卷积核各值之间添补的朴陋数目称为扩大率(dilation rate)。当扩大率即是1时,它就是平常卷积。当速率即是2时,会在每一个值之间插进去一个朴陋,使得卷积核看起来像一个5x5的卷积。换句话说,应用增加朴陋扩大感觉野,让底本3x3的卷积核,在雷同参数目和盘算量下具有5x5(dilated rate =2)或许更大的感觉野,从而无需下采样。

值得注意的是,在VGG中运用多个小卷积核替代大卷积核的要领,只能使感觉野线性增进,而多个朴陋卷积串连,可以完成感觉野指数级增进。比方平常卷积中一个5×5的卷积核是可以由2次一连的3×3的卷积替代。然则关于一样是3x3大小,dilated=2的朴陋卷积来讲,一连2层的3×3朴陋卷积转换却相当于1层13×13卷积。

2. Atrous Spatial Pyramidal Pooling(ASPP)

空间金字塔形池化是SPPNet中引入的一个观点,用于从特征图中捕获多标准信息。在SPP涌现之前,假如想要猎取多标准信息,须要供应差别分辨率的输入图象,并将盘算出的特征图一同运用,这每每须要许多盘算和时候本钱。而运用空间金字塔形兼并,可以运用单个输入图象捕获多标准信息。下图是SPPNet的构造图。

SPPNet发生3个标准分别为1x1、2x2和4x4的输出。经由过程将这些值转换为一维矢量举行衔接,从而在多个标准上捕获信息。

Deeplab 系列为了使得目标在图象中表现为差别大小时仍可以有很好的语义支解效果,将多标准的信息融会的观点运用于朴陋卷积,经由过程将差别的扩大率朴陋卷积的输出串连在一同,以多个标准比例捕获图象的上下文,即ASPP。

值得注意的是,Deeplab v3 自创了MobileNet,在ASPP及DCNN中的Xception模块都运用深度可分离卷积(depthwise separable convolution),在坚持机能前提下,有用下降了盘算量和参数目。

Deeplab V3 对V3的ASPP构造举行了修正,终究的ASPP构造如下图所示。

除了3x3差别扩大率的朴陋卷积及1x1的卷积输出外,为了供应全局信息,还会将1x1的GAP上采样后增加到空间金字塔上。

3. Modified Aligned Xception

Deeplab v3 的骨干运用Modified Aligned Xception。Xception是典范的图象分类收集,然后在可变形卷积收集(Deformable Convolutional Networks)中引入了Aligned Xception以举行目标检测。而Modified Aligned Xception 在此基本上举行了进一步的优化。

上图是Aligned Xception, 下图是Modified Aligned Xception。

我们发明革新的处所主要在于,采纳深度可分离卷积替代一切的最大池化操纵,从而轻易后续应用朴陋可分离卷积(atrous separable conv )来提取恣意分辨率的特征图。其次在每一个 3×3 深度卷积后,增加和MobileNet相似的分外的批处置惩罚归一化和ReLU激活。

实例支解

在上文中,我们已议论了许多语义支解的收集模子。借助这些模子我们可以从像素级别邃晓图象,并正确支解对象的外形。

比方鄙人图中,我们可以经由过程语义支解有用地辨别牛和背景。

然则问题来了,你能辨别上面的图片中有几头牛吗?

仅凭语义支解明显不能回覆这个问题,下面让我们看看实例支解是怎样做到辨别统一种别中差别物体的。

Mask R-CNN

Mask R-CNN是实例支解的代表之作。

如下图所示,Mask R-CNN 关于支解统一种别中差别物体,给出的答案是同时应用目标检测和语义支解的效果,经由过程目标检测供应的目标最高置信度种别的索引,将语义支解中目标对应的Mask抽取出来。

paper:Mask R-CNN

Mask R-CNN的基本现实上是Faster R-CNN。Faster R-CNN运用 CNN 特征提取器来提取图象特征,应用 Region Proposal 收集生成感兴趣地区(ROI),并经由过程ROI Pooling将它们转换为牢固的维度,末了将其反应到完整衔接的层中举行分类和边境框展望。

而Mask R-CNN与Faster R-CNN 的辨别在于,Mask R-CNN在Faster R-CNN 的基本上(分类 回归分支)增添了一个小型FCN分支,应用卷积与反卷积构建端到端的收集举行语义支解,而且将ROI-Pooling层替代成了ROI-Align。下图是Mask R-CNN 基于Faster R-CNN/ResNet的收集架构。

Mask R-CNN起首将输入原始图片送入到特征提取收集获得特征图,然后对特征图的每一个像素位置设定牢固个数的ROI/Anchor(默许15个),将这些ROI地区馈送到RPN收集举行二分类(远景和背景)以及坐标回归,找出一切存在对象的ROI地区。紧接着经由过程ROIAlign从每一个ROI中提取特征图(比方7*7)。末了对这些ROI地区举行多种别分类,候选框回归和引入FCN生成Mask,完成支解使命。

对ROIAlign的邃晓得从ROI-Pooling动身。为了获得牢固大小(7X7)的特征图,平常我们须要做两次量化操纵:1)图象坐标 — feature map坐标,2)feature map坐标 — ROI feature坐标。池化操纵的输出值只能是整数,RoI Pooling举行两次取整丧失了较多的精度,而这关于支解使命来讲较为致命。

Maks R-CNN提出的RoI Align取消了取整操纵,保存一切的浮点数,然后经由过程双线性插值的要领取得多个采样点的值,再将多个采样点举行最大值的池化,即可获得该点终究的值。

关于推理历程,我们还须要将14x14的Mask二值化后Resize到原图中的现实大小,然则现实上这一效果实在并不邃密。

为此作者设想了别的一种Mask R-CNN收集构造:Faster R-CNN/FPN,并将末了的输出的Mask分辨率提拔到28x28。FPN特征金字塔收集经由过程融会低层收集的高分辨率信息和高层收集的高语义特征,大幅提拔多标准物体及小物体的检测效果,使得Mask R-CNN的输出效果越发邃密。

总的来讲,Mask R-CNN是个异常简朴,天真并适用于多种场景的实例支解框架。然则Mask R-CNN比较依靠目标辨认部份的效果,一旦目标辨认不正确,实例支解的效果也会不正确。

语义支解关于支解的精度和效力都有很高的请求,由于实例支解在语义支解的基本上,还须要辨别出统一类的差别的个别,因而实例支解一样有着精度和效力的请求。除此以外还面对着和语义支解相似的问题和难点,如深层收集小物体支解细节丧失的问题,怎样处置惩罚多少变化,处置惩罚遮挡,以至由于源图象被光照耀,被紧缩带来的图象退步问题。

为相识决速率和效力的问题,后续研讨人员还推出了Instance FCN这类单阶段实例支解收集(Single Shot Instance Segmentation)。只管单阶段支解收集在精度上不如双阶段支解收集,然则其在速率及模子大小方面仍远优于双阶段收集,因而单阶段收集引领了近年实例支解及目标辨认的研讨潮水。

令人激动的是,近几年除了涌现基于One-stage,Anchor-based的YOLACT和SOLO外,还涌现了遭到Anchor-free思绪启示的PolarMask和AdaptIS等实例支解收集。这些Anchor-free的实例支解收集,也很精彩。我会在接下来的几篇文章中更新Anchor-free收集,感兴趣的同砚,可以关注我的专栏。

图象支解数据集

在末了一节中我会分享一些罕见的图象支解的数据集,来满足差别范畴朋侪的研讨需求。

Coco Dataset: 具有164k 的原始 COCO 数据集图象,并附有像素级解释,是一个经常使用的基准数据集。它包含172个类: 80个thing class,91个stuff class和1个unlabeled class。

PASCAL Context: 是2010年 PASCAL VOC 的一组扩大解释。它为全部场景供应了解释,包含400多个实在天下数据。

The Cityscapes Dataset:包含30个种别和50个都市的都市场景图象。用来评价都市场景中自动驾驶汽车的视觉算法机能。KITTI 和 CamVid 是相似的数据集,然则数据量相对较小,可以用来练习自动驾驶汽车。

Bdd100k: 包含10000多张具有雄厚都市道路实例的像素级解释图象,拍摄自差别的时候,天气和驾驶场景,可以用来练习自动驾驶汽车。

Lits Dataset:为了从肝脏 CT 中辨认出肿瘤病变而建立的医学影像数据集。该数据集包含130张练习用CT图和70张测试CT图。

CCP Dataset:包含1000多张带有像素级解释的打扮搭配图片,总共有59个种别。

ADEK20K:包含2万张图片,100个thing class 和50个stuff class的像素级解释场景数据集。

Pratheepan Dataset:包含32张面部照片和46张家庭照片的皮肤支解数据集。

除上述罕见的以外,另有以下品种繁多的图象支解数据集。

Stanford Background Dataset

Sift Flow Dataset

Barcelona Dataset

MSRC Dataset

LITS Liver Tumor Segmentation Dataset

Data from Games dataset

Human parsing dataset

Mapillary Vistas Dataset

Microsoft AirSim

MIT Scene Parsing Benchmark

INRIA Annotations for Graz-02

Daimler dataset

ISBI Challenge: Segmentation of neuronal structures in EM stacks

INRIA Annotations for Graz-02 (IG02)

Inria Aerial Image

ApolloScape

UrbanMapper3D

RoadDetecto

Inria Aerial Image Labeling

智能图象支解的将来

在盘算机视觉范畴,图象辨认这几年的生长异常敏捷,图象辨认手艺的代价也敏捷体如今我们的身旁,视频监控,自动驾驶,智能医疗等等。我们面对的应战,除了进步模子的泛化才能,少样本进修,超大数据范围应用,另有一项就是越发周全的场景邃晓。

我们在本文中提到的语义支解,实例支解都是完成周全场景邃晓的一小步,将来图象支解范畴的生长趋向,除了更精准的定位和分类,更高的效力,更少的练习标签,另有更统一和周全的支解体式格局,如全景支解(panoptic segmentation)。要完成周全场景邃晓的目标,我们另有很长的路要走,我也会继承更新智能图象支解范畴的学问和文章,和人人一同进修:)

我会在接下来的文章中,分享基于Efficientdet和Detectron2的自动驾驶目标检测及图象支解项目实践。