本文目录
新手初入人工智能(图像处理方向),我该向什么方向发展
计算机视觉方向目前主要有几大方向比较热门,我下面将分别从他们的发展过程与现状以及怎么入门学习来进行介绍。首先,计算机视觉的主要方向有:
- 图像分类
- 人脸识别
- 目标检测
- 图像分割
- 关键点检测
- 文字识别OCR
编程与数学基础
首先,人工智能毕竟是一个计算机学科,需要具备基本的编程功底与数学能力。具体来说,编程方面,需要熟悉Python编程,熟悉Numpy,Pandas,Opencv等库的使用,同时还得熟悉某个深度学习框架的使用,比如TensorFlow,Keras,PyTorch,Caffe等。以上这些是必须具备的,如果能再有点C++,Java方面的基础就更好了。数学方面,肯定需要对大学的数学知识有一定的了解,比如求导与积分,偏导数,梯度下降之类的高数知识,以及线代和概率与统计等知识。如果对这方面知识不太熟悉,建议从课本上好好学学,当然也可以通过如下图所示的深度学习圣经即“花书“的前几章来学习。
图像分类
图像分类是一个计算机视觉的经典方向。深度学习的火爆最早是因为Hinton带领他的学生使用深度神经网络参加了ImageNet大赛,其最后成绩远超使用传统方法的第二名一大截。由此引发了最近几年越来越热门的深度学习研究,在2012年及以后,在ImageNet比赛上出现了更多的网络结构,从最开始的AlexNet,到VggNet,GoogleNet,Inception,RestNet,Inception-ResNet-v1~3,Xception等。每次新的网络的出现都让正确率上升了一大截,可以说ImageNet比赛推动了整个计算机视觉的发展。
但是ImageNet的数据集太大,不太适合我们入门图像分类。我们可以使用mnist数据集,或者CIFAR-10数据集(如上图所示).CIFAR-10 数据集有 60000 张图片,每张图片均为分辨率为 32*32 的彩色图片(分为 RGB3 个信道)。CIFAR-10 的分类任务是将每张图片分成青蛙、卡车、飞机等 10 个类别中的一个类别。具体关于CIFAR-10的详细介绍以及实例代码,大家可以关注我头条号置顶的那篇文章.
人脸识别
人脸识别在引入深度学习之前主要使用PCA降维后进行分类,在引入深度学习之后,采用了CNN来提取特征,然后使用SVM之类的分类器进行分类,但是本质上还是一个分类,需要提前录入人脸数据进行训练.直到FaceNet出现之后, 论文中提出了一种叫做triplet 的损失函数,主要目标是减低类内(同一个人)的距离,增加类间(不同的人)的距离.由此将原本的分类问题转变为了一个距离度量问题,是人脸识别变成了一个开放的问题,可以随时送入两张没有参与训练过的人脸图片提取特征向量,然后通过比较这两个向量的距离来判断相似性.
后来又出现了各种各样的loss, 有些已经达到了目前state-of-art的效果,我在这里只是罗列下,具体各位可以关注我,后面我会推出人脸识别综述,与各种损失函数总结。目前损失函数主要有:
- centerLoss
- contrastiveLoss
- rangeLoss
- large-margin
- l2-norm
- AM-softmax
- CosFace
- ArcFace
大家如果想要入门的话,可以先下载一下lfw数据集,然后用TensorFlow实践一下经典的算法.
目标检测与图像分割
目标检测的任务是从一个复杂场景的图像中找到不同的物体,并且给出各个物体的边界框。图像检测的三个著名的数据集是PASCAL VOC,ImageNet和微软COCO. PASCAL VOC包含20个物体的类别,而ImageNet包含一千多种物体类别,COCO有80中物体类别和150万个物体实例。
自从2012年的ILSVRC竞赛中基于CNN的方法一鸣惊人之后,CNN已成为图像分类、检测和分割的神器。其中在图像检测的任务中,R-CNN系列是一套经典的方法,从最初的R-CNN到后来的Fast R-CNN, Faster R-CNN 和今年的Mask R-CNN, 我们可以看到CNN在图像检测中是如何一点一点提高的。还有就是采用一步到位的检测算法的SSD与YOLO系列算法.这些算法的详细介绍,大家可以关注我头条号之前发布的文章.
R-CNN 系列的四篇文章如下:
- R-CNN:
目前OCR方面比较经典的算法有CTPN,RRPN,DMPNet,SegLink,TextBoxes,FTSN,WordSup等, 具体可以关注我头条号,我后面会推出详细介绍.
总结
以上内容总结了目前计算机视觉方向比较流行的方向,以及一些经典的算法.能力有限,难免有总结的不到位地方,欢迎指正.最后,欢迎大家关注我的头条号,会有大量深度学习相关资源不间断放送.
人工智能图像算法岗应该学哪些
《高等数学》《概率论》《矩阵论》
《数字图像处理》《模式识别》《机器学习》
《模式识别与matlab图像处理》
深度学习部分就先理解bp神经网络,再看网文和论文
开学大三,对计算机视觉和图像处理有很大兴趣,这个假期主要该学些什么呢
冈萨雷斯数字图像处理,然后直接实战,做些简单的小东西,然后斯坦福cs231n深度学习计算机视觉课程刷一遍。就入门了。想深入凸优化得刷,论文得看。
冈萨雷斯的《数字图像处理》过时了吗
冈萨雷斯的这本书很经典 主要涉及到的的图像理论和算法没有过时。随着硬件性能的不断提高和应用场景的不断变化,存在理论的完善和算法的优化。比如神经网络深度学习方面。