深度学习与计算机视觉:核心算法与应用 (谢文伟) (z-library.sk, 1lib.sk, z-lib.sk)
Author: 谢文伟
教育
No Description
📄 File Format:
PDF
💾 File Size:
12.1 MB
15
Views
0
Downloads
0.00
Total Donations
📄 Text Preview (First 20 pages)
ℹ️
Registered users can read the full content for free
Register as a Gaohf Library member to read the complete e-book online for free and enjoy a better reading experience.
📄 Page
1
(This page has no text content)
📄 Page
2
前言 从21世纪初开始,整个社会逐渐进入数据驱动的时代,云计算、 大数据和人工智能的发展开始形成良性互动:一方面,云计算和大数 据的发展带来了算力的大幅提升和学习样本的极大充足,从而促进人 工智能快速发展;另一方面,人工智能的发展减少了人力劳动,提高 了数据分析和处理的效率,从而促进云计算和大数据进一步发展。 机器学习和计算机视觉是人工智能领域的热门方向。目前,在计 算机视觉领域,人工智能尚处于感知智能阶段,计算机可以对目标进 行检测和识别,但还不具备理解能力,距离真正的认知智能尚有一段 距离。随着理论的成熟和一些新模型与框架(如强化学习和迁移学 习)的提出与广泛应用,计算机视觉领域正在向越来越智能化的方向 快速发展,而支撑其发展的机器学习技术,尤其是深度学习技术发挥 了很大的作用。 目前,市场上虽然已经有不少计算机视觉方面的书籍,但是其中 大部分要么侧重介绍理论知识,要么侧重介绍应用实践。如果只强调 理论,则很难让读者了解其具体应用;如果只强调实践,则只会局限 于具体案例,而无法让读者做到举一反三,在遇到实际问题时还是无 从下手。因此,非常需要一本将理论和实践很好地结合起来的书籍, 以帮助读者系统地进行学习和实践。 笔者长期从事机器学习和计算机视觉领域的相关工作,不但熟悉 其理论知识,而且在学习和工作中积累了大量的感悟与经验,于是萌 生了写作一本理论结合实践的深度学习与计算机视觉图书的想法,以 便把自己的感悟和经验分享给想要进入这个领域的初学者和从业者。 由于机器学习与计算机视觉涉及的知识点较为庞杂,一个人完成写作 对于我而言是一个巨大的挑战,因此笔者联合了同样具有丰富经验的 印杰老师一起写作本书。希望本书能成为读者打开计算机视觉大门的 一把金钥匙。
📄 Page
3
本书特色 1.理论知识结合应用实践 本书从工作原理、应用场景和代码实现三个方面介绍相关算法和 模型,以便让读者对相关理论知识和应用实践有更加全面的了解,从 而做到触类旁通,对不同场景进行建模。 2.由浅入深,循序渐进 本书从基本概念讲起,循序渐进地介绍机器学习、深度学习和计 算机视觉的理论知识、模型与算法原理以及典型应用,帮助读者全 面、深入地掌握相关知识。 3.图文并茂,易于理解 本书结合280余幅示意图讲解相关知识点,其中有百余幅是精心 绘制的算法和模型原理图,可以让抽象的知识变得更加直观和易于理 解,从而帮助读者高效学习。 4.模型众多,实例丰富 本书对常用算法和30余种模型做了归纳整理,并在讲解这些算法 和模型时结合大量的代码实例,帮助读者更好地理解所学理论并动手 实践。 本书内容 本书共10章,分为3篇,每篇从均基本概念、模型与算法原理以 及代码实现3个方面进行介绍。 第1篇 机器学习原理 第1章主要介绍机器学习和计算机视觉的起源、发展历史、研究 内容以及开发环境的搭建等基础知识。
📄 Page
4
第2章主要介绍机器学习的相关概念、数据集的划分和使用、机 器学习的流程、机器学习涉及的数学基础知识和相关开发工具等,最 后给出几个AI编程入门实例。 第3章主要介绍数据分布、探索性数据分析、数据预处理、特征 选择、线性回归系列模型和决策树系列模型的理论以及模型评估等相 关内容,其中重点演示AI编程中定范式、定损失和做优化三个关键步 骤。 第2篇 计算机视觉基础 第4章首先介绍图像的结构与常见类型,然后介绍计算机视觉的 工作流程,最后介绍如何使用OpenCV处理图像和视频。 第5章首先介绍如何对图像进行分类,然后介绍如何使用传统方 法提取特征,最后演示如何对单标签图像进行分类。 第3篇 深度学习模型与计算机视觉应用 第6章首先介绍神经网络的基础知识,然后分别介绍前馈神经网 络模型和循环神经网络模型的结构、算法及应用实例等。 第7章首先介绍图像滤波和卷积的实现过程,然后介绍卷积神经 网络的结构和工作原理等相关知识。 第8章首先介绍LeNet-5、AlexNet和VGGNet等6种常见卷积神 经网络模型,然后介绍样本操作和图像分类的相关知识,最后介绍图 像识别实例的代码实现。 第9章首先介绍目标检测的原理和6种常见模型,然后结合人脸检 测实例,介绍人脸二分类器的创建、人脸初检、初检结果修正以及开 源模型人脸检测等相关知识。 第10章首先介绍目标检测、语义分割和实例分割等图像分割知 识,然后介绍FCN和Mask R-CNN两种模型,最后介绍目标追踪的相
📄 Page
5
关知识。 本书读者对象 · 人工智能初学者; · 机器学习与深度学习初学者; · 计算机视觉技术初学者; · 机器学习与计算机视觉算法工程师; · 机器学习与计算机视觉爱好者; · 相关培训机构的学员; · 高校相关专业的学生。 本书配套资源 本书使用Python作为开发语言,使用Jupyter Notebook作为集 成开发环境。本书涉及的源代码与相关开源工具等配套资源需要读者 自行下载。读者可以关注微信公众号“方大卓越”,然后回复“计算 机视觉xww”,即可获取本书配套资源的下载地址。 谢文伟
📄 Page
6
图2.29 四则运算模型评估 图3.54 GBDT回归预测的结果
📄 Page
7
图4.6 色调 图4.7 HSV与RGB颜色空间的对比
📄 Page
8
图4.9 RGB图、HSV图、灰度图与二值图 图4.15 根据颜色截取ROI 图4.16 根据轮廓截取ROI
📄 Page
9
图6.25 神经网络模型的使用 图7.7 多通道单输出卷积
📄 Page
10
图9.11 候选区域与人工标注区域
📄 Page
11
图9.15 目标检测结果
📄 Page
12
图9.43 下采样得到的图像金字塔
📄 Page
13
第1篇 机器学习原理 第1章 认识机器学习 智慧是什么?人是怎么认识世界的?围绕这些问题,几千年来人 们一直没有停止过思考。直到20世纪三四十年代,随着人工智能的兴 起,对这些问题的探索才逐渐从哲学领域进入科学研究的范畴。虽然 如今的人工智能是不是真正意义上的智能还存在争议,但毋庸置疑的 是,人工智能已经在我们的日常生活中扮演着重要的角色。 在20世纪三四十年代,随着生物学、信息论、控制论及计算理论 等多门学科的融合,制造一台“人造大脑”成为可能。经过80年左右 的发展,以机器学习为代表的人工智能取得了巨大的进展,尤其是在 计算机视觉领域,人工智能已经可以代替人类做出一些决策。 视觉是人类获取信息的最主要渠道,大约70%的大脑皮层用来处 理视觉方面的相关信息。计算机视觉是指让计算机能看懂图像的内 容,它是实现人工智能的重要分支。近年来,随着信息技术尤其是深 度学习技术的发展,如何通过机器学习的方法从数据中发现蕴涵的知 识或有价值的信息已成为一个非常重要的研究领域,计算机视觉与机 器学习也逐渐成为研究的热点。 1.1 机器学习简介 简单来说,机器学习就是寻找数据中存在的规律,并用这个规律 对新的数据进行预测的过程。机器学习算法和模型的主要作用是为了 找到这些规律。如图1.1所示,输出Y是输入X1和X2的算术平均数。 机器学习包括传统机器学习(Machine Learning)和深度学习 (Deep Learning),它是实现人工智能(Artificial Intelligence)的重要
📄 Page
14
手段。现在人们普遍认为,机器学习是人工智能领域的子集,而深度 学习又是机器学习领域的子集,三者之间的关系如图1.2所示。 纵观人工智能约80年的发展历史,机器学习一直都是人工智能里 的一个重要子领域,机器学习与人工智能一起经历了两次低谷和三次 崛起,如图1.3所示。 图1.1 机器学习的本质
📄 Page
15
图1.2 机器学习、深度学习与人工智能之间的关系 图1.3 机器学习与人工智能的发展历程 虽然人工智能的发展几经挫折,但是总能够走出低谷并进入一个 新的发展期。其动力除了来自自身的发展以外,还来自社会的期待和 支持。人工智能的发展从来不是一蹴而就的,而是经过横跨多个学科 及近一个世纪众多科研人员共同努力的结果。 从技术层面来看,人工智能的发展需要算法、大数据和计算能力 这三个方面的支撑,在21世纪,随着更多的资金和研究人员的投入以 及算法和数据的积累,加之计算能力的进一步提升,人工智能必将发 挥更大的作用。
📄 Page
16
1.2 计算机视觉简介 在早期,计算机视觉(Computer Vision)被定义为赋予机器自然 视觉能力的学科,其目标是通过对图像信息的研究,实现对图像内容 的理解。如今,计算机视觉已经成为人工智能领域最热门的研究方向 之一,计算机已经可以从数字图像或视频中获得有意义的信息,并根 据这些信息进行决策。 与人类视觉系统类似,计算机视觉赋予计算机“看到”“观察” “理解”图像的能力。迄今为止,计算机视觉已经经历了诞生和理论 准备、初步应用以及深度学习三个时代。 随着大数据和云计算的发展,机器学习逐渐进入深度学习时代。 研究人员发现,与传统的方法相比,在图像的特征提取方面,深度学 习(尤其是卷积神经网络)有着无可比拟的优势,这主要得益于样本 数据、AI模型和算力等方面的综合发展。 在样本数据方面,出现了许多实验用的标注过的数据集。 · MNIST(Modified National Institute of Standards and Technology)数据集:包含70000张扫描的手写体数字照片(每张照 片为0~9中的一个数字),是Yann LeCun实验使用的数据集。 · Pascal VOC(Pascal Visual Object Challenge)数据集:包含20 个分类,并且还包含目标在图像中的位置,有上万张照片,可用于目 标检测。 · ImageNet数据集:包含2万个分类,有上千万张图片。从2010 年开始,每年使用该数据集举行的图像识别比赛被称为计算机视觉的 奥林匹克竞赛。 在AI模型方面,出现了卷积神经网络和生成对抗网络等多种深度 学习模型。
📄 Page
17
· 卷积神经网络(Convolution Neural Network,CNN):它于 1998年被提出,随后陆续出现了LeNet、AlexNet、GoogLeNet、 VGGNet、ResNet和DenseNet等多种模型框架。随着模型结构的加 深,其表达能力也越来越强。如今,在图像分类领域,深度学习模型 已经比较成熟了,计算机在ImageNet上的表现已经超过人类。 · 生成对抗网络(Generative Adversarial Networks,GAN):它 于2014年被提出。GAN模型使计算机具有一种创造性,能根据现有 的条件(如一些二维图像)创造出新的图像。 在算力方面,GPU和云计算提高了计算能力。 深度学习是大量的简单处理单元共同运算的过程。针对这一特 点,在深度学习方面,GPU比CPU更具优势:GPU可以提供多核并行 计算的基础结构且有大量的核心支持数据的并行计算,可以极大地提 高计算速度,从而解决大型而复杂的计算问题。 云计算提供分布式运算和存储的能力,可以将模型的训练和存储 分散到多台计算机上,从而进一步解决深度学习存在的算力和存储不 足等问题。 随着技术的发展,计算机视觉的研究内容变得更加丰富,大体可 以分为物体视觉和空间视觉两大部分。物体视觉是对物体进行精细分 类和鉴别,空间视觉则是确定物体的位置和形态。目前,计算机视觉 领域的基础与热门研究方向如图1.4所示。 · 图像分类:根据图像自身的特点,将其划分为不同的类别。 · 目标检测:找到目标在图像中的位置坐标,并通过边界框标记 出来。 · 语义分割:实现像素级的分类,将每个像素点归类到不同的类 别下。
📄 Page
18
· 实例分割:区分每个个体,将每个像素点归类到不同的目标个 体下。 图1.4 计算机视觉主要的研究方向 · 目标追踪:针对一段视频或一组图像序列,找到同一个目标在 不同时刻所在位置的坐标。 · 视觉问答:针对输入图像,用户提问,然后通过算法进行回 答。 · 动作识别:针对一段视频或一组图像序列,识别出目标的行为 动作。 · 三维重建:对图像进行分析,结合计算机视觉知识推导出现实 环境中物体的三维信息。 1.3 开发工具的选择 本书配套源代码使用的是Python语言,使用Jupyter Notebook 作为IDE(集成开发环境),读者最好已经有Python和Jupyter
📄 Page
19
Notebook编程基础,熟悉Python语言和Jupyter Notebook开发工 具的使用。 对于机器学习和计算机视觉常用开发包(Seaborn、Pandas、 Keras和OpenCV等)的使用,本书会在相应的章节进行介绍。 本书配套源代码用到的开发库和相应版本如表1.1所示(对于其他 版本,笔者未做过测试),机器学习部分的代码只涉及表1.1中“基础 环境与机器学习”所列的开发库,计算机视觉部分的代码则涉及表1.1 中所有的开发库。 表1.1 本书用到的开发工具 (续表)
📄 Page
20
1.4 开发环境的搭建 在表1.1所列的开发工具中,除了Python和Graphviz需要下载安 装包进行安装外,其他的软件都可以直接使用pip进行安装。本节介 绍在Windows平台下使用Virtualenv搭建开发环境的方法(其他平台 下的搭建方法与其类似)。对于熟悉Python的读者,可以跳过这部分 内容,直接使用自己喜欢的方式进行安装即可,例如使用Anaconda 包管理器进行安装。 1.配套源代码 本 书 配 套 源 代 码 是 基 于 Python 3 生 成 的 , 使 用 Jupyter Notebook作为IDE,共有两个目录:
The above is a preview of the first 20 pages. Register to read the complete e-book.
Recommended for You
Loading recommended books...
Failed to load, please try again later