4.23文创礼盒,买2个减5元
欢迎光临中图网 请 | 注册
> >
内容理解:技术、算法与实践

内容理解:技术、算法与实践

作者:孙子荀 等
出版社:机械工业出版社出版时间:2023-10-01
开本: 16开 页数: 282
中 图 价:¥69.3(7.0折) 定价  ¥99.0 登录后可看到会员价
加入购物车 收藏
运费6元,满69元免运费
?快递不能达地区使用邮政小包,运费14元起
云南、广西、海南、新疆、青海、西藏六省,部分地区快递不可达
本类五星书更多>

内容理解:技术、算法与实践 版权信息

  • ISBN:9787111735137
  • 条形码:9787111735137 ; 978-7-111-73513-7
  • 装帧:平装-胶订
  • 册数:暂无
  • 重量:暂无
  • 所属分类:>

内容理解:技术、算法与实践 本书特色

(1)作者背景权威:内容理解领域的资深专家,多位国内外高校博士,技术专家骨干。
(2)团队经验丰富:作者团队在内容理解和生成领域工作了10余年,获得了十几个技术大奖和业务大奖,也在内容领域有丰富的经验。
(3)实践经验:全书以工业界丰富的内容算法成果为支撑,全面讲解了企业在内容理解、内容生成、内容质量3大业务场景中的工程经验和案例。
(4)行业先进成果:不仅有互联网的优秀技术和实践,而且还融合了全球技术界在内容理解与生成领域的先进思想和成果。
(5)大模型多模态:一本书讲透文本、图片、音频、视频等各种模态的理解和生成,掌握大模型时代的关键技术。

内容理解:技术、算法与实践 内容简介

这是一本在AI大模型技术背景下深入讲解内容理解的技术原理、算法实现与业务实践的著作,由腾讯的高级总监和资深内容专家领衔撰写,全面融入了工业界在内容业务方面积累的优选技术和成熟经验。全书围绕内容理解、内容生成、内容质量3大关键领域展开,从内容产业的发展趋势与挑战到各种技术和算法,从行业的优选的研究成果到各种典型的应用案例,应有尽有。**部分 内容理解(第1~7章) 首先,详细介绍了内容理解的各个模块,包括文本、图像、语音等单模态内容的理解以及多场景文本、视频等多模态内容的理解,帮助读者全面了解内容理解的核心概念、技术细节和研究进展。接着,讲解了多模态学习在内容理解中的应用、多模态内容理解的理论框架和大规模预训练技术。*后,介绍了两个主流的内容理解框架,并结合一个自研的多模态内容理解框架,阐述了解决内容理解问题的流程和具体方案。第二部分 内容生成(第8~11章) 详细讲解了内容生成的技术细节,结合作者团队在业务实践中探索的应用案例,从图片生成、文本生成、AI素材合成到AI创作,介绍了内容创作的全栈技术,能帮助读者由浅入深地理解内容生成的技术原理与业务实践。第三部分 内容质量(第12~14章)详细讲解了信息流产品常见的内容质量问题,比如标题党、假新闻、低俗图片等,介绍了如何对这些与内容质量相关的业务场景进行拆解和定义,将抽象的业务场景转化为可以建模的问题。此外,还介绍了作者团队采用的业务建模流程以及业界常用的解决方案和研究进展。

内容理解:技术、算法与实践 目录

Contents 目 录
作者简介
前  言
**部分 内容理解
第1章 文本内容理解2
1.1 文本表示2
1.1.1 文本表示的研究背景2
1.1.2 文本表示的方法3
1.2 文本分类9
1.2.1 文本分类的研究背景9
1.2.2 文本分类的方法9
1.3 本章小结17
第2章 图像理解19
2.1 图像分类20
2.1.1 传统图像分类算法20
2.1.2 深度学习图像分类算法23
2.2 图像检测25
2.2.1 图像匹配算法26
2.2.2 基于OpenCV的模板匹配实现27
2.2.3 目标检测算法28
2.3 实际应用:通用元素检测框架30
2.4 本章小结31
第3章 语音理解32
3.1 语音表征32
3.1.1 基于传统方法的语音表征33
3.1.2 基于深度学习的语音表征34
3.2 基于深度学习的音乐分类34
3.2.1 基于CNN的音乐分类35
3.2.2 基于RNN的音乐分类38
3.2.3 基于领域知识的CNN38
3.2.4 基于注意力机制的后端模块
   算法41
3.3 本章小结43
第4章 场景文字检测与识别44
4.1 场景文字的研究方向44
4.1.1 研究问题44
4.1.2 研究难点45
4.1.3 未来趋势45
4.2 场景文本算法的现状46
4.2.1 基于传统机器学习的文本检测46
4.2.2 基于传统机器学习的文本识别46
4.2.3 基于深度学习的文本检测47
4.2.4 基于深度学习的文本识别52
4.2.5 基于深度学习的端到端系统53
4.3 场景文本算法辅助技术55
4.3.1 不规则文本识别问题55
4.3.2 文本图像合成技术56
4.3.3 半监督技术57
4.4 数据集和评估标准58
4.4.1 基准数据集58
4.4.2 文本检测评估标准60
4.4.3 文本识别评估标准61
4.5 文本检测和识别的应用、现状
   与未来61
4.5.1 应用61
4.5.2 现状62
4.5.3 挑战与未来趋势62
4.6 本章小结64
第5章 视频理解65
5.1 视频表征66
5.1.1 研究目标与意义66
5.1.2 研究进展67
5.2 视频动作识别71
5.2.1 研究目标与意义71
5.2.2 研究难点71
5.2.3 研究进展71
5.3 视频时序动作定位74
5.3.1 研究目标与意义74
5.3.2 研究难点74
5.3.3 研究进展75
5.4 视频结构化分析79
5.4.1 研究目标与意义80
5.4.2 研究难点80
5.4.3 基于视频结构化的数据集80
5.4.4 视频结构的划分方法81
5.4.5 研究进展84
5.5 本章小结89
第6章 多模态学习与内容理解91
6.1 多模态内容理解的研究方向91
6.1.1 研究问题91
6.1.2 研究意义与挑战92
6.1.3 研究方向与应用93
6.2 多模态表征94
6.2.1 因果表征94
6.2.2 联合表征98
6.3 多模态内容理解框架99
6.3.1 模态间推理99
6.3.2 模态间协同101
6.3.3 模态间推理:零样本图像
   分类103
6.3.4 模态间协同:虚假新闻识别105
6.4 大规模预训练技术108
6.4.1 文本预训练108
6.4.2 图像预训练110
6.4.3 音频预训练111
6.4.4 多模态预训练112
6.5 本章小结114
第7章 内容理解框架115
7.1 常见的内容理解框架115
7.1.1 Tensor2Tensor115
7.1.2 OmniNet 120
7.2 自研多模态内容理解框架121
7.2.1 框架设计背景121
7.2.2 contentAI框架介绍125
7.2.3 高度配置化125
7.2.4 高度组件化127
7.2.5 开发者模式与用户模式130
7.2.6 计算式网络搭建131
7.2.7 计算图网络搭建 132
7.2.8 自动化数据集构建 133
7.2.9 能力优化133
7.2.10 快速服务化134
7.2.11 内容理解能力135
7.2.12 代码编写范例136
7.3 本章小结141
第二部分 内容生成
第8章 图片生成144
8.1 基于GAN的图片生成144
8.1.1 生成对抗网络144
8.1.2 条件图片生成146
8.1.3 文本转图片147
8.1.4 图片迁移147
8.1.5 高分辨率图片生成149
8.2 基于扩散模型的图片生成151
8.2.1 扩散模型152
8.2.2 扩散模型生成图片153
8.3 图片设计155
8.3.1 智能裁剪155
8.3.2 智能布局156
8.4 本章小结157
第9章 文本生成158
9.1 文本生成的背景知识158
9.1.1 语言模型158
9.1.2 CFG文法159
9.1.3 Encoder-Decoder框架160
9.1.4 文本生成质量量化 161
9.2 文本生成算法162
9.2.1 基于统计的文本生成模型162
9.2.2 基于神经网络的文本生成技术164
9.3 本章小结172
第10章 AI素材合成173
10.1 AI人脸属性编辑173
10.1.1 研究目标与意义173
10.1.2 研究难点175
10.1.3 研究进展176
10.2 AI语音合成181
10.2.1 研究目标与意义181
10.2.2 基本的语音合成系统简介182
10.2.3 端到端的语音合成系统183
10.2.4 基于深度学习的算法介绍185
10.3 AI虚拟人技术195
10.3.1 研究目标与意义195
10.3.2 二维多目标人体姿态估计197
10.3.3 二维-三维人体姿态转换203
10.4 AI表情包合成205
10.4.1 表情包特性206
10.4.2 表情包自动合成的意义及
    挑战207
10.4.3 表情包合成算法208
10.4.4 表情包合成应用212
10.5 本章小结213
第11章 视频编辑214
11.1 结构化数据视频编辑215
11.1.1 基于模板的电视报道视频编辑215
11.1.2 基于剪辑元素属性约束的
    视频编辑216
11.1.3 视频特效合成系统实践217
11.2 文本驱动视频编辑222
11.2.1 基于主题文本编辑的视频
    蒙太奇222
11.2.2 基于解说文本的旅游视频
   编辑224
11.3 音乐驱动视频编辑225
11.3.1 音乐驱动视频蒙太奇225
11.3.2 根据音乐生成视觉节奏227
11.3.3 基于音乐合成视觉叙事
    镜头230
11.4 本章小结232
第三部分 内容质量
第12章 标题党234
12.1 模型构建235
12.1.1 业务定义235
12.1.2 基于标题建模236
12.1.3 基于文章整体内容建模 238
12.2 标题党研究方向241
12.2.1 数据方面的研究241
12.2.2 特征构造方面的研究241
12.2.3 模型方面的研究241
12.3 数据集242
12.4 相关论文介绍243
12.4.1 特征构造243
12.4.2 深度学习245
12.5 本章小结247
第13章 假新闻248
13.1 基本方法248
13.1.1 基于内容真实性248
13.1.2 基于内容风格249
13.1.3 基于传播模式251
13.1.4 基于传播源特征253
13.2 未来研究方向253
13.3 数据集254
13.4 相关论文介绍254
13.5 本章小结271
第14章 图文低俗识别272
14.1 研究背景与问题定义272
14.1.1 研究背景272
14.1.2 问题定义273
14.2 业界常用产品274
14.3 主要技术手段275
14.3.1 关键词275
14.3.2 模型276
14.3.3 匹配277
14.3.4 举报279
14.3.5 用户行为279
14.3.6 多模态279
14.4 业务案例279
14.5 本章小结282
展开全部

内容理解:技术、算法与实践 相关资料

近年来,信息流产品发展迅猛,人工智能在内容创作、审核、推荐等场景中发挥着重要作用。本书详细介绍了内容理解、内容生成、内容质量三方面的内容,将理论和实践相结合,为内容算法领域的从业者提供了技术方案和应用案例的参考。 ——李洪波 极智嘉联合创始人兼CTO/多智能体机器人系统专家 AIGC技术日新月异,开源社区生态繁荣,各互联网大厂纷纷入局,为内容理解、内容生成和应用开创了新的范式。本书比较系统地阐述了文本、图像、语音、视频各模态内容的技术演进和场景应用,值得内容领域的研发人员学习和参考。 ——霍承富 淘天集团1688事业部CTO 这本书以企业实践经验为基础,探讨了内容产业中的关键领域——内容理解、内容生成和内容质量。它提供了全面的实践指南,无论对于从业者,还是对于对内容产业感兴趣的读者,都是一本优秀的参考书。相信读者能够从本书中获得启发和帮助。 ——熊辉 香港科技大学(广州)协理副校长兼人工智能学域主任/AAAS Fellow/ IEEE Fellow/ACM杰出科学家 这本书深入探讨了内容理解、内容生成和内容质量的核心技术,并详细解析了多模态技术在内容产业中的关键应用。本书特别注重融合视觉、语音、文本等多元领域的知识和信息,为读者提供了一份实践指南。相信读者可以从本书中获得灵感,并将其应用到实际工作中。 ——张娟娟 MIT(麻省理工学院)市场学终身教授兼斯隆管理学院全球项目教务主席 本书是一位跳跃于理论与实践之间的优秀“舞者”,将技术与业务场景巧妙结合,为我们揭示了AI在内容产业中的魔力。本书知识点全面,为渴望深入探索内容技术的读者提供了珍贵的导航图。不仅如此,它更是一个窗口,让我们一窥工业界的先进实践与思考。 ——何盛烽 新加坡管理大学计算机学院副教授/IEEE Senior Member/CCF Senior Member

内容理解:技术、算法与实践 作者简介

孙子荀 内容理解与生成领域的资深专家,腾讯高级总监和专家研究员,负责腾讯游戏用户增长与内容生态技术相关的工作。 2012年加入腾讯,十多年来一直从事内容理解、内容生成以及数据科学技术的研究和落地工作,带领团队获得十几项公司级业务奖和技术奖。在内容生态增长、创意营销等领域有丰富的落地经验。带领团队从0到1构建了首个内容技术中台;打造了腾讯游戏全域营销科学体系,帮助多个业务实现降本增效。 与团队一起在人工智能顶级学术会议上发表了多篇论文和报告,在相关领域拥有几十项发明专利。

商品评论(0条)
暂无评论……
书友推荐
本类畅销
编辑推荐
返回顶部
中图网
在线客服