中图网

>

计算机理论

CHATGPT原理与架构:大模型的预训练、迁移和中间件编程

作者：程戈著

出版社：机械工业出版社出版时间：2023-12-01

开本： 16开 页数： 210

本类榜单：计算机/网络销量榜

中图价:¥74.3(7.5折) 定价 ~~¥99.0~~ 登录后可看到会员价

加入购物车收藏

运费6元，满69元免运费

?快递不能达地区使用邮政小包，运费14元起

云南、广西、海南、新疆、青海、西藏六省，部分地区快递不可达

本类五星书更多>

>
全国计算机等级考试最新真考题库模拟考场及详解·二级MSOffice高级应用

全国计算机等级考试最新真考题库模拟考场及详解·二级MSOffice高级应用

¥11.3¥45
>
决战行测5000题(言语理解与表达)

决战行测5000题(言语理解与表达)

¥28.2¥88
>
软件性能测试.分析与调优实践之路

软件性能测试.分析与调优实践之路

¥55.2¥69
>
第一行代码Android

第一行代码Android

¥76.2¥99
>
C Primer Plus 第6版中文版

C Primer Plus 第6版中文版

¥75.6¥108
>
深度学习

深度学习

¥82.3¥168
>
MATLAB计算机视觉与深度学习实战-赠在线交流卡和本书源码

MATLAB计算机视觉与深度学习实战-赠在线交流卡和本书源码

¥43.5¥79

商品详情
商品评论(0条)

中图价:¥74.3 加入购物车

版权信息
本书特色
内容简介
目录
作者简介

微信公众号

CHATGPT原理与架构:大模型的预训练、迁移和中间件编程版权信息

ISBN：9787111739562
条形码：9787111739562 ; 978-7-111-73956-2
装帧：平装-胶订
册数：暂无
重量：暂无
所属分类：
计算机/网络
>
计算机理论

CHATGPT原理与架构:大模型的预训练、迁移和中间件编程本书特色

（1）作者背景权威：作者是湘潭大学的博导，是科技部国家重点子课题（大模型相关）的负责人，是资深的大模型技术专家和布道者。
（2）作者经验丰富：对ChatGPT、Llama2等大模型有深入研究，带领团队成功训练并部署司法领域的大模型。
（3）全套技术原理：围绕ChatGPT，系统阐述了大模型的工作原理、运行机制、架构设计和底层技术等大模型工程师需要掌握的所有理论知识。
（4）关键应用主题：从大模型的数据处理、预训练到向垂直领域迁移、微调，再到中间件编程，涵盖当下大模型应用的各项关键技术主题。
（5）多位专家推荐：阿里、Google、ChatLaw等企业的多位大模型技术专家高度评价并推荐。

CHATGPT原理与架构:大模型的预训练、迁移和中间件编程内容简介

内容简介这是一本深入阐述ChatGPT等大模型的工作原理、运行机制、架构设计和底层技术，以及预训练、迁移、微调和中间件编程的著作。它将帮助我们从理论角度全面理解大模型，从实践角度更好地应用大模型，是作者成功训练并部署大模型的过程复盘和经验总结。第1章介绍了ChatGPT等大模型的发展历程、技术演化和技术栈等基础知识；第2~5章深入讲解了Transformer的架构原理，并从GPT-1的生成式预训练到GPT-3的稀疏注意力机制详细描述了GPT系列的架构演进； 6~8章从底层技术实现的角度讲解了大语言模型的训练策略、数据处理方法，以及如何利用策略优化和人类反馈来进一步提升模型的表现；第9~10章首先详细讲解了大语言模型在垂直领域的低算力迁移方法，并给出了医疗和司法领域的迁移案例，然后讲解了大模型的中间件编程；第11章对GPT的未来发展趋势进行预测，探讨数据资源、自回归模型的局限性，以及大语言模型时代具身智能的可行路线。

CHATGPT原理与架构:大模型的预训练、迁移和中间件编程目录

前言
第1章　人工智能的新里程碑——ChatGPT　/　1
1.1　ChatGPT的发展历程　/　1
1.2　ChatGPT的能力　/　3
1.3　大语言模型的技术演化　/　6
1.3.1　从符号主义到连接主义　/　6
1.3.2　Transformer模型　/　7
1.3.3　无监督预训练　/　10
1.3.4　有监督微调　/　11
1.3.5　人类反馈强化学习　/　11
1.4　大语言模型的技术栈　/　12
1.5　大语言模型带来的影响　/　13
1.6　大语言模型复现的壁垒　/　16
1.6.1　算力瓶颈　/　16
1.6.2　数据瓶颈　/　17
1.6.3　工程瓶颈　/　18
1.7　大语言模型的局限性　/　19
1.8　小结　/　20
第2章　深入理解Transformer
模型　/　21
2.1　Transformer模型简介　/　21
2.2　自注意力机制　/　23
2.2.1　自注意力机制的计算
过程　/　23
2.2.2　自注意力机制的本质　/　26
2.2.3　自注意力机制的优势与局
限性　/　28
2.3　多头注意力机制　/　29
2.3.1　多头注意力机制的实现　/　29
2.3.2　多头注意力机制的作用　/　31
2.3.3　多头注意力机制的优化　/　32
2.4　前馈神经网络　/　33
2.5　残差连接　/　35
2.6　层归一化　/　36
2.7　位置编码　/　38
2.7.1　位置编码的设计与实现　/　38
2.7.2　位置编码的变体　/　40
2.7.3　位置编码的优势与
局限性　/　41
2.8　训练与优化　/　41
2.8.1　损失函数　/　41
2.8.2　优化器　/　42
2.8.3　学习率调整策略　/　42
2.8.4　正则化　/　43
2.8.5　其他训练与优化技巧　/　44
2.9　小结　/　46
第3章　生成式预训练　/　47
3.1　生成式预训练简介　/　47
3.2　GPT的模型架构　/　48
3.3　生成式预训练过程　/　50
3.3.1　生成式预训练的目标　/　52
3.3.2　生成式预训练的误差反向
传播过程　/　53
3.4　有监督微调　/　55
3.4.1　有监督微调的原理　/　55
3.4.2　有监督微调的特定任务　/　56
3.4.3　有监督微调的步骤　/　58
3.5　小结　/　59
第4章　无监督多任务与零样本
学习　/　61
4.1　编码器与解码器　/　61
4.2　GPT-2的模型架构　/　64
4.2.1　层归一化　/　65
4.2.2　正交初始化　/　66
4.2.3　可逆的分词方法　/　67
4.2.4　可学习的相对位置编码　/　71
4.3　无监督多任务　/　72
4.4　多任务学习与零样本学习的
关系　/　74
4.5　GPT-2的自回归生成过程　/　76
4.5.1　子词单元嵌入　/　76
4.5.2　自回归过程　/　77
4.6　小结　/　79
第5章　稀疏注意力与基于内容的
学习　/　80
5.1　GPT-3的模型架构　/　81
5.2　稀疏注意力模式　/　83
5.2.1　Sparse Transformer的
特点　/　83
5.2.2　局部带状注意力　/　85
5.2.3　跨层稀疏连接　/　85
5.3　元学习和基于内容的学习　/　86
5.3.1　元学习　/　87
5.3.2　基于内容的学习　/　87
5.4　概念分布的贝叶斯推断　/　90
5.4.1　隐式微调　/　90
5.4.2　贝叶斯推断　/　93
5.5　思维链的推理能力　/　95
5.6　小结　/　99
第6章　大语言模型的预训练
策略　/　100
6.1　预训练数据集　/　100
6.2　预训练数据的处理　/　102
6.3　分布式训练模式　/　104
6.3.1　数据并行　/　105
6.3.2　模型并行　/　106
6.4　分布式训练的技术路线　/　110
6.4.1　Pathways　/　111
6.4.2　Megatron-LM　/　113
6.4.3　ZeRO　/　116
6.5　训练策略案例　/　120
6.5.1　训练框架　/　120
6.5.2　参数稳定性　/　120
6.5.3　训练设置的调整　/　121
6.5.4　BF16优化　/　121
6.5.5　其他因素　/　122
6.6　小结　/　123
第7章　近端策略优化算法　/　124
7.1　传统的策略梯度方法　/　125
7.1.1　策略梯度方法的基本
原理　/　125
7.1.2　重要性采样　/　127
7.1.3　优势函数　/　128
7.2　Actor-Critic算法　/　129
7.2.1　Actor-Critic算法的基本
步骤　/　130
7.2.2　值函数与策略更新　/　131
7.2.3　Actor-Critic算法的问题与
挑战　/　131
7.3　信任域策略优化算法　/　132
7.3.1　TRPO算法的目标　/　132
7.3.2　TRPO算法的局限性　/　133
7.4　PPO算法的原理　/　134
7.5　小结　/　137
第8章　人类反馈强化学习　/　138
8.1　强化学习在ChatGPT迭代中的
作用　/　138
8.2　InstructGPT训练数据集　/　140
8.2.1　微调数据集的来源　/　141
8.2.2　标注标准　/　142
8.2.3　数据分析　/　143
8.3　人类反馈强化学习的训练
阶段　/　145
8.3.1　有监督微调阶段　/　145
8.3.2　奖励建模阶段　/　147
8.3.3　强化学习阶段　/　148
8.4　奖励建模算法　/　149
8.4.1　算法思想　/　149
8.4.2　损失函数　/　150
8.5　PPO算法在InstructGPT中的
应用　/　151
8.6　多轮对话能力　/　153
8.7　人类反馈强化学习的必要性　/　154
8.8　小结　/　156
第9章　大语言模型的低算力领域
迁移　/　157
9.1　指令自举标注　/　157
9.2　人工智能反馈　/　161
9.3　低秩自适应　/　163
9.3.1　模型训练与部署　/　164
9.3.2　秩的选择　/　165
9.4　量化：降低部署的算力要求　/　166
9.5　SparseGPT剪枝算法　/　168
9.6　开源大语言模型的低算力迁移
案例　/　170
9.6.1　基座模型　/　170
9.6.2　自举指令微调的羊驼
系列　/　171
9.6.3　中文解决方案　/　172
9.6.4　医疗领域的迁移实例　/　174
9.6.5　司法领域的迁移实例　/　175
9.7　小结　/　178
第10章　中间件编程　/　180
10.1　补齐短板—LangChain恰逢
其时　/　180
10.2　多模态融合中间件　/　184
10.2.1　任务规划　/　185
10.2.2　模型选择　/　187
10.2.3　任务执行　/　188
10.2.4　响应生成　/　189
10.3　AutoGPT自主代理与任务
规划　/　189
10.4　中间件框架的竞品　/　192
10.5　小结　/　194
第11章　大语言模型的未来
之路　/　195
11.1　强人工智能之路　/　195
11.2　数据资源枯竭　/　198
11.3　自回归模型的局限性　/　200
11.4　具身智能　/　202
11.4.1　具身智能的挑战　/　203
11.4.2　PaLM-E　/　204
11.4.3　ChatGPT for Robotics　
/　205
11.5　小结　/　210

展开全部

CHATGPT原理与架构:大模型的预训练、迁移和中间件编程作者简介

程戈
博士生导师，湘潭大学计算机学院·网络空间安全学院教授，湘潭大学技术转移中心副主任，湘潭市京东智能城市与大数据研究院副院长，智慧司法与数字治理湖南省重点实验室副主任，CCF计算法学会执委。大模型领域技术专家和布道者，作为两项科技部国家重点研发子课题的负责人，与成都数之联等多家企业合作推动人工智能在司法领域的落地，带领团队开发了JusticeGPT司法大模型，不同于其他的以提升司法领域知识问答能力为核心的司法大模型，该大模型致力于提升司法文献检索增强生成以及司法文档的多跳信息聚合能力，并通过特定的多任务表征与控制指令生成框架重构司法信息化系统的业务中台，实现司法业务编排以及工作流自动化。连续创业者，先后创立湘潭安道致胜信息科技有限公司等多家企业，曾经作为共同创始人加盟美国WiFi Free llc. ，开发了WiFi Free、WiFi Analyzer 等项目，其中WiFi Free在2014到2015年是Google Play市场相关WiFi分享类应用下载的前三名。作为技术顾问，先后服务于北京捷通华声等多家企业，提供知识表示学习的技术解决方案，为某知名私募开发了基于深度学习的股票趋势预测系统，成为该私募公司的主要量化工具。

商品评论(0条)

写书评赚书币

暂无评论……

书友推荐

>
伊索寓言-世界文学名著典藏-全译本
伊索寓言-世界文学名著典藏-全译本
[古希腊] 伊索著，陈韵如译
¥6.1~~¥19.0~~
>
罗庸西南联大授课录
罗庸西南联大授课录
罗庸
¥13.8~~¥32.0~~
>
诗经-先民的歌唱
诗经-先民的歌唱
裴溥言
¥15.1~~¥39.8~~
>
二体千字文
二体千字文
本书编委会
¥16.0~~¥40.0~~
>
苦雨斋序跋文-周作人自编集
苦雨斋序跋文-周作人自编集
周作人著，止庵校订
¥6.9~~¥16.0~~
>
企鹅口袋书系列·伟大的思想20:论自然选择(英汉双语)
企鹅口袋书系列·伟大的思想20:论自然选择(英汉双语)
[英] 达尔文著，朱邦芊译
¥6.3~~¥14.0~~
>
龙榆生：词曲概论/大家小书
龙榆生：词曲概论/大家小书
龙榆生
¥9.1~~¥24.0~~
>
山海经
山海经
林非
¥20.4~~¥68.0~~

本类畅销

数学之美

吴军著

¥48.3~~¥69~~
浪潮之巅-下册-第二版

吴军

¥22.1~~¥45~~
挑战程序设计竞赛(第2版)

秋叶拓哉，岩田阳一，北川宜稔　编，巫泽俊，庄俊元，李津羽　译

¥55.3~~¥79~~
算法竞赛入门经典-(第2版)

刘汝佳

¥34.9~~¥49.8~~
2022图书×抽奖盲袋

¥9.9~~¥25~~
2023读书月阅读盲盒——天黑，闭眼，刀谁？

中图网

¥42.3~~¥158~~

CHATGPT原理与架构:大模型的预训练、迁移和中间件编程

CHATGPT原理与架构:大模型的预训练、迁移和中间件编程版权信息

CHATGPT原理与架构:大模型的预训练、迁移和中间件编程本书特色

CHATGPT原理与架构:大模型的预训练、迁移和中间件编程内容简介

CHATGPT原理与架构:大模型的预训练、迁移和中间件编程目录

CHATGPT原理与架构:大模型的预训练、迁移和中间件编程作者简介

伊索寓言-世界文学名著典藏-全译本

罗庸西南联大授课录

诗经-先民的歌唱

二体千字文

苦雨斋序跋文-周作人自编集

企鹅口袋书系列·伟大的思想20:论自然选择(英汉双语)

龙榆生：词曲概论/大家小书

山海经

数学之美

浪潮之巅-下册-第二版

挑战程序设计竞赛(第2版)

算法竞赛入门经典-(第2版)

2022图书×抽奖盲袋

2023读书月阅读盲盒——天黑，闭眼，刀谁？

人间草木

房思琪的初恋乐园

百年梦忆－梁实秋人生自述

朱仙镇年画:七日谈

陶潜和樱子

女孩们

CHATGPT原理与架构:大模型的预训练、迁移和中间件编程

CHATGPT原理与架构:大模型的预训练、迁移和中间件编程 版权信息

CHATGPT原理与架构:大模型的预训练、迁移和中间件编程 本书特色

CHATGPT原理与架构:大模型的预训练、迁移和中间件编程 内容简介

CHATGPT原理与架构:大模型的预训练、迁移和中间件编程 目录

CHATGPT原理与架构:大模型的预训练、迁移和中间件编程 作者简介

CHATGPT原理与架构:大模型的预训练、迁移和中间件编程版权信息

CHATGPT原理与架构:大模型的预训练、迁移和中间件编程本书特色

CHATGPT原理与架构:大模型的预训练、迁移和中间件编程内容简介

CHATGPT原理与架构:大模型的预训练、迁移和中间件编程目录

CHATGPT原理与架构:大模型的预训练、迁移和中间件编程作者简介