4.23文创礼盒,买2个减5元 读书月福利
欢迎光临中图网 请 | 注册
> >
智能信息处理-汉语语料库加工技术及应用

智能信息处理-汉语语料库加工技术及应用

作者:郑家恒
出版社:科学出版社出版时间:2010-10-01
开本: 16开 页数: 318页
中 图 价:¥51.6(8.6折) 定价  ¥60.0 登录后可看到会员价
暂时缺货 收藏
运费6元,满69元免运费
?快递不能达地区使用邮政小包,运费14元起
云南、广西、海南、新疆、青海、西藏六省,部分地区快递不可达
本类五星书更多>

智能信息处理-汉语语料库加工技术及应用 版权信息

  • ISBN:9787030291356
  • 条形码:9787030291356 ; 978-7-03-029135-6
  • 装帧:一般胶版纸
  • 册数:暂无
  • 重量:暂无
  • 所属分类:>

智能信息处理-汉语语料库加工技术及应用 本书特色

《智能信息处理:汉语语料库加工技术及应用》:智能科学技术著作丛书

智能信息处理-汉语语料库加工技术及应用 内容简介

本书以作者主持的国家项目、省部级项目及合作项目等为依托,以课题组近年来的研究成果为基础,重点介绍语料库深加工中的若干技术和方法,涉及分词、词性标注、句法分析、语义标注以及相关加工中的自动校对和一致性检验技术。同时,对语料库加工质量的评价技术和语料库的相关应用做了详细介绍。各章节的顺序展示了语料库加工中由浅人深的发展过程。本书可作为计算机、语言学等专业高年级本科生、研究生教材,也可作为自然语言处理和计算语言学研究人员的参考书。

智能信息处理-汉语语料库加工技术及应用 目录

《智能科学技术著作丛书》序前言第1章 绪论1.1 语料库的定义和作用1.1.1 什么是语料库1.1.2 语料库的作用1.2 语料库的建立1.2.1 什么是语料库标注1.2.2 语料库标注的原则1.2.3 建立语料库需要考虑的几个问题1.2.4 语料库标注和建立的方法1.2.5 语料库的质量检验1.3 本书的编排参考文献第2章 自动分词2.1 自动分词概述2.1.1 自动分词的意义2.1.2 自动分词的主要难点2.1.3 自动分词方法简介2.1.4 自动分词评测2.2 分词规范2.2.1 制定分词规范的目的和意义2.2.2 几种典型的分词规范介绍2.3 歧义字段的切分技术2.3.1 歧义字段现象分析2.3.2 基于统计的歧义字段排歧2.4 未登录词识别2.4.1 专有名词识别2.4.2 新词语识别2.5 缩略语识别2.5.1 缩略语特征分析2.5.2 缩略语资源库的建立2.5.3 缩略语识别模型2.5.4 缩略语的还原2.6 分词一致性检验2.6.1 分词不一致性现象分析2.6.2 基于规则的分词一致性检验方法2.6.3 基于统计的分词一致性检验方法2.6.4 分词一致性检验系统参考文献第3章 词性标注3.1 词性标注概述3.1.1 词性标注的意义3.1.2 词性标注的难点3.1.3 词性标注方法简介3.1.4 常用语料库3.2 词性标注规范3.2.1 制定词性标注规范的目的和意义3.2.2 几种典型的词性标注规范介绍3.3 兼类词的标注3.3.1 什么是兼类词3.3.2 典型的兼类词标注方法3.4 词性标注一致性检验3.4.1 问题描述和分析3.4.2 一致性检验模型的建立3.4.3 实验结果和分析3.4.4 方法评价3.5 词性标注自动校对3.5.1 基于分类的词性标注自动校对3.5.2 基于决策表的词性标注自动校对参考文献第4章 句法分析4.1 完全句法分析4.1.1 完全句法分析概述4.1.2 形式语法体系4.1.3 树库资源的建设4.1.4 汉语句法分析的特点4.1.5 句法分析方法4.1.6 相关会议及评测4.1.7 句法分析模型的评价方法4.2 浅层句法分析4.2.1 浅层句法分析概述4.2.2 组块库的获取4.2.3 组块的类型及其标注规范4.2.4 组块分析方法4.2.5 相关会议及评测4.2.6 评价参数4.3 句法树库的一致性检验4.3.1 不一致现象分析4.3.2 不一致的发现和消解参考文献第5章 语义标注语料库5.1 语义标注范围5.1.1 词义标注5.1.2 句义标注5.1.3 篇章级的语义标注5.2 语义标注语料库的建立方法5.2.1 传统的以人工标注为主的方法5.2.2 自动构建语义标注语料库5.3 主要的语义标注语料库5.3.1 词义标注语料库5.3.2 句义标注语料库5.3.3 语篇关系标注语料库5.3.4 时间关系标注语料库5.3.5 信息抽取方面的语料库5.3.6 生物医药领域中的语义标注语料库参考文献第6章 语料库评测6.1 语料库评测的意义6.2 语料库分词质量评价6.2.1 评价样本的抽样6.2.2 抽样样本的聚类及评价6.2.3 实验及分析6.3 语料库可用性评价6.3.1 可用性评价体系6.3.2 可用性评价计算6.3.3 评价结果分析参考文献第7章 基于语料库的应用研究7.1 网页信息处理7.1.1 重复网页分析7.1.2 基于语义的网页去重7.1.3 基于网页文本结构的网页去重7.2 特殊领域的信息抽取7.2.1 基于HMM的农业信息抽取7.2.2 基于NLP的土壤污染数据抽取7.2.3 基于BOotstrapping的交通工具名识别7.3 基于大规模语料库的汉语韵律边界研究7.3.1 基于统计语言模型建立二叉树结构7.3.2 基于树结构的汉语韵律边界预测7.4 基于大规模语料库的欺骗行为检测7.4.1 欺骗性语料库的建设7.4.2 欺骗检测的特征线索7.4.3 文本特征抽取7.4.4 欺骗行为检测方法7.4.5 实验结果和分析参考文献
展开全部

智能信息处理-汉语语料库加工技术及应用 节选

《智能信息处理:汉语语料库加工技术及应用》以作者主持的国家项目、省部级项目及合作项目等为依托,以课题组近年来的研究成果为基础,重点介绍语料库深加工中的若干技术和方法,涉及分词、词性标注、句法分析、语义标注以及相关加工中的自动校对和一致性检验技术。同时,对语料库加工质量的评价技术和语料库的相关应用做了详细介绍。各章节的顺序展示了语料库加工中由浅人深的发展过程。《智能信息处理:汉语语料库加工技术及应用》可作为计算机、语言学等专业高年级本科生、研究生教材,也可作为自然语言处理和计算语言学研究人员的参考书。

智能信息处理-汉语语料库加工技术及应用 相关资料

插图:关于语料库(corpus)的定义主要有以下几种:(1)McEnery和Wilson指出:“总体来说,多篇文本的集合就是语料库,但在现代语言学中使用语料库这个术语时,更倾向于包含更多的内涵,主要有采样(sampling)收集、有代表性(representativeness)、规模有限(finite size)、机器可读(machine-readable)、标准参考数据(a standard reference)等内涵特征。”(2)语料库就是某种语言在实际运用中的大量实例集合,这些例子可以是书面文本,也可以是语音形式的文本。(3)语料库是根据外部原则选择的电子形式的文本或文本片段的集合。该集合能够代表一种语言,或一种语言的分支,或一种语言的变体,并可作为语言学研究使用的数据源[引。这里外部原则(external criteria)是指通过文本的交流功能来选择文本的原则。与外部原则相对的一个概念就是内部原则(internal criteria),具体指按照文本反映的语言细节来选择文本。在上述的几种定义中,定义(1)使用最多,认为语料库不是简单收集的文本集合,而是通过采样收集,具有代表性,规模大小可以确定,是机器可读的标准数据。但是Kilgarriff和Grefenstette提出了异议,认为McEnery和Wilson混淆了“什么是语料库”和“什么是好的、适合于某项语言研究的语料库”这两个问题,他们认为语料库就是文本的集合。然而在具体使用中,有些研究者认为有许多文本的集合并不一定是语料库。最具有争议的莫过于万维网(WWW)了。WWW刚出现时,人们因为不了解搜索引擎,也不清楚对WWW如何采样,觉得WWW相当神秘。因此,文献指出:“WWW不是语料库,因为其维度未知且不断变化,而且WWW最初也不是从语言学角度来设计的。”

商品评论(0条)
暂无评论……
书友推荐
本类畅销
编辑推荐
返回顶部
中图网
在线客服