刊名:统计研究
主办:中国统计学会;国家统计局统计科学研究所
主管:国家统计局
ISSN:1002-4565
CN:11-1302/C
语言:中文
周期:月刊
影响因子:2.165468
数据库收录:
北大核心期刊(1992版);北大核心期刊(1996版);北大核心期刊(2000版);北大核心期刊(2004版);北大核心期刊(2008版);北大核心期刊(2011版);北大核心期刊(2014版);北大核心期刊(2017版);中文社会科学引文索引-来源(1998);中文社会科学引文索引-来源(1999);中文社会科学引文索引-来源(2000-2002);中文社会科学引文索引-来源(2003);中文社会科学引文索引-来源(2004-2005);中文社会科学引文索引-来源(2006-2007);中文社会科学引文索引-来源(2008-2009);中文社会科学引文索引-来源(2010-2011);中文社会科学引文索引-来源(2012-2013);中文社会科学引文索引-来源(2014-2016);中文社会科学引文索引-来源(2017-2018);中文社会科学引文索引-来源(2019-2020);日本科学技术振兴机构数据库;国家哲学社会科学学术期刊数据库;中国人文社科核心期刊;社科基金资助期刊;中国科技核心期刊;期刊分类:社会学及统计学;数学
期刊热词:
统计史专栏
摘要
Abstract
第1章 绪论
1.1 研究背景
1.2 研究意义
1.3 国内外研究现状
1.3.1 词的特征表示方法
1.3.2 中间意义识别
1.4 研究述评
1.4.1 词特征表示研究述评
1.4.2 中间意义识别研究述评
1.5 研究框架及主要创新
1.5.1 研究框架
1.5.2 主要创新
第2章 浅层语义解析的形式化表示
2.1 浅层语义解析
2.1.1 词性
2.1.2 句法
2.1.3 词义
2.1.4 部分词项的语义关系
2.2 形式化表示
2.2.1 句级别序列标注问题
2.2.2 一个词级别序列标注问题
2.2.3 多个词级别序列标注问题
第3章 词向量模型
3.1 理论和方法依据
3.1.1 分布式假定
3.1.2 统计量的选择
3.1.3 多维尺度分析
3.2 词向量模型的理论研究
3.2.1 LSA模型
3.2.2 word2vec模型
3.2.3 glove模型
3.3 词向量模型的效果评估
3.3.1 评估准则
3.3.2 语料库和模型选择
3.3.3 模型效果评估
第4章 一类深层神经网络模型
4.1 基本概念
4.1.1 人工神经元
4.1.2 神经网络模型
4.2 有关模型组件的理论和方法研究
4.2.1 卷积层和池化层
4.2.2 LSTM层
4.2.3 注意力机制层
4.2.4 全局优化层
4.3 一类深层神经网络模型
4.3.1 基本模型
4.3.2 基本模型的扩展
4.3.3 系统性设计
第5章 深层神经网络模型的参数估计
5.1 误差反向传播算法
5.1.1 最速下降法
5.1.2 在线学习
5.1.3 随机梯度下降算法
5.1.4 BP算法
5.2 梯度计算
5.2.1 全局优化层的梯度计算公式
5.2.2 LSTM层的梯度计算公式
5.2.3 卷积层和池化层的梯度计算公式
5.3 算法的改进
5.3.1 小批次随机梯度下降算法
5.3.2 经典动量算法
5.4 实证研究
5.4.1 模型组件的识别效果分析
5.4.2 内在关联性的效果分析
5.4.3 不同模型的比较研究
第6章 应用研究
6.1 通用框架的两种适用情形
6.2 政府服务热线工单数据案例分析
6.2.1 样本数据的分类汇总
6.2.2 投诉类工单数据
6.2.3 咨询类工单数据
第7章 总结与展望
7.1 本文所做的主要工作
7.2 有待于进一步研究的问题
参考文献
攻读博士期间发表论文清单
攻读博士期间参与课题研究情况
致谢
附录1 全局优化层的代码
附录2 基本模型的构建代码
文章摘要:语义分析是从非结构化的文本数据中识别出语义的形式化表示,并将其转化为结构化数据的过程。浅层语义解析是由语义分析分解出的、具有通用性的子任务构成。本文围绕如何有效地将非结构化的文本数据转化为结构化数据,依据子任务之间的内在关联性,将浅层语义解析作为一个整体,利用深层神经网络模型进行统计研究。第一,构建了一个理论分析框架。该框架包括三部分。首先,从四个层面对浅层语义解析的内涵进行研究,分三种情形将浅层语义解析统一形式化为序列标注问题,为依据内在关联性进行建模奠定必要条件。其次,以词的分布式假定和多维尺度分析为理论和方法依据,论证了三类词向量模型之间的内在统一性,为有效地利用词向量对浅层语义解析进行建模奠定理论基础。最后,从线性时不变系统理论出发,论证了卷积神经网络模型应用于浅层语义解析的适用性条件,分析研究了长短期记忆人工神经网络模型、注意力机制模型和全局优化机制的理论优势,在此基础上,提出一类适用于浅层语义解析的深层神经网络模型,结合多级标注语料库,对浅层语义解析的模型构建、模型选择以及模型识别等进行了系统性设计。针对模型的参数估计问题,推导出基本模型的梯度计算公式,证明了改进算法的收敛性。第二,从三个方面对分析框架进行了实证和应用研究。首先,利用大规模中文百科语料,对一类词向量模型的效果进行了评估,实证结果表明,在基于可类比性准则构建的测试总体上,模型的识别效果高达89.24%。其次,利用一个多级标注语料库,在对模型组件识别效果进行比较研究的基础上,以谓词-论元结构分析为例,对内在关联性在模型构建过程中的有效性进行了研究,并进一步和其他同类模型进行了比较研究。针对中文语料,和传统模型相比,当不依据内在关联性进行建模时,本文所提的深层神经网络模型在中文测试集上识别效果提升了11.18%;当依据内在关联性进行建模时,仅仅利用到词性分析和命名实体识别两个子任务,在不改变原模型结构的基础上,模型识别效果进一步提升了1.12%。针对英文语料,依据内在关联性构建的模型识别效果也显著优于其他同类模型。这些实证结果说明了利用深层神经网络模型对浅层语义解析进行系统性设计效果的显著性。最后,给出分析框架的两种适用情形,并利用东莞市政府服务热线工单验证了基于深层神经网络模型的浅层语义解析的实用性和有效性。
文章来源:《统计研究》 网址: http://www.tjyjzz.cn/qikandaodu/2022/0130/958.html