学位论文 > 优秀研究生学位论文题录展示
社保审计领域语料库构建研究
作 者: 李雪峰
导 师: 黄少滨
学 校: 哈尔滨工程大学
专 业: 计算机软件与理论
关键词: 社保审计领域 信息动态管理 智能化审计 语料分类 细语料提取
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 32次
引 用: 0次
阅 读: 论文下载
内容摘要
社会保障体系的正常运行关系到广大人民的切身利益,如何能在信息爆炸时代的今天有效的利用领域信息,来指导社保审计体系的调整是领域内急待解决的问题。社保审计语料库用于社保审计领域语言处理,管理领域信息,进而支持领域审计方法的优化。本文对社保审计领域信息进行分析,并根据领域信息的特征提出采用原始语料和处理后语料不断更新的半自动管理方式来构建领域语料库,通过语料信息的评价评定领域中语料源和领域细语料集。采用半自动网络搜索下载的方式从指定的领域语料源获取不断更新的领域粗语料。在领域细语料集的支持下采用迭代的方式应用双词典回溯遍历算法不断提取领域细语料,丰富领域细语料集,同时给出了领域细语料集的组织结构和更新管理方式。在细语料表示领域语料时以语料的时间、频度、流通度、语料源等级作为特征值,采用基于向量支持的方式对领域语料进行分类管理。在获得大规模领域语料库的同时,本文应用语料信息与社保审计领域审计方法进行信息对比,根据领域细语料的更新和领域语料的分类情况动态的监测不断更新的领域语料,发掘语料所包含领域信息的变化,通过反馈领域信息的变化指导社保审计方法体系的调整,以最终实现领域语料库支持下的社保智能化审计。
|
全文目录
摘要 5-6 Abstract 6-9 第1章 绪论 9-14 1.1 课题背景和意义 9-10 1.2 语料库国内外研究现状 10-12 1.2.1 国外研究现状 10-11 1.2.2 国内研究现状 11-12 1.3 论文的研究内容和组织结构 12-14 1.3.1 研究内容 12-13 1.3.2 论文组织 13-14 第2章 语料库相关理论 14-23 2.1 语料和语料库的概述 14-15 2.2 语料相关技术 15-18 2.2.1 语料的获取 15-16 2.2.2 语料的相关处理 16 2.2.3 语料的向量化表示 16-17 2.2.4 语料的分类 17-18 2.3 语料库构建 18-22 2.3.1 语料库设计 19-20 2.3.2 文本分词技术 20-21 2.3.3 细语料管理 21-22 2.4 本章小结 22-23 第3章 语料的获取和处理 23-38 3.1 粗语料集获取 23-26 3.1.1 粗语料手动抽取 23-24 3.1.2 粗语料半自动获取流程 24-26 3.2 细语料先验集获取 26-28 3.3 细语料的组织 28-30 3.4 细语料提取 30-35 3.4.1 双词典参与下关键细语料的获取 30-33 3.4.2 细语料的获取算法分析 33-34 3.4.3 细语料同义词辨析 34-35 3.5 语料集的更新管理 35-37 3.6 本章小结 37-38 第4章 语料库的建设 38-50 4.1 语料库设计 38-39 4.2 语料分类 39-46 4.2.1 语料分词 39-41 4.2.2 语料频度特征度选取 41-42 4.2.3 文本相似计算 42-44 4.2.4 分类方法 44-46 4.3 语料管理 46-47 4.4 审计方法体系的自动调整 47-49 4.5 本章小结 49-50 第5章 社保审计语料库系统构建实验 50-57 5.1 领域语料的采集结果分析 50-51 5.2 领域语料的分类 51-54 5.3 细语料获取实验结果 54-55 5.4 领域语料库接口 55-56 5.5 本章小结 56-57 结论 57-58 参考文献 58-62 攻读硕士学位期间发表的论文和取得的科研成果 62-63 致谢 63
|
相似论文
- 基于分类映射的非并行语料语音转换,TN912.3
- 基于维基的温州百科站点建设研究,TP393.092
- 基于GIS的乡级土地利用规划管理信息系统的设计与研究,P208
- GIS技术支持的土地利用规划信息动态管理模式的研究与应用,P208
- 政府投资项目施工前各阶段重点智能化审计研究,F239.6
- 基于FPGA的数字图像处理基本算法研究与实现,TP391.41
- 用于检索的人脸特征提取与匹配算法研究,TP391.41
- 基于FPGA的高速图像预处理技术的研究,TP391.41
- 2D人脸模板保护算法研究,TP391.41
- 导弹虚拟试验可视化技术研究,TP391.9
- 基于用户兴趣特征的图像检索研究与实现,TP391.41
- 图像拼接技术研究,TP391.41
- 高效精确字符串匹配算法的研究与实现,TP391.41
- 基于词义及语义分析的问答技术研究,TP391.1
- 基于三维重建的焊点质量分类方法研究,TP391.41
- 舌体特征的提取及融合分类方法研究,TP391.41
- 统计机器翻译中结构转换技术的研究,TP391.2
- 基于人眼检测的驾驶员疲劳状态识别技术,TP391.41
- 基于句法特征的代词消解方法研究,TP391.1
- 空中目标与背景的红外图像仿真技术研究,TP391.41
- 基于EPC C1G2协议的超高频RFID系统设计及仿真,TP391.44
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|