学位论文 > 优秀研究生学位论文题录展示
面向论坛信息文本的有效数据抽取研究
作 者: 王舟
导 师: 黄本雄
学 校: 华中科技大学
专 业: 通信与信息系统
关键词: 论坛 信息文本 摘要抽取 相似度计算 向量空间模型
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 44次
引 用: 0次
阅 读: 论文下载
内容摘要
随着web技术的更新,互联网络迎来了新一轮的大发展,在日新月异的信息时代里,人们可以在网络上获得更多有效的知识和数据。然而随着信息的爆炸式堆积和增长,人们需要一种简单直接的方式查看大多数信息和检索大多数问题。而论坛的普及和发展成为网络发展的一个重要分支。人们对于很多许多信息的分享,问题的求解都是在各类论坛上完成的。因此有效的对论坛文章进行信息抽取,简化信息,提出重点是一个日益迫切的任务。对于论坛信息文本的抽取来说,摘要的抽取是一个首要的工作。本研究主要就论坛上的信息文本进行摘要抽取,并且根据论坛的特点,进行了针对论坛特别是BBS这一平台的实用性的改进,而不单单是一个传统的文本摘要提取。对于论坛来说,承担的功能主要有两大类,第一类是信息发布和评论,第二类是信息索取和问答。针对这两大功能,本研究分别进行了摘要和有效回复的抽取工作。研究对于第一类摘要的抽取,提出了一个基于最大冗余相关算法和子话题聚类分析,并且综合上下文特征的算法。对于较长的论坛文章,抽取其摘要的步骤是,首先,进行子主题的连续句子间聚类分析,采用改进的K值选取和初始点选取的K均值聚类算法;其次,基于句子和文章间的相似度对句子进行分区段或者分聚簇选取;最后,对每个聚类子集进行句子级别的上下文及相关特征综合打分排序,得到了最后的输出。对比结果显示,本文提出的方法结果要好于基本的最大冗余相关算法,且实用性强;对于第二类的回复抽取,改进的采用了基于语言模型的关联模型算法,主要在于对基于问答语料集的词语关联度获取,用于原文与回复间的相似度计算,与向量空间模型不同,语言模型采用词语级别的相似度的累加。在大语料集的基础上,此模型的效果比向量空间模型略好。
|
全文目录
摘要 4-5 Abstract 5-8 1 绪论 8-13 1.1 课题背景 8 1.2 国内外研究状况 8-11 1.3 本文研究内容和章节安排 11-13 2 信息文本抽取的主要技术 13-28 2.1 文本的预处理 13-15 2.2 向量空间模型 15-17 2.3 特征筛选 17-19 2.4 统计翻译的语言模型 19-20 2.5 聚类和分类 20-26 2.6 相似性计算 26-27 2.7 本章小结 27-28 3 系统设计 28-40 3.1 摘要抽取总体设计 28-29 3.2 数据采集模块设计 29-31 3.3 针对BBS 的信息抽取功能设计 31 3.4 基于VSM 的摘要抽取模块 31-36 3.5 回复选择模块 36-38 3.6 本章小结 38-40 4 实验结果及评价 40-48 4.1 实验评价方法 40-41 4.2 实验环境和资源 41 4.3 实验结果 41-47 4.4 本章小结 47-48 5 全文总结与展望 48-50 5.1 全文总结 48-49 5.2 未来展望 49-50 致谢 50-51 参考文献 51-54
|
相似论文
- 多邮件自动文摘的关键技术研究,TP391.1
- 新中国对非洲的文化外交研究,D822
- 基于相似度计算的编程题自动评判方法研究,TP312.1
- 中国区域性网上社区的舆情研究,G206
- 应用于搜索引擎的人物分类系统设计与实现,TP391.3
- 面向短消息文本的聚类技术研究与应用,TP391.1
- 多角色社交网络研究,TP393.09
- 面向论坛回帖的文本倾向性分析研究,TP391.1
- 计算机辅助夹具结构设计关键技术研究,TG75
- 基于ICVSM的摘要抽取算法研究,TP391.1
- 基于人工标注技术的网页内容抽取系统开发,TP393.092
- 纽马克的交际翻译理论在科技翻译中的应用,H315.9
- 基于树型条件随场的特定域事件提取方法研究,TP391.1
- 面向汽车行业的主题爬虫研究与实现,TP391.3
- Web环境下基于语义模式匹配的实体关系提取方法的研究,TP391.1
- 基于SVM分类算法的主题爬虫研究,TP391.3
- 基于停用词处理的汉语语音检索方法,TP391.1
- 智能垃圾邮件过滤系统贝叶斯过滤器的设计与实现,TP393.098
- 中央人民广播电台中国广播网互动平台建设,TN931
- 基于语义的中文文本自动分类系统的研究与实现,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|