学位论文 > 优秀研究生学位论文题录展示

面向论坛信息文本的有效数据抽取研究

作 者: 王舟
导 师: 黄本雄
学 校: 华中科技大学
专 业: 通信与信息系统
关键词: 论坛 信息文本 摘要抽取 相似度计算 向量空间模型
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 44次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着web技术的更新,互联网络迎来了新一轮的大发展,在日新月异的信息时代里,人们可以在网络上获得更多有效的知识和数据。然而随着信息的爆炸式堆积和增长,人们需要一种简单直接的方式查看大多数信息和检索大多数问题。而论坛的普及和发展成为网络发展的一个重要分支。人们对于很多许多信息的分享,问题的求解都是在各类论坛上完成的。因此有效的对论坛文章进行信息抽取,简化信息,提出重点是一个日益迫切的任务。对于论坛信息文本的抽取来说,摘要的抽取是一个首要的工作。本研究主要就论坛上的信息文本进行摘要抽取,并且根据论坛的特点,进行了针对论坛特别是BBS这一平台的实用性的改进,而不单单是一个传统的文本摘要提取。对于论坛来说,承担的功能主要有两大类,第一类是信息发布和评论,第二类是信息索取和问答。针对这两大功能,本研究分别进行了摘要和有效回复的抽取工作。研究对于第一类摘要的抽取,提出了一个基于最大冗余相关算法和子话题聚类分析,并且综合上下文特征的算法。对于较长的论坛文章,抽取其摘要的步骤是,首先,进行子主题的连续句子间聚类分析,采用改进的K值选取和初始点选取的K均值聚类算法;其次,基于句子和文章间的相似度对句子进行分区段或者分聚簇选取;最后,对每个聚类子集进行句子级别的上下文及相关特征综合打分排序,得到了最后的输出。对比结果显示,本文提出的方法结果要好于基本的最大冗余相关算法,且实用性强;对于第二类的回复抽取,改进的采用了基于语言模型的关联模型算法,主要在于对基于问答语料集的词语关联度获取,用于原文与回复间的相似度计算,与向量空间模型不同,语言模型采用词语级别的相似度的累加。在大语料集的基础上,此模型的效果比向量空间模型略好。

全文目录


摘要  4-5
Abstract  5-8
1 绪论  8-13
  1.1 课题背景  8
  1.2 国内外研究状况  8-11
  1.3 本文研究内容和章节安排  11-13
2 信息文本抽取的主要技术  13-28
  2.1 文本的预处理  13-15
  2.2 向量空间模型  15-17
  2.3 特征筛选  17-19
  2.4 统计翻译的语言模型  19-20
  2.5 聚类和分类  20-26
  2.6 相似性计算  26-27
  2.7 本章小结  27-28
3 系统设计  28-40
  3.1 摘要抽取总体设计  28-29
  3.2 数据采集模块设计  29-31
  3.3 针对BBS 的信息抽取功能设计  31
  3.4 基于VSM 的摘要抽取模块  31-36
  3.5 回复选择模块  36-38
  3.6 本章小结  38-40
4 实验结果及评价  40-48
  4.1 实验评价方法  40-41
  4.2 实验环境和资源  41
  4.3 实验结果  41-47
  4.4 本章小结  47-48
5 全文总结与展望  48-50
  5.1 全文总结  48-49
  5.2 未来展望  49-50
致谢  50-51
参考文献  51-54

相似论文

  1. 多邮件自动文摘的关键技术研究,TP391.1
  2. 新中国对非洲的文化外交研究,D822
  3. 基于相似度计算的编程题自动评判方法研究,TP312.1
  4. 中国区域性网上社区的舆情研究,G206
  5. 应用于搜索引擎的人物分类系统设计与实现,TP391.3
  6. 面向短消息文本的聚类技术研究与应用,TP391.1
  7. 多角色社交网络研究,TP393.09
  8. 面向论坛回帖的文本倾向性分析研究,TP391.1
  9. 计算机辅助夹具结构设计关键技术研究,TG75
  10. 基于ICVSM的摘要抽取算法研究,TP391.1
  11. 基于人工标注技术的网页内容抽取系统开发,TP393.092
  12. 纽马克的交际翻译理论在科技翻译中的应用,H315.9
  13. 基于树型条件随场的特定域事件提取方法研究,TP391.1
  14. 面向汽车行业的主题爬虫研究与实现,TP391.3
  15. Web环境下基于语义模式匹配的实体关系提取方法的研究,TP391.1
  16. 基于SVM分类算法的主题爬虫研究,TP391.3
  17. 基于停用词处理的汉语语音检索方法,TP391.1
  18. 智能垃圾邮件过滤系统贝叶斯过滤器的设计与实现,TP393.098
  19. 中央人民广播电台中国广播网互动平台建设,TN931
  20. 基于语义的中文文本自动分类系统的研究与实现,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com