学位论文 > 优秀研究生学位论文题录展示

个性化RSS新闻检索系统设计与实现

作 者: 李曦强
导 师: 洪海
学 校: 东北大学
专 业: 软件工程
关键词: 新闻检索 RSS 词性标注
分类号: TP391.3
类 型: 硕士论文
年 份: 2008年
下 载: 70次
引 用: 1次
阅 读: 论文下载
 

内容摘要


RSS(Rich Site Summary或Really Simple Syndication或RDF Site Summary)阅读器的出现,解决了用户每天都需要登陆很多个门户网站的困扰。RSS阅读器会以一定的频率自动对这些网站的内容进行更新,这就很好的解决了信息不能及时更新的问题。但是,由于各个门户网站发布的内容的重复性,RSS阅读器还是存在重复信息太多,信息关联度不好的问题,这就大大浪费了用户的时间。本文就是针对RSS聚合重复信息多且关联度不好的缺点,对RSS阅读器进行功能改进,实现个性化新闻检索。分别是相同或相似内容新闻过滤功能,即当各网站出现相同主题、内容相似的文章时只显示优先级最高的网站的新闻;选择订阅功能,即按照用户要求,定制针对用户喜好的新闻内容;系列新闻链接功能,即可链接到与感兴趣的新闻相关的之前发布的新闻。本文首先通过Digester模块对XML(Extensible Markup Language)文件进行解析,调用中文分词与词性标注系统开放模块对解析出的新闻标题进行词性标注,提取出一系列实意词作为该新闻的关键词。然后按日期对新闻进行区分,根据本文所提出的判断准则,对搜集到的全部新闻关键词进行比较分类存储。最后就是各个改进功能的实现,显示优先级最高的新闻实现相同内容新闻过滤功能;对订阅关键词和/或禁止关键词与新闻关键词比较实现新闻订阅功能;通过跨日期类的关键词比较,根据判定准则,实现系列新闻链接功能。经过系统运行以及详细的统计和对比分析,引入准确率和召回率,以及F值的评测指标,得到了较为理想的结果。

全文目录


摘要  5-6
Abstract  6-9
第1章 绪论  9-21
  1.1 课题的背景及研究目的  9-11
  1.2 RSS的国内外研究综述  11-13
    1.2.1 国外RSS技术的发展  11-13
    1.2.2 国内RSS技术的发展  13
    1.2.3 RSS的演变  13
  1.3 词性标注的发展现状  13-16
  1.4 新闻检索的研究现状  16-18
  1.5 本论文的主要工作内容  18-21
第2章 个性化RSS新闻检索系统的相关技术  21-29
  2.1 RSS简介  21-25
    2.1.1 RSS技术的优点  21-22
    2.1.2 RSS的工作原理  22-24
    2.1.3 RSS2.0规范  24-25
  2.2 基于隐马尔可夫模型的词性标注方法  25-28
    2.2.1 中文分词的方法概述  25-27
    2.2.2 词性标注的方法概述  27-28
  2.3 本章小结  28-29
第3章 个性化RSS新闻检索系统的设计  29-39
  3.1 系统需求分析  29
  3.2 系统总体设计  29-31
  3.3 数据结构设计  31-35
  3.4 系统界面设计  35-37
  3.5 本章小结  37-39
第4章 个性化RSS新闻检索系统的实现  39-53
  4.1 关键词提取模块  39-45
    4.1.1 RSSFeeds解析  39
    4.1.2 基于隐马尔科夫模型的词性标注模块的实现  39-42
    4.1.3 提取关键词  42-45
  4.2 存储模块  45-49
  4.3 核心控制模块  49-51
    4.3.1 去重模块  49-50
    4.3.2 选择订阅模块  50-51
    4.3.3 系列新闻判定模块  51
  4.4 本章小结  51-53
第5章 个性化RSS新闻检索系统的测试及评价  53-63
  5.1 测试用例及测试结果  53-57
  5.2 测试结果分析及评价  57-60
  5.3 压力测试  60-62
  5.4 本章小结  62-63
第6章 结论  63-65
参考文献  65-68
致谢  68

相似论文

  1. 《汉语水平词汇等级大纲》甲级词汇词性标注研究,H146
  2. 数据挖掘技术和RSS技术在图书馆个性化服务中的应用,G250.76
  3. 基于Web2.0技术的网络自主学习社区构建,TP391.6
  4. 本体构建与网络交流平台的设计与实现,TP311.52
  5. 基于统计NLP技术的甲骨卜辞的分析研究,TP391.1
  6. 基于RSS的旅游电子商务平台信息发布系统设计,TP311.52
  7. 基于HMM的藏语语料库词性自动标注研究,H214
  8. ECFTA环球商业数据资讯采集系统的设计及实现,TP274.2
  9. 基于语义分析的推荐算法在RSS网络信息服务中的研究,TP393.09
  10. LSA与SOM相结合的文本聚类算法应用研究,TP391.1
  11. 基于RSS技术的图书馆信息发布与订阅系统的设计与实现,TP311.52
  12. Web2.0营销及其在家电企业海外市场的运用与研究,F426.6
  13. 汉语词类划分与词性标注方法的研究,TP391.1
  14. RSS个性化信息服务的用户兴趣模型研究及应用,TP393.09
  15. 汉英机器翻译中趋向动词的处理,H315.9
  16. 面向对外汉语教学的现代汉语时间副词研究,H195
  17. 高校数字图书馆个性化服务的应用研究,G250.76
  18. 现代汉语新词语词典研究,H164
  19. 基于RSS技术的政府绩效信息聚合与推送研究,D630
  20. 基于RSS技术与BLOG平台的机构库信息服务模式研究,G350

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com