学位论文 > 优秀研究生学位论文题录展示

主题搜索引擎关键技术研究

作 者: 王福海
导 师: 邱卫东;付大勇
学 校: 上海交通大学
专 业: 计算机技术
关键词: 主题过滤 信息抽取 PageRank Nutch J2EE
分类号: TP391.3
类 型: 硕士论文
年 份: 2011年
下 载: 63次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着Internet近期的高速发展,web上的信息资源已经达到ZB级。面对如此海量数据资源,如何快速、有效获取主体化的专业知识和信息资源成为一个难题,而此时搜索引擎的出现解决了信息迷失问题。但目前存在的通用搜索引擎对于信息需求集中、主题明确的行业客户缺乏导向。近期,出现了针对具体领域信息完全收录和及时更新的主题搜索引擎。本文对国内外主题搜索引擎技术的发展和主题搜索引擎的现状进行分析,并对搜索引擎的工作原理和两大主题搜索技术:内容过滤和信息提取进行了详细介绍。重点研究了网页抓取时如何通过URL和内容两方面进行主题过滤,对PageRank算法进行深入研究,结合向量空间算法提出更有针对性的主题过滤方法并通过研究如何将过滤后的网页进行信息提取,提出主题信息抽取的方法。本文基于开源搜索引擎Nutch,将人工智能、信息提取、数据挖掘等研究领域知识有机结合,并对PageRank、空间向量算法进行结合和改进,通过HTML结构抽取与本体信息抽取相结合的方式,利用J2EE技术进行二次开发,搭建主题过滤和信息抽取模块,构建主题搜索引擎架构。本文最后对未来工作进行了展望,指出在主题过滤算法、过滤精度以及过滤速度和精度需要进一步优化。

全文目录


摘要  4-5
Abstract  5-6
目录  6-8
第一章 绪论  8-14
  1.1 研究的背景和意义  8-9
    1.1.1 研究的背景  8
    1.1.2 研究的意义  8-9
  1.2 国内外研究的现状  9-12
    1.2.1 国外研究现状  9-11
    1.2.2 国内研究现状  11-12
    1.2.3 存在的问题  12
  1.3 论文结构  12-14
第二章 主题搜索引擎综述  14-23
  2.1 搜索引擎的发展  14-15
  2.2 搜索引擎工作原理  15-17
  2.3 存在的问题  17-19
  2.4 主题搜索引擎定义  19
  2.5 主题搜索引擎的特点  19-20
  2.6 主题搜索引擎的关键技术  20-22
    2.6.1 主题过滤技术介绍  20-21
    2.6.2 信息抽取技术介绍  21-22
  2.7 本章小结  22-23
第三章 面向主题的过滤技术  23-34
  3.1 基于URL 的主题过滤技术  23-27
    3.1.1 目前存在的基于URL 的主题过滤算法  23-25
    3.1.2 改进的面向主题的URL 主题过滤算法  25-27
  3.2 基于内容的主题过滤技术  27-31
    3.2.1 目前存在的基于内容的主题过滤技术  28-29
    3.2.2 改进的面向主题的内容过滤算法  29-31
  3.3 改进的面向主题的过滤算法  31-32
  3.4 本章小结  32-34
第四章 面向主题的信息抽取技术  34-39
  4.1 信息抽取  34-37
    4.1.1 信息抽取的特点  34
    4.1.2 Web 信息抽取  34-37
  4.2 改进的面向主题的信息抽取  37
  4.3 本章小结  37-39
第五章 主题搜索引擎系统的设计与实现  39-56
  5.1 其他主题搜索引擎系统  39
  5.2 设计目标  39-40
  5.3 系统的总体设计  40-41
  5.4 系统实现的关键技术:  41-45
    5.4.1 Nutch 搜索引擎框架  41-42
    5.4.2 Struts、Spring、Hibernate 技术整合  42-45
  5.5 主题搜索引擎系统的实现  45-54
    5.5.1 开发环境与工具  45
    5.5.2 主题过滤模块的实现  45-47
    5.5.3 主题信息抽取模块的实现  47-50
    5.5.4 基于Nutch 结合SSH 技术搭建主题搜索引擎  50-52
    5.5.5 主题搜索引擎数据库的设计  52-54
  5.6 主题信息结构化抽取效果  54-55
  5.7 本章小结  55-56
第六章 总结与展望  56-58
  6.1 全文总结  56
  6.2 未来工作展望  56-58
参考文献  58-61
致谢  61-62
攻读硕士学位期间已发表或录用的论文  62

相似论文

  1. 领域实体属性及事件抽取技术研究,TP391.1
  2. 时间表达式识别与归一化研究,TP391.1
  3. 基于MDA的界面自动生成方法的研究,TP311.5
  4. 复杂J2EE应用的轻量级的监控系统的研究与设计,TP311.52
  5. 人力资源管理系统的设计与实现,TP311.52
  6. 新疆电信融合计费管理子系统的设计与实现,TP311.52
  7. 基于J2EE的汕头高技校办公自动化系统设计与实现,TP311.52
  8. 新疆广播电视大学教学评价系统的设计与实现,TP311.52
  9. 高职院校毕业生信息管理系统的设计与实现,TP311.52
  10. 网页属性抽取的方法研究,TP391.1
  11. 基于SaaS的高校就业综合管理平台设计与实现,TP311.52
  12. 基于J2EE的SNMP网络管理系统的设计和实现,TP311.52
  13. 数字化查账系统研究,TP311.52
  14. 新疆高职院校网上评教系统的设计与实现,TP311.52
  15. 新疆兵团电大教师信息管理系统的设计与实现,TP311.52
  16. 振道科技人力资源管理系统,TP311.52
  17. 田径运动会通用管理系统,TP311.52
  18. 基于J2EE的Web题库后台管理系统的设计与实现,TP311.52
  19. 基于J2EE架构业务支撑系统管理的原理与实现,TP311.52
  20. 基于J2EE的高速公路电子收费系统的设计与实现,TP311.52
  21. 中国石油广域网智能管理系统设计与实现,TP311.52

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com