学位论文 > 优秀研究生学位论文题录展示

面向企业竞争情报的主题搜索研究与实现

作 者: 张朝威
导 师: 刘志镜
学 校: 西安电子科技大学
专 业: 计算机应用技术
关键词: 主题搜索 Web挖掘 网络爬虫 竞争情报
分类号: TP391.3
类 型: 硕士论文
年 份: 2010年
下 载: 54次
引 用: 0次
阅 读: 论文下载
 

内容摘要


海量增长的Web资源已经成为企业获取竞争情报的重要来源。Web资源具有半结构性、离散性、实时性和异构性等特点。如何从Web资源中获得特定主题的信息,并及时地向企业提供有价值的情报,已经成为一项重要的研究课题。本文的研究内容是面向企业竞争情报的、基于Web的主题搜索。本文侧重于主题搜索的核心模块——主题网络蜘蛛的设计与实现。主要工作具体如下:主题网络蜘蛛:综合分析了现有的网络搜索算法,采用基于非贪婪策略的遗传算法来改善信息采集的全局收敛性。Web文档分析:将Web文档转换为对应的文档树,通过遍历快速而有效地获取相关信息;对网页内容进行正文提取和文本分词之后,采用改进的特征项权重算法建立特征向量。主题相关度评价:对网页文本进行主题相关度评价的基础上,结合其锚文本、自身字符串以及所处的网页环境对页内链接进行主题相关性计算。在此基础上,本文描述了竞争情报系统的总体设计及主题搜索的详细实现过程。

全文目录


摘要  3-4
Abstract  4-8
第一章 绪论  8-10
  1.1 课题背景  8
  1.2 主要工作  8-9
  1.3 组织结构  9-10
第二章 企业竞争情报  10-16
  2.1 竞争情报内涵  10-12
    2.1.1 竞争情报概念  10-11
    2.1.2 主要搜集途径  11
    2.1.3 质量评价方法  11-12
  2.2 竞争情报流程  12
  2.3 竞争情报软件  12-14
  2.4 发展现状概述  14
  2.5 小结  14-16
第三章 主题搜索引擎综述  16-24
  3.1 主题选择  16-17
    3.1.1 主题的含义  16-17
    3.1.2 主题选择  17
  3.2 主题搜索引擎  17-19
    3.2.1 产生背景  17-18
    3.2.2 主要构成  18
    3.2.3 技术难点  18-19
    3.2.4 典型系统  19
  3.3 主题网络爬虫  19-21
    3.3.1 工作原理  19-20
    3.3.2 主要功能  20
    3.3.3 关键技术  20-21
  3.4 Web挖掘技术  21-23
    3.4.1 Web挖掘的含义  21-22
    3.4.2 Web挖掘的应用  22-23
  3.5 小结  23-24
第四章 主题搜索的理论与算法  24-40
  4.1 网页文档解析  24-26
    4.1.1 网页文档的格式特点  24
    4.1.2 网页文档的树型表示  24-26
    4.1.3 网页树型结构的解析  26
    4.1.4 网页文档的分类  26
  4.2 Web文本分析  26-31
    4.2.1 网页预处理  26-27
    4.2.2 页内链接提取  27-28
    4.2.3 正文文本抽取  28
    4.2.4 中文分词技术  28-30
    4.2.5 特征向量的项权重  30-31
  4.3 主题相关性评价  31-34
    4.3.1 内容的主题相关性  31-33
    4.3.2 链接的主题相关性  33-34
  4.4 主题网络爬虫的搜索策略  34-38
    4.4.1 非贪婪链接选择策略  34-36
    4.4.2 主题搜索的全局优化  36-37
    4.4.3 性能分析  37-38
  4.5 小结  38-40
第五章 主题搜索的设计与实现  40-68
  5.1 企业竞争情报系统  40-41
  5.2 主题搜索的设计  41-43
    5.2.1 主题搜索的设计原则  41-42
    5.2.2 主题搜索的总体框架  42-43
  5.3 线程管理模块  43-47
    5.3.1 多线程的运行流程  43-44
    5.3.2 多线程的同步机制  44-45
    5.3.3 wxWidgets中的线程  45-46
    5.3.4 多线程的代码实现  46-47
  5.4 网页下载模块  47-48
  5.5 网页预处理模块  48-51
    5.5.1 boost正则表达式库  48-50
    5.5.2 过滤网页的无用标记  50-51
  5.6 网页解析模块  51-55
    5.6.1 HTML Tidy库  51-52
    5.6.2 网页结构解析  52-53
    5.6.3 网页内容解析  53-55
  5.7 主题相关度评价模块  55-57
  5.8 超链接调度模块  57-59
    5.8.1 选择种子URL  57-58
    5.8.2 管理URL集合  58-59
  5.9 数据存储与检索  59-63
    5.9.1 数据库设计  59-61
    5.9.2 数据索引  61-62
    5.9.3 用户检索  62-63
  5.10 运行界面  63-67
  5.11 小结  67-68
第六章 总结与展望  68-70
  6.1 研究工作  68
  6.2 趋势与展望  68-70
致谢  70-72
参考文献  72-74

相似论文

  1. 隐式用户兴趣挖掘的研究与实现,TP311.13
  2. 基于比对技术的非法网站探测系统的实现与研究,TP393.08
  3. LT省公司竞争情报管理研究,F272
  4. 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
  5. 基于模糊综合分析法的企业竞争对手评价系统,F272
  6. 基于Web挖掘技术研究及其在数字图书馆中的应用,G250.76
  7. 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
  8. 基于中国式人际关系的竞争情报获取研究,F272
  9. Web挖掘技术在电子商务推荐系统中的研究与应用,TP391.3
  10. 基于知识管理的企业档案竞争情报价值研究,G273
  11. 网络舆情分析关键技术研究与实现,TP393.09
  12. 基于本体的企业竞争情报系统应用研究,G358
  13. 网络舆情数据获取与话题分析技术研究,TP393.09
  14. 互联网舆情信息挖掘与群体行为分析,F49
  15. 垂直搜索引擎技术在网络舆情巡控中的研究与应用,TP391.3
  16. 面向企业竞争情报的数据挖掘关键技术研究与实现,TP311.13
  17. 基于WEB挖掘的E-learning环境下的个性化教学平台研究,TP391.6
  18. 面向企业竞争情报的Web文本挖掘关键技术的研究与实现,TP391.1
  19. 基于Lucene的汽车信息垂直搜索引擎的设计与实现,TP391.3
  20. 基于数据处理中心的企业竞争情报系统研究,F272

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com