学位论文 > 优秀研究生学位论文题录展示

面向企业竞争情报的主题搜索研究与实现

作　者: 张朝威
导　师: 刘志镜
学　校: 西安电子科技大学
专　业: 计算机应用技术
关键词: 主题搜索 Web挖掘网络爬虫竞争情报
分类号: TP391.3
类　型: 硕士论文
年　份: 2010年
下　载: 54次
引　用: 0次
阅　读: 论文下载

内容摘要

海量增长的Web资源已经成为企业获取竞争情报的重要来源。Web资源具有半结构性、离散性、实时性和异构性等特点。如何从Web资源中获得特定主题的信息,并及时地向企业提供有价值的情报,已经成为一项重要的研究课题。本文的研究内容是面向企业竞争情报的、基于Web的主题搜索。本文侧重于主题搜索的核心模块——主题网络蜘蛛的设计与实现。主要工作具体如下：主题网络蜘蛛：综合分析了现有的网络搜索算法,采用基于非贪婪策略的遗传算法来改善信息采集的全局收敛性。Web文档分析：将Web文档转换为对应的文档树,通过遍历快速而有效地获取相关信息；对网页内容进行正文提取和文本分词之后,采用改进的特征项权重算法建立特征向量。主题相关度评价：对网页文本进行主题相关度评价的基础上,结合其锚文本、自身字符串以及所处的网页环境对页内链接进行主题相关性计算。在此基础上,本文描述了竞争情报系统的总体设计及主题搜索的详细实现过程。

全文目录

摘要  3-4
Abstract  4-8
第一章绪论  8-10
  1.1 课题背景  8
  1.2 主要工作  8-9
  1.3 组织结构  9-10
第二章企业竞争情报  10-16
  2.1 竞争情报内涵  10-12
    2.1.1 竞争情报概念  10-11
    2.1.2 主要搜集途径  11
    2.1.3 质量评价方法  11-12
  2.2 竞争情报流程  12
  2.3 竞争情报软件  12-14
  2.4 发展现状概述  14
  2.5 小结  14-16
第三章主题搜索引擎综述  16-24
  3.1 主题选择  16-17
    3.1.1 主题的含义  16-17
    3.1.2 主题选择  17
  3.2 主题搜索引擎  17-19
    3.2.1 产生背景  17-18
    3.2.2 主要构成  18
    3.2.3 技术难点  18-19
    3.2.4 典型系统  19
  3.3 主题网络爬虫  19-21
    3.3.1 工作原理  19-20
    3.3.2 主要功能  20
    3.3.3 关键技术  20-21
  3.4 Web挖掘技术  21-23
    3.4.1 Web挖掘的含义  21-22
    3.4.2 Web挖掘的应用  22-23
  3.5 小结  23-24
第四章主题搜索的理论与算法  24-40
  4.1 网页文档解析  24-26
    4.1.1 网页文档的格式特点  24
    4.1.2 网页文档的树型表示  24-26
    4.1.3 网页树型结构的解析  26
    4.1.4 网页文档的分类  26
  4.2 Web文本分析  26-31
    4.2.1 网页预处理  26-27
    4.2.2 页内链接提取  27-28
    4.2.3 正文文本抽取  28
    4.2.4 中文分词技术  28-30
    4.2.5 特征向量的项权重  30-31
  4.3 主题相关性评价  31-34
    4.3.1 内容的主题相关性  31-33
    4.3.2 链接的主题相关性  33-34
  4.4 主题网络爬虫的搜索策略  34-38
    4.4.1 非贪婪链接选择策略  34-36
    4.4.2 主题搜索的全局优化  36-37
    4.4.3 性能分析  37-38
  4.5 小结  38-40
第五章主题搜索的设计与实现  40-68
  5.1 企业竞争情报系统  40-41
  5.2 主题搜索的设计  41-43
    5.2.1 主题搜索的设计原则  41-42
    5.2.2 主题搜索的总体框架  42-43
  5.3 线程管理模块  43-47
    5.3.1 多线程的运行流程  43-44
    5.3.2 多线程的同步机制  44-45
    5.3.3 wxWidgets中的线程  45-46
    5.3.4 多线程的代码实现  46-47
  5.4 网页下载模块  47-48
  5.5 网页预处理模块  48-51
    5.5.1 boost正则表达式库  48-50
    5.5.2 过滤网页的无用标记  50-51
  5.6 网页解析模块  51-55
    5.6.1 HTML Tidy库  51-52
    5.6.2 网页结构解析  52-53
    5.6.3 网页内容解析  53-55
  5.7 主题相关度评价模块  55-57
  5.8 超链接调度模块  57-59
    5.8.1 选择种子URL  57-58
    5.8.2 管理URL集合  58-59
  5.9 数据存储与检索  59-63
    5.9.1 数据库设计  59-61
    5.9.2 数据索引  61-62
    5.9.3 用户检索  62-63
  5.10 运行界面  63-67
  5.11 小结  67-68
第六章总结与展望  68-70
  6.1 研究工作  68
  6.2 趋势与展望  68-70
致谢  70-72
参考文献  72-74

面向企业竞争情报的主题搜索研究与实现

内容摘要

全文目录

相似论文