学位论文 > 优秀研究生学位论文题录展示
面向企业竞争情报的主题搜索研究与实现
作 者: 张朝威
导 师: 刘志镜
学 校: 西安电子科技大学
专 业: 计算机应用技术
关键词: 主题搜索 Web挖掘 网络爬虫 竞争情报
分类号: TP391.3
类 型: 硕士论文
年 份: 2010年
下 载: 54次
引 用: 0次
阅 读: 论文下载
内容摘要
海量增长的Web资源已经成为企业获取竞争情报的重要来源。Web资源具有半结构性、离散性、实时性和异构性等特点。如何从Web资源中获得特定主题的信息,并及时地向企业提供有价值的情报,已经成为一项重要的研究课题。本文的研究内容是面向企业竞争情报的、基于Web的主题搜索。本文侧重于主题搜索的核心模块——主题网络蜘蛛的设计与实现。主要工作具体如下:主题网络蜘蛛:综合分析了现有的网络搜索算法,采用基于非贪婪策略的遗传算法来改善信息采集的全局收敛性。Web文档分析:将Web文档转换为对应的文档树,通过遍历快速而有效地获取相关信息;对网页内容进行正文提取和文本分词之后,采用改进的特征项权重算法建立特征向量。主题相关度评价:对网页文本进行主题相关度评价的基础上,结合其锚文本、自身字符串以及所处的网页环境对页内链接进行主题相关性计算。在此基础上,本文描述了竞争情报系统的总体设计及主题搜索的详细实现过程。
|
全文目录
摘要 3-4 Abstract 4-8 第一章 绪论 8-10 1.1 课题背景 8 1.2 主要工作 8-9 1.3 组织结构 9-10 第二章 企业竞争情报 10-16 2.1 竞争情报内涵 10-12 2.1.1 竞争情报概念 10-11 2.1.2 主要搜集途径 11 2.1.3 质量评价方法 11-12 2.2 竞争情报流程 12 2.3 竞争情报软件 12-14 2.4 发展现状概述 14 2.5 小结 14-16 第三章 主题搜索引擎综述 16-24 3.1 主题选择 16-17 3.1.1 主题的含义 16-17 3.1.2 主题选择 17 3.2 主题搜索引擎 17-19 3.2.1 产生背景 17-18 3.2.2 主要构成 18 3.2.3 技术难点 18-19 3.2.4 典型系统 19 3.3 主题网络爬虫 19-21 3.3.1 工作原理 19-20 3.3.2 主要功能 20 3.3.3 关键技术 20-21 3.4 Web挖掘技术 21-23 3.4.1 Web挖掘的含义 21-22 3.4.2 Web挖掘的应用 22-23 3.5 小结 23-24 第四章 主题搜索的理论与算法 24-40 4.1 网页文档解析 24-26 4.1.1 网页文档的格式特点 24 4.1.2 网页文档的树型表示 24-26 4.1.3 网页树型结构的解析 26 4.1.4 网页文档的分类 26 4.2 Web文本分析 26-31 4.2.1 网页预处理 26-27 4.2.2 页内链接提取 27-28 4.2.3 正文文本抽取 28 4.2.4 中文分词技术 28-30 4.2.5 特征向量的项权重 30-31 4.3 主题相关性评价 31-34 4.3.1 内容的主题相关性 31-33 4.3.2 链接的主题相关性 33-34 4.4 主题网络爬虫的搜索策略 34-38 4.4.1 非贪婪链接选择策略 34-36 4.4.2 主题搜索的全局优化 36-37 4.4.3 性能分析 37-38 4.5 小结 38-40 第五章 主题搜索的设计与实现 40-68 5.1 企业竞争情报系统 40-41 5.2 主题搜索的设计 41-43 5.2.1 主题搜索的设计原则 41-42 5.2.2 主题搜索的总体框架 42-43 5.3 线程管理模块 43-47 5.3.1 多线程的运行流程 43-44 5.3.2 多线程的同步机制 44-45 5.3.3 wxWidgets中的线程 45-46 5.3.4 多线程的代码实现 46-47 5.4 网页下载模块 47-48 5.5 网页预处理模块 48-51 5.5.1 boost正则表达式库 48-50 5.5.2 过滤网页的无用标记 50-51 5.6 网页解析模块 51-55 5.6.1 HTML Tidy库 51-52 5.6.2 网页结构解析 52-53 5.6.3 网页内容解析 53-55 5.7 主题相关度评价模块 55-57 5.8 超链接调度模块 57-59 5.8.1 选择种子URL 57-58 5.8.2 管理URL集合 58-59 5.9 数据存储与检索 59-63 5.9.1 数据库设计 59-61 5.9.2 数据索引 61-62 5.9.3 用户检索 62-63 5.10 运行界面 63-67 5.11 小结 67-68 第六章 总结与展望 68-70 6.1 研究工作 68 6.2 趋势与展望 68-70 致谢 70-72 参考文献 72-74
|
相似论文
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 基于比对技术的非法网站探测系统的实现与研究,TP393.08
- LT省公司竞争情报管理研究,F272
- 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
- 基于模糊综合分析法的企业竞争对手评价系统,F272
- 基于Web挖掘技术研究及其在数字图书馆中的应用,G250.76
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- 基于中国式人际关系的竞争情报获取研究,F272
- Web挖掘技术在电子商务推荐系统中的研究与应用,TP391.3
- 基于知识管理的企业档案竞争情报价值研究,G273
- 网络舆情分析关键技术研究与实现,TP393.09
- 基于本体的企业竞争情报系统应用研究,G358
- 网络舆情数据获取与话题分析技术研究,TP393.09
- 互联网舆情信息挖掘与群体行为分析,F49
- 垂直搜索引擎技术在网络舆情巡控中的研究与应用,TP391.3
- 面向企业竞争情报的数据挖掘关键技术研究与实现,TP311.13
- 基于WEB挖掘的E-learning环境下的个性化教学平台研究,TP391.6
- 面向企业竞争情报的Web文本挖掘关键技术的研究与实现,TP391.1
- 基于Lucene的汽车信息垂直搜索引擎的设计与实现,TP391.3
- 基于数据处理中心的企业竞争情报系统研究,F272
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|