学位论文 > 优秀研究生学位论文题录展示
应用于搜索引擎的人物分类系统设计与实现
作 者: 徐锐波
导 师: 刘小峰
学 校: 华中科技大学
专 业: 软件工程
关键词: 命名实体 向量空间模型 文本相似度 K-Means 自适应聚类
分类号: TP391.3
类 型: 硕士论文
年 份: 2011年
下 载: 10次
引 用: 0次
阅 读: 论文下载
内容摘要
随着互联网技术的高速发展,在逐渐庞大的Web资源库中,愈发难以快速精确的查找有效信息,因此,针对不同的搜索需求,需要采用专用的检索方式和搜索引擎提供个性化服务,以实现高效搜索。通过研究人物搜索引擎的架构和工作流程,本文提出了应用于搜索引擎的人物分类系统,该系统能够实现文本集合的信息抽取与聚类分析,详细阐述了人物分类系统的实现过程,重点研究了系统的关键技术:Web信息抽取技术和文本聚类技术,并通过系统测试证实了系统的实用性与系统关键技术的有效性。Web信息抽取技术旨在自动抽取Web文档中的有效信息。本文提出了针对人物的信息抽取算法,能够抽取Web文档中的高频词汇以及相关人物的重要属性(出生年份、职业、地名和机构名等),并详细阐述了信息抽取算法的设计方法与实现过程。文本聚类技术是文本挖掘技术的核心技术之一,其目标在于划分文本集合成若干个簇,并尽可能实现簇间文本的相似度低,簇内文本相似度高。本文分析了聚类过程中的关键技术:向量空间模型、特征项权重和文本相似度,为后续的聚类算法提供了实现提前。通过分析常规K-Means聚类算法的流程,发现该算法主要不足在于需要人工选取初始簇数,因此,本文阐述了一种簇数K自适应的K-Means算法,能够自动选取簇心,并确定最佳簇数K,避免了簇数选取的盲目性对聚类造成的严重影响,在一定程度上优化了K-Means算法。最后,针对人物分类系统中的关键技术进行了回顾与总结,并阐述了进一步优化关键技术的的相关研究工作。
|
全文目录
摘要 4-5 Abstract 5-9 1 绪论 9-12 1.1 研究背景与意义 9 1.2 国内外研究现状分析 9-10 1.3 本论文的主要工作 10 1.4 论文结构 10-12 2 系统分析 12-17 2.1 人物搜索引擎架构 12-13 2.2 目标系统提出 13 2.3 技术可行性分析 13-14 2.4 系统业务逻辑模型 14-16 2.5 本章小节 16-17 3 系统设计 17-22 3.1 开发模型 17-18 3.2 系统结构 18-19 3.3 系统功能 19-20 3.4 界面设计 20-21 3.5 本章小节 21-22 4 系统实现 22-42 4.1 系统关键技术概述 22 4.2 WEB 信息抽取技术的实现 22-31 4.3 文本聚类技术的实现 31-41 4.4 本章小节 41-42 5 系统测试 42-47 5.1 测试语料 42 5.2 命名实体识别测试 42-43 5.3 簇数K 自适应测试 43-44 5.4 文本聚类测试 44-46 5.5 本章小结 46-47 6 总结与展望 47-49 6.1 全文总结 47-48 6.2 展望 48-49 致谢 49-50 参考文献 50-53
|
相似论文
- 基于停用词处理的汉语语音检索方法,TP391.1
- 基于SVM分类算法的主题爬虫研究,TP391.3
- K-means聚类优化算法的研究,TP311.13
- 基于遗传算法和粗糙集的聚类算法研究,TP18
- 基于机器视觉的车辆检测和车距测量方法研究,TP274
- Web使用挖掘与网页个性化服务推荐研究,TP311.13
- 基于粒子群优化的Fuzzy c-mean聚类算法的基因芯片图像处理,TP391.41
- 面向汽车行业的主题爬虫研究与实现,TP391.3
- 面向短消息文本的聚类技术研究与应用,TP391.1
- 英文文本中命名实体识别及关系抽取技术研究,TP391.1
- 基于树型条件随场的特定域事件提取方法研究,TP391.1
- C电信公司中高端移动用户套餐适配研究,F626
- 网络教育新闻文本分类系统的设计与实现,TP391.1
- 面向论坛信息文本的有效数据抽取研究,TP391.1
- 基于Web的社会网络搜索中人名同一性判断方法研究,TP393.09
- K-means算法在网店代购点选择中的应用研究,F224
- 基于本体的医学命名实体识别技术研究,TP391.1
- 基于CRF的命名实体和关系的联合抽取,TP391.4
- 网络环境下人才知识结构智能交互生成方法研究,TP391.6
- 高校图书馆管理系统的个性化服务的设计与实现,TP311.52
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|