学位论文 > 优秀研究生学位论文题录展示

基于Web的社会网络搜索中人名同一性判断方法研究

作 者: 庞永杰
导 师: 张晓芳
学 校: 华中科技大学
专 业: 计算机软件与理论
关键词: 社会网络 向量空间模型 同一性判断 层次聚类
分类号: TP393.09
类 型: 硕士论文
年 份: 2011年
下 载: 29次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着计算机科学与互联网技术的不断进步,人们彼此之间可以通过各种各样的软件和方式进行在线交互,不再受到时间和地域的限制。随着人们在互联网上的行为日益丰富,互联网上的社交行为和关系逐渐的接近传统的客观世界的社交网络,并能够真实反映出人与人之间在客观世界的真实关系。可以从互联网中通过搜索的方式来构建一个真实客观世界的社会网络。社会网络搜索技术及其方法逐渐成为目前的研究热点,互联网中的丰富信息大都包含在Web中,可以从Web中获取关于某个人的社会网络信息,然而多个人会具有一个相同的名字,那么如何对每个Web进行人名同一性判断就称为了社会网络搜索的关键技术。为了能准确地进行社会网络搜索,研究了人名同一性判断技术的实现。介绍了信息检索领域中的向量空间模型。为了从文本中抽取准确的特征并降低向量维度,给出一个基于C ? value和词频IDF的特征向量权值计算方法。实现了基于余弦夹角的相似度计算的算法;通过对文本聚类算法中层次聚类算法和划分聚类算法的研究,给出一种改进的层次聚类算法来实现人名同一性判断;为了提高聚类算法的收敛速度,给出一种聚类中心的计算方法。为了实现社会网络搜索,设计了一种基于Web的社会网络搜索系统框架。为了能获取包含社会网络信息的Web文档,给出一种Web下载器的实现方法;通过使用ICTCLAS-API完成对Web的中文分词处理;根据C ? value和词频IDF计算词项权值,并根据特征选择条件选择特征词项作为向量;通过使用聚类算法进行Web文档分类完成人名同一性判断;给出人物关系强度定义,通过使用现有商用搜索引擎,设计并实现了人物关系获取和关系强度计算的具体算法。为了说明使用C ? value *IDF权值计算方法和改进的层次聚类算法对人名同一性判断性能的影响,以搜索引擎的人名检索结果进行测试。说明了基于改进的层次聚类算法的人名同一性判断能有效降低人名判断的时间,但是以损失部分准确率为代价。

全文目录


摘要  4-5
Abstract  5-9
1 绪论  9-15
  1.1 课题背景和意义  9-10
  1.2 国内外相关研究概况  10-14
  1.3 主要研究工作及章节安排  14-15
2 检索结果的人名同一性判断方法  15-30
  2.1 向量空间模型  16-17
  2.2 改进的特征权值计算方法  17-21
  2.3 相似度计算  21-24
  2.4 基于聚类算法的人名同一性判断  24-29
  2.5 本章小结  29-30
3 基于Web 的社会网络搜索系统设计  30-43
  3.1 系统总体框架  31-32
  3.2 Web 文档爬取  32-35
  3.3 Web 文档预处理  35-38
  3.4 人名同一性判断  38-40
  3.5 人物关系识别  40-42
  3.6 本章小结  42-43
4 实验及结果分析  43-50
  4.1 实验目的  43
  4.2 性能实验  43-48
  4.3 本章小结  48-50
5 总结和展望  50-52
  5.1 全文总结  50
  5.2 展望  50-52
致谢  52-53
参考文献  53-56

相似论文

  1. 基于停用词处理的汉语语音检索方法,TP391.1
  2. 基于社会网络视角的台湾文化创意产业研究,G124
  3. 基于SVM分类算法的主题爬虫研究,TP391.3
  4. 基于社会网络分析法的大学生网络意见领袖研究,G206
  5. 对于系统发育谱法聚类算法的改进,TP311.13
  6. 从虚拟到现实—试析虚拟社区之传播明星地位对现实生活中人脉的影响,G206
  7. G公司技术产品的动态扩散过程研究,F273.1;F407.672
  8. 面向消费者感性需求的手持GPS设计探讨,TN967.1
  9. 应用于搜索引擎的人物分类系统设计与实现,TP391.3
  10. 面向汽车行业的主题爬虫研究与实现,TP391.3
  11. 面向短消息文本的聚类技术研究与应用,TP391.1
  12. 和谐社会视域下的网络群体性事件初探,D631.4
  13. 基于树型条件随场的特定域事件提取方法研究,TP391.1
  14. 网络教育新闻文本分类系统的设计与实现,TP391.1
  15. 面向论坛信息文本的有效数据抽取研究,TP391.1
  16. SMBSDD:一种改进的非结构化P2P网络搜索机制,TP393.02
  17. Web新闻热点发现系统的设计与实现,TP393.09
  18. 多角色社交网络研究,TP393.09
  19. 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
  20. 基于社会网络和声誉信任机制的多Agent系统信任模型,TP393.08

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com