学位论文 > 优秀研究生学位论文题录展示

从网页中精确提取链接上下文相关文本

作 者: 徐晴阳
导 师: 左万利
学 校: 吉林大学
专 业: 软件与理论
关键词: 上下文相关 相关文本 链接 网页内容 自然语言处理 提取方法 相关度 英语语义 HTML文件 启发式方法
分类号: TP393.092
类 型: 硕士论文
年 份: 2004年
下 载: 232次
引 用: 1次
阅 读: 论文下载
 

内容摘要


HTML文件中的锚文本及其相关上下文中往往包含着链接指向页面主题的“简洁”但“精确”的语义线索,这通常是一个合理的假设,这些线索往往足以引导网页的人类浏览者打开链接指向的页面。毫不奇怪,这些链接上下文相关文本从World Wide Web诞生伊始便得到了充分的利用。例如,Google搜索引擎利用锚文本索引URL;在CLEVER主题编辑系统中,超链接按照它的上下文相关文本与检索词的相关度被赋予权值,以减轻HITS算法中“主题偏离”的困难;一些研究者讨索了利用这些相关文本辅助甚至代替网页内容本身进行网页的自动分类。在访问链接指向的目标页面的代价过于昂贵的情况下,这些链接上下文相关文本必须得到充分而最好的利用,这正是“主题爬行”面临的问题,它的成功依赖于通过这些源页面上的相关文本信息尽可能准确地预测目标页面的主题相关度。虽然具有这些重要价值,对如何精确提取链接上下文相关文本的研究还未得到充分的讨论,目前最好的提取方法依赖于过于简单化的启发式方法,或者依赖于各种随意指定的数学参数。锚文本似乎是可靠的语义信息来源,但它过于简短的特性妨碍了信息检索的高“查全率”,而且完全依赖锚文本甚至会降低检索性能,这一现象已经被一些研究者所证实。除了锚文本之外,锚标签左右的邻近文本被认为是链接上下文相关文本的另一重要来源,然而,这些文本中往往包含巨大的噪音,和锚文本相比,这些质量不高的文本通常会进一步降低提取文本的相关度。本篇论文提出了一个基于自然语言处理和网页结构分析的新颖的提取方法。我们认为象英语语义解析这样的自然语言处理工具有助于过滤掉无关或噪音文本,同时提取出高质量的相关文本,从而达到对人类浏览者浏览行为的“细粒度”模仿。初步的实验结果表明我们提出的方法较其他方法存在较大的优势。

全文目录


第一章 绪 论  6-15
  1.1 链接上下文相关文本及其作用  6-7
  1.2 提取链接上下文相关文本带来的技术挑战  7-14
  1.3 本文所做的工作  14-15
第二章 HTML语言及DOM树  15-20
  2.1 HTML语言  15-18
  2.2 与网页结构对应的DOM树  18-20
第三章 自然语言处理中的解析技术  20-22
第四章 链接上下文相关文本提取新方法  22-37
  4.1 总体框架  22-23
  4.2 对网页“段落”的定位  23-25
  4.3 对锚文本和邻近文本的定位  25-31
  4.4 对相关“标题文本”的提取  31-35
  4.5 总体算法流程的伪码表示  35-37
第五章 算法的系统实现及比较实验结果  37-44
  5.1 系统实现  37-38
  5.2 比较实验结果  38-42
  5.3 新方法的局限性和可能的改进  42-44
第六章 结束语  44-45
参考文献  45-47
论文摘要  47-48
Abstract  48-49

相似论文

  1. 词义消歧语料库自动获取方法研究,TP391.1
  2. 上下文相关的词汇复述研究,TP391.1
  3. 自适应火灾应急预案调整研究,X928.7
  4. 基于雷达影像活动断裂信息提取方法与示范应用研究,P542.3
  5. 搜索链接服务商著作权侵权问题研究,D923.41
  6. 面纸箱设计软件中Delphi动态链接库(DLL)的实现,TP311.52
  7. 深层链接引发的著作权侵权研究,D923.41
  8. 计算机病毒行为检测方法研究,TP309.5
  9. 面向教育新闻的主题爬虫设计与实现,TP391.3
  10. SMBSDD:一种改进的非结构化P2P网络搜索机制,TP393.02
  11. 学术主页信息抽取系统的研究,TP393.092
  12. 基于链接重要性的动态链接预测算法研究,TP393.03
  13. 影响好氧颗粒污泥形成与结构稳定的胞外多聚物关键组分研究,X703
  14. 基于VB及MATLAB混合编程的数字实时全息再现系统,O438.1
  15. 基于自然语言打印机人机交互方法研究与实现,TP11
  16. 搜索引擎侵权行为研究,D923
  17. 基于中文维基百科的语义相关度计算的研究与实现,TP391.1
  18. 基于话题的多文档文摘技术研究,TP391.1
  19. 基于丰富特征和多核学习的蛋白质关系抽取,Q51
  20. 基于HLA的地面作战信息系统的视景仿真技术研究,TP391.9
  21. 网络影视作品定时播放侵权案例研究,D923.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com