学位论文 > 优秀研究生学位论文题录展示

学术主页信息抽取系统的研究

作 者: 李毅
导 师: 袁平鹏
学 校: 华中科技大学
专 业: 计算机系统结构
关键词: 信息抽取 自然语言处理 机器学习 半结构化信息
分类号: TP393.092
类 型: 硕士论文
年 份: 2011年
下 载: 18次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着互联网的快速发展,海量的数据以网页的形式发布到互联网上。传统的网页是面向用户而设计的,人们可以通过浏览器可视化的阅读信息。然而对于机器来说,这些信息是难以理解的,不仅仅是因为其使用自然语言,也因为网页的表达形式具有随意性。网页信息抽取技术是一种对网页进行深度分析的技术,其主要目的是自动的从非结构化的文档中抽取出结构化的信息。由于网页主要使用自然文本描述,因此同样面临着同文本信息抽取相似的问题与挑战。LineX是一个学术主页抽取系统,系统能够自动化的发现学术个人主页并从学术主页上抽取出作者的个人信息和每年发表文章的信息。抽取结果经过进一步分析被集成到文献检索系统中。由于作者主页在风格和内容上都存在差异,因此基于规则的抽取方法往往无法取得很好的效果。LineX的核心抽取算法基于机器学习方法,包括支持向量机模型和条件随机场模型,其中支持向量机主要用来对信息进行分类,而条件随机场则用来对信息进行字段分割提取。系统首先利用HTML标签的语义特征将页面分割成文本单元。然后对文本单元进行分类和字段提取,之后进行裁剪和规范化映射。在抽取过程中,系统充分利用利用了网页所提供的额外信息,包括标题,DOM树,标签分隔等。此外针对机器学习算法在一些情况下的盲点,使用了启发式规则来进行辅助,提高了整体的抽取效果。经过对互联网的数据进行随机抽样和测试,结果表明系统对页面的变化具有较强的适应能力,在各项信息的抽取准确率上都达到的较高的水平。实验同时说明词典特征和HTML特征对最终的识别率起到了较大的贡献。

全文目录


摘要  4-5
Abstract  5-8
1 绪论  8-17
  1.1 课题的研究意义  8-9
  1.2 国内外研究现状  9-15
  1.3 课题背景和研究内容  15-16
  1.4 论文的组织  16-17
2 LineX 学术主页信息抽取系统的设计  17-23
  2.1 设计思想  17-19
  2.2 算法设计  19-21
  2.3 系统的工作流程  21-22
  2.4 本章小结  22-23
3 LineX 学术主页信息抽取系统的核心技术  23-33
  3.1 网页文本的内聚分割  23-25
  3.2 基于支持向量机的文本分类  25-28
  3.3 基于条件随机场的字段提取  28-30
  3.4 字符串模糊匹配  30-32
  3.5 本章小结  32-33
4 LineX 学术主页信息抽取系统的实现  33-44
  4.1 主页发现和站点爬虫  33-36
  4.2 Web 接口与网页的解析  36-37
  4.3 元信息的识别与提取  37-42
  4.4 冗余信息消除与语义数据的集成  42-43
  4.5 本章小结  43-44
5 系统测试与分析  44-53
  5.1 测试集建立  44-45
  5.2 测试方法和测试环境  45-46
  5.3 功能测试  46-48
  5.4 性能测试  48-51
  5.5 讨论  51
  5.6 本章小结  51-53
6 总结及未来工作  53-55
致谢  55-57
参考文献  57-59

相似论文

  1. 领域实体属性及事件抽取技术研究,TP391.1
  2. 词义消歧语料库自动获取方法研究,TP391.1
  3. 时间表达式识别与归一化研究,TP391.1
  4. 基于数据分布特征的文本分类研究,TP391.1
  5. 网页属性抽取的方法研究,TP391.1
  6. 基于条件随机场的中文分词技术的研究与实现,TP391.1
  7. 英文文本中命名实体识别及关系抽取技术研究,TP391.1
  8. 领域知识指导的半监督学习和主动学习倾向性分类研究,TP181
  9. Android恶意软件静态检测方案的研究,TP309
  10. 基于学习的逆向运动学人体运动合成,TP391.41
  11. 基于内容的网页恶意代码检测的研究与实现,TP393.092
  12. 主题搜索引擎关键技术研究,TP391.3
  13. 社会化网络中的推荐算法及其应用,TP391.3
  14. 数据挖掘在邮件反垃圾系统中的应用,TP393.098
  15. 基于自学习的社会关系抽取的研究,TP391.1
  16. 一种基于动态学习框架的全自动网页结构化数据抽取方法,TP393.092
  17. 基于统计与图模型的若干机器学习算法及其应用,TP181
  18. P2P流量识别方法研究,TP393.06
  19. 基于自然语言打印机人机交互方法研究与实现,TP11
  20. 基于粗糙集和SVM的国防生综合素质测评方法研究,E075

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com