学位论文 > 优秀研究生学位论文题录展示

基于内容分析的专利挖掘技术研究

作　者: 曹菲菲
导　师: 朱靖波
学　校: 东北大学
专　业: 计算机软件与理论
关键词: 专利挖掘文本分类相似度计算决策技术
分类号: TP391.1
类　型: 硕士论文
年　份: 2008年
下　载: 165次
引　用: 0次
阅　读: 论文下载

内容摘要

近十几年来,专利挖掘的研究越来越被重视。早先,专利研究主要基于在专利数据库,近几年,专利研究转向基于自然语言处理的技术或者信息检索的技术。推动专利挖掘技术发展的主要因素：一方面统计机器学习的方法不断的发展和改进,为解决专利挖掘以及自然语料处理提供了强大的方法论武器；另一方面,自然语言处理的技术以及信息检索的技术的进步,促进了专利文本挖掘的发展。同时,专利挖掘的评测举办,为专利挖掘提供了技术交流的平台,促进了专利挖掘研究的进步,并为专利文本处理提供了发展的方向。本文通过研究专利文本的特点,对不同的训练语料做数据统计,分析专利挖掘任务中的难点问题。基于自然语言处理的专利挖掘技术,遇到几大问题：(1)专利挖掘是一个大规模的文本分析任务；(2)专利文本内容涉及到技术发展的各个领域,领域之间交叉现象严重,不利于文本分类；(3)专利文本在各个领域上数量分布不均衡,大量的类别下训练数据不充分；(4)专利文本的分类体系与传统分类体系不同,尤其是国际专利分类标准,具有超大规模的类别空间,多层次等特点；(5)专利的国际分类都是多标签标记,因此专利分类是多标签的分类问题。上述几个主要问题,决定了专利文本处理与传统的文本处理的不同。本文围绕专利挖掘任务中的问题,从不同的方面研究提高专利挖掘系统的性能。作者在前人的工作基础上,综合了多个领域的技术,提出了一些专利挖掘的处理技术。文本解决专利挖掘问题的主要技术：(1)本文采用基于自然处理的分类系统的框架,处理专利挖掘的任务。(2)本文研究了在大规模的数据的分类问题,采用信息检索中常用的检索技术——倒排索引文档——应用到分类模型中,提高分类模型的计算速度。(3)本文提出了类别归并的方法解决数据分布不均衡的问题。在国际专利分类系统下,大量的类别中数据样本很少,采用多种归并的方法将小类别聚合成大类别,解决分布不均衡的问题。(4)专利挖掘任务中,文本之间的相似度计算的是重要的研究环节。本文采用了多种相似度计算方法,在数据非同源的任务中,BM25的计算方法性能较好,并比较稳定。(5)本文提出了多种类别排序的决策方法。分类器给定样本之间的相似度的方法,需要通过某种转化的机制,映射成类别标记的排序。文本提出了带用类别信息的相似度加和的方法以及基于Log-linear模型的线性加和方法,对类别进行Rank,实验结果显示带用类别信息的相似度加和的方法以及基于Log-linear模型的线性加和方法性能较好。本文基于NTCIRT-7的专利挖掘评测任务的平台,在美国专利以及日本专利的英文翻译的数据上,实现专利挖掘的分类系统,并针对专利挖掘的主要问题和核心技术做了大量实验,并做了详细的数据分析。最后确定解决专利挖掘任务的最可信的系统。

全文目录

摘要  5-7
ABSTRACT  7-12
第一章绪论  12-18
  1.1 研究背景  12-13
  1.2 研究现状  13-15
  1.3 相关工作  15-16
  1.4 本文的研究内容  16-18
第二章专利挖掘任务及系统架构  18-30
  2.1 专利基本概念  18-20
    2.1.1 专利概念  18
    2.1.2 专利分类表  18-20
  2.2 专利挖掘任务  20-25
    2.2.1 专利挖掘任务描述  20-21
    2.2.2 专利挖掘任务数据  21-24
    2.2.3 评价方法  24-25
  2.3 专利挖掘中的问题分析  25-27
  2.4 专利挖掘系统架构  27-29
    2.4.1 问题提出  27-28
    2.4.2 系统架构  28-29
  2.5 小结  29-30
第三章分类技术  30-36
  3.1 文本分类定义  30-31
  3.2 特征选取方法  31-33
    3.2.1 文档频度  31-32
    3.2.2 类别频度  32
    3.2.3 信息增益  32
    3.2.4 CHI-统计  32-33
  3.3 特征权重的计算方法  33-34
    3.3.1 布尔权重  33
    3.3.2 词频权重  33
    3.3.3 tf×idf-权重  33-34
  3.4 分类器  34-35
    3.4.1 KNN分类器  34
    3.4.2 支持向量机  34-35
  3.5 小结  35-36
第四章专利文本的向量表示  36-50
  4.1 问题提出  36-37
  4.2 训练数据的存储  37-38
    4.2.1 倒排索引技术  37
    4.2.2 专利倒排存储  37-38
  4.3 专利文本向量表示  38-42
    4.3.1 数据的预处理  38-40
    4.3.2 特征选取的方法  40
    4.3.3 类别中心向量表示方法  40-42
  4.4 实验及分析  42-49
    4.4.1 基于同源数据的实验  43-44
    4.4.2 基于专利不同字段实验  44
    4.4.3 特征选取的方法实验  44-46
    4.4.4 基于USPTO的不同K值实验  46-47
    4.4.5 基于中心向量的方法  47
    4.4.6 类别归并的方法实验  47-49
  4.5 小结  49-50
第五章文本相似度计算方法  50-56
  5.1 向量余弦  50
  5.2 BM25  50-51
  5.3 SMART算法  51-52
  5.4 Pivoted Normalisation方法  52
  5.5 Log-linear  52-53
  5.6 实验及分析  53-55
    5.6.1 实验数据  53
    5.6.2 评价方法  53
    5.6.3 实验及分析  53-55
  5.7 小结  55-56
第六章基于多种RANKING的决策方法  56-64
  6.1 求异排序  56
  6.2 投票方法  56-57
  6.3 相似度加和  57
  6.4 相似度均值  57-58
  6.5 类别权重加和  58
  6.6 相似度位置权重加和  58
  6.7 实验及分析  58-63
    6.7.1 基于不同Ranking方法比较实验及分析  59
    6.7.2 基于Rank-SVM决策方法实验  59-62
    6.7.3 多个最优系统线性组合实验及分析  62-63
  6.8 小结  63-64
第七章总结及展望  64-66
参考文献  66-70
致谢  70-72
攻读硕士期间发表的论文  72

相似论文

多邮件自动文摘的关键技术研究,TP391.1
基于仿生模式识别的文本分类技术研究,TP391.1
互联网上旅游评论的情感分析及其有用性研究,TP391.1
基于相似度计算的编程题自动评判方法研究,TP312.1
基于数据分布特征的文本分类研究,TP391.1
Web环境下基于语义模式匹配的实体关系提取方法的研究,TP391.1
面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
基于树型条件随场的特定域事件提取方法研究,TP391.1
网络教育新闻文本分类系统的设计与实现,TP391.1
一种于经验数据的软件缺陷修复工作量预测模型研究,TP311.53
面向论坛信息文本的有效数据抽取研究,TP391.1
跨语言文本分类的研究,TP391.1
基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
基于语义分析的文本挖掘研究,TP391.1
面向概念查询的生物医学多文档摘要技术研究,TP391.1
低等级沥青路面综合养护车功能配置优化研究,U418.3
网络舆情分析关键技术研究与实现,TP393.09
基于概率的潜在语义分析模型在搜索引擎商业文本分类系统中的应用研究,TP391.1
基于关联技术的中文文本分类研究,TP391.1
基于本体和SWRL推理的知识检索方法研究,TP391.3
软件缺陷自动分派研究,TP311.52