学位论文 > 优秀研究生学位论文题录展示
面向领域自然语言的文本自动分类及其在产品设计中的应用
作 者: 杨鹏
导 师: 赵克
学 校: 西安电子科技大学
专 业: 机械制造及其自动化
关键词: 领域自然语言理解 文本自动分类 概念 词频特征 最大熵
分类号: TB472
类 型: 硕士论文
年 份: 2007年
下 载: 87次
引 用: 0次
阅 读: 论文下载
内容摘要
目前计算机辅助设计技术对产品设计的早期阶段支持并不充分,本文提到的系统将自然语言理解应用于产品设计中,使用自然语言作为产品设计的人机界面,自然语言理解系统对以自然语言形式表达的用户需求进行理解和分析,将最终的分析结果转化成产品设计要求,为后续设计提供支持。在面向领域的自然语言处理系统的前端部分,设置一个面向领域的文本自动分类模块,则后续模块在一个狭义的语义环境中进行分析,意义是显而易见的。首先,根据文本自动分类的功能要求,了解相关的现有的模型和算法。在充分比较它们优点及其存在的不足之后,结合各方面因素,提出了一种串联结构的文本自动分类模型。串联结构的文本分类模型又是由三个基于不同机理的相对独立的文本分类器组成,它们分别是基于概念、基于词频、基于最大熵模型的文本分类器,三种分类器的串联使用,提高了系统的分析效果。它们之间又有一定的关联,基于最大熵模型的分类器使用了基于词谱分类器的分析结果,这样则提高了信息的使用率。其次,结合具体的测试领域,将系统应用在机械产品设计的用户需求分析中。并进一步说明面向领域的文本自动分类模块如何融入系统。最后,从理论和工程角度,阐述了面向领域的文本自动分类模块的优点,也指出了一些不足之处,以及在研究中遇到的困难。
|
全文目录
摘要 4-5 ABSTRACT 5-8 第一章 绪论 8-16 1.1 引言 8-9 1.2 现代汉语的研究 9-11 1.2.1 汉语的规范 9-10 1.2.2 现代汉语的特点 10-11 1.3 自然语言理解概述 11-14 1.3.1 什么是自然语言理解 11-12 1.3.2 现代汉语的研究现状概述 12-13 1.3.3 传统计算语言学 13 1.3.4 HNC理论 13 1.3.5 基于内涵模型论的语义分析 13-14 1.4 文本自动分类现状 14 1.5 本文的主要工作 14-16 第二章 文本自动分类概述 16-28 2.1 文本分类的概念 16-19 2.1.1 文本分类方法的两个类型 16-17 2.1.2 有指导的文本分类 17 2.1.3 分类模式 17-18 2.1.4 文本分类的应用领域 18 2.1.5 分类的一般过程 18-19 2.2 基于向量的文本分类算法 19-24 2.2.1 “基于向量分类法”的文本的表示 20 2.2.2 基于词频特征项的权重 20-21 2.2.3 特征项的筛选 21 2.2.4 其它相关技术——数据平滑技术 21-22 2.2.5 常见“基于向量的文本分类算法”简介 22-24 2.3 自然语言处理中的“概念” 24-26 2.3.1 面向领域的语义分析 24-25 2.3.2 关于“概念”的相关概念 25-26 2.3.3 “概念”在文本分类中的应用 26 2.4 小结 26-28 第三章 “领域确定”模块词频特征的提取 28-36 3.1 “领域确定”模块综述 28-30 3.1.1 “领域确定”的意义 28 3.1.2 “领域确定”子模块的处理对象 28-29 3.1.3 “领域确定”模块不能确切给出文档所属领域的原因 29-30 3.2 “领域确定”模块的结构 30-31 3.2.1 “领域确定”模块的两个方面 30 3.2.2 领域特征 30-31 3.3 提取领域词频特征 31-34 3.3.1 基于词频的分类器的现状 31 3.3.2 基于词频的领域特征的提取 31-32 3.3.3 提取领域特征的步骤 32-33 3.3.4 对表现领域特征的词汇表进行排序并降维 33-34 3.4 领域特征词汇表 34-35 3.4.1 表现领域特征的词汇表的形式 34 3.4.2 关于“Noise”的思考 34-35 3.5 小结 35-36 第四章 “领域确定”模块的设计 36-52 4.1 “领域确定”模块简介 36 4.2 一种基于“概念”文本分类算法 36-41 4.2.1 基于“概念”的文本分类算法的设计思想 37 4.2.2 基于“概念”的文本分类算法在“领域确定”模块中的应用 37-40 4.2.3 关于“基于概念文本分类算法”的思考 40-41 4.3 一种基于词频的朴素的文本分类算法 41-44 4.3.1 待测文本的词频特征提取 41-42 4.3.2 基于词频的朴素的文本分类算法 42-43 4.3.2.1 简单的加权平均分类法 42 4.3.2.2 简单向量相似度分类法 42-43 4.3.3 基于词频的朴素的文本分类算法在“领域确定”模块中的应用 43-44 4.4 最大熵数学模型 44-49 4.4.1 一个简单例子引出“最大熵”模型 44-45 4.4.2 熵和信息熵 45 4.4.3 最大熵通用数学模型 45-47 4.4.4 IIS算法 47 4.4.5 其它相关算法——特征引入算法 47-49 4.5 最大熵数学模型在文本分类中的应用 49-50 4.5.1 最优后验概率的特征的选取 49 4.5.2 特征函数的确定 49-50 4.5.3 关于“最大熵模型在文本分类中的应用”的思考 50 4.6 小结 50-52 第五章 文档自动分类在机械产品设计中的应用 52-62 5.1 机械产品设计中的领域汉语理解 52 5.2 领域汉语理解中智能分词和文本分类模型的建立 52-54 5.3 领域确定模块的具体实现 54-59 5.3.1 实际的解决方案 55-56 5.3.2 智能分词工具 56-57 5.3.3 使用到的模板(数据结构) 57-58 5.3.4 部分领域的试探性统计结果 58-59 5.4 不同机理的分类器串联使用在“工程”上的“意义” 59-60 5.5 小结 60-62 第六章 总结和展望 62-64 参考文献 64-67 研究成果 67
|
相似论文
- 基于多示例学习的用户关注概念区域发现,TP391.41
- 领域实体属性及事件抽取技术研究,TP391.1
- 人物言论抽取与跟踪技术研究,TP391.1
- 基于逼真度的仿真系统评估研究,TP391.9
- 多样性密度学习算法的研究与应用,TP181
- 从《道德经》英译看概念整合理论对汉语典籍英译的解释力,H315.9
- 基于新课程改革的高中地理概念教学策略研究,G633.55
- 初高中化学概念教学衔接的分析及策略研究,G633.8
- 高中生物学课堂教学中概念图的应用研究,G633.91
- 文山官房钨矿区水文地质条件及矿坑涌水量预测,TD742
- 自传体记忆与自我概念的关系研究,B842.3
- 青少年自我概念、应对方式与心理压弹力关系的研究,B844.2
- 大学生品牌依恋问卷的编制及其与自我概念关系的研究,B841
- 大学新生内隐、外显自我概念及其与应对方式的关系,B844.2
- “非常规”实验提高初中物理概念教学有效性的行动研究,G633.7
- 概念隐喻的认识论意义,B842.1
- 艾米莉·狄金森诗歌的认知隐喻研究,I712.072
- 概念隐喻在高中英语词汇教学中的实证性研究,G633.41
- 不完备信息系统的完备化及其上的知识获取,TP311.13
- 小学生课堂参与、自我概念与学业成绩的关系研究,G622.4
- 初三学生简单电路错误概念现状调查研究,G634.7
中图分类: > 工业技术 > 一般工业技术 > 工业通用技术与设备 > 工业设计 > 产品设计
© 2012 www.xueweilunwen.com
|