学位论文 > 优秀研究生学位论文题录展示
基于PDF的文献管理软件的开发
作 者: 艾华
导 师: 孟繁疆
学 校: 东北农业大学
专 业: 计算机应用技术
关键词: 可移植文档格式 文献数据库 文献管理 信息抽取
分类号: TP311.52
类 型: 硕士论文
年 份: 2010年
下 载: 147次
引 用: 1次
阅 读: 论文下载
内容摘要
从文献的查找、保存到文献的整理、引用和撰写,文献的管理工作一直是贯穿学术研究的重要环节。最初的文献检索和管理采用的是纯粹的人工方式,不仅繁琐、枯燥而且效率很低,常常需要花费大量的时间和精力。随后,出现了许多非专业化工具来管理、阅读电子文献,如资源管理器或Excel表管理,效率较高。计算机的普及则使得文献管理逐步信息化、自动化,各类专业化工具纷纷出现,提高了用户的工作效率。在当今数字化的时代,伴随着计算机网络技术的迅猛发展和互联网络的广泛应用,基于PDF格式的学术论文和期刊文献数量剧增。PDF电子文献资源日益丰富,使得科研人员阅读的工作量越来越大。但是,国内外众多的文献管理软件中却没有专门基于PDF格式的工具,无法满足广大用户的实际需求。科技工作者如何高效搜集、科学管理、便捷应用众多PDF文件格式的电子文献就成为亟待解决的问题。本文建立了一个基于PDF的文献管理软件,能帮助科研工作者者有效利用信息资源,检索和管理个人文献,从而形成完全个性化的知识环境。首先根据PDF规范,通过对参考文献格式标准的确定以及文献题录信息的抽取,创建、管理、存储和输出个人用户的文献题录资料,从而实现对收集到的科研文献与资料按照不同的文献资料库分门别类进行管理,为广大的用户检索并管理文献提供了极大的便利,可以把原来枯燥乏味、耗时费力的文献管理工作变得轻松、便捷,具有重要的实践意义;而且,该软件的开发对于进一步实现PDF相关产品的开发和完善有着重要的研究意义及研究价值,具有广阔的应用前景。本文首先对软件开发的基础理论和相关技术进行了简要介绍,并说明PDF文献题录信息抽取的基本思路和体系结构,由此提出PDF文献题录信息自动抽取的方法。其次,详细阐述了PDF文献管理软件的设计与实现。最后,本文对课题所做的主要工作进行了总结。
|
全文目录
中文摘要 8-9 英文摘要 9-11 1 引言 11-15 1.1 课题的提出 11-12 1.2 研究的目的和意义 12 1.3 国内外研究现状与发展趋势 12-14 1.4 课题主要研究内容 14 1.5 本章小结 14-15 2 基础理论和相关技术 15-25 2.1 关于PDF 15-21 2.1.1 PDF 简介 15-16 2.1.2 PDF 的特点 16 2.1.3 PDF 文件分析 16-19 2.1.4 PDF 的解析流程 19-20 2.1.5 PDF 规范的介绍 20-21 2.2 文献数据库概述 21-22 2.3 从PDF 到TXT 的转换技术 22-23 2.4 信息抽取技术 23-24 2.5 本章小结 24-25 3 PDF 文献题录信息自动抽取 25-31 3.1 基本思路 25 3.2 体系结构 25-26 3.3 功能模块 26-30 3.3.1 抽取规则生成模块 26-27 3.3.2 预处理模块 27-28 3.3.3 题录信息抽取模块 28-30 3.4 本章小结 30-31 4 PDF 文献管理软件的总体设计 31-36 4.1 设计原则 31 4.2 设计目标 31-32 4.3 开发环境的选择 32-33 4.3.1 硬件环境 32 4.3.2 软件环境 32-33 4.4 采用的技术路线 33-34 4.5 功能设计 34-35 4.6 本章小结 35-36 5 软件详细设计及功能实现 36-47 5.1 主窗口的实现 36-37 5.2 导入功能模块 37-41 5.2.1 手工录入 38-39 5.2.2 批量导入 39-41 5.3 管理功能模块 41-43 5.3.1 文献信息组织管理 41 5.3.2 文献检索 41-43 5.4 导出功能模块 43-45 5.4.1 嵌入功能 43-44 5.4.2 文档生成 44-45 5.5 文献数据库管理模块 45-46 5.5.1 数据库的设计目标 45 5.5.2 建库工具 45-46 5.5.3 数据库连接的选择 46 5.6 本章小结 46-47 6 结论 47-49 6.1 研究工作总结 47 6.2 展望 47-49 致谢 49-50 参考文献 50-53 附录A PDF 中主要对象表 53-55 附录B PDF 文档的基本格式 55-57 附录C 软件实现的关键代码 57-59 攻读硕士学位期间发表的学术论文 59
|
相似论文
- 领域实体属性及事件抽取技术研究,TP391.1
- 时间表达式识别与归一化研究,TP391.1
- 网页属性抽取的方法研究,TP391.1
- 英文文本中命名实体识别及关系抽取技术研究,TP391.1
- 构件垂直搜索引擎的关键技术研究,TP391.3
- 面向教育新闻的主题爬虫设计与实现,TP391.3
- 基于GPU图像搜索中文本检索的关键技术研究,TP391.1
- 学术主页信息抽取系统的研究,TP393.092
- 主题搜索引擎关键技术研究,TP391.3
- 一种基于动态学习框架的全自动网页结构化数据抽取方法,TP393.092
- 基于自然语言打印机人机交互方法研究与实现,TP11
- 模板独立的网页信息抽取研究,TP393.092
- 面向互联网的多元信息获取技术研究,TP393.09
- 基于Web的医学文献数据库的设计与实现,TP311.13
- 网络舆情数据获取与话题分析技术研究,TP393.09
- 基于DOM的Web信息抽取系统设计与实现,TP393.09
- 一种基于前缀表达式的Web信息抽取方法的关键问题的实现,TP391.1
- 基于概念树的Web信息抽取技术研究,TP391.1
- 基于最大熵模型的中文实体关系自动抽取研究,TP391.1
- 基于搜索引擎的自动问答系统,TP391.3
- 基于互联网的个性化健康信息定制系统构建,TP311.52
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 软件工程 > 软件开发
© 2012 www.xueweilunwen.com
|