学位论文 > 优秀研究生学位论文题录展示
基于概率主题模型的游记文本知识挖掘
作 者: 郝强
导 师: 庞彦伟
学 校: 天津大学
专 业: 信号与信息处理
关键词: 概率主题模型 知识挖掘 旅行规划 游记 用户生成内容
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 91次
引 用: 0次
阅 读: 论文下载
内容摘要
网络技术的发展促使人们热衷于在互联网上分享旅行经历,游记文本是一种主要形式。游记中蕴含着地点代表性知识(景观、风格、特色活动等),对旅行规划有很大参考价值。但由于游记中噪声多、视角多、缺乏目的地推荐和视觉信息等局限,导致这些知识难以靠人工方式获得。本文研究如何从游记文本中自动挖掘出这些知识并加以利用,为此提出了一种新的概率主题模型——地点-主题(LT)模型,用于从游记中挖掘两种主题,即刻画地点特色的局部主题和表示游记中常见语义的全局主题,并用局部主题表示各地点,以把握地点代表性知识和地点间相似度。基于该模型,我们结合旅行规划的情境实现了三种应用:(1)目的地推荐——向用户推荐与给定目的地相似、或是与给定旅行意图相关的目的地;(2)目的地概述——利用标签和相关游记摘录概括给定目的地的特色;(3)游记可视化——提取给定游记的重要内容并搭配相关图片。基于中英文两个游记数据集(分别包含9.4万和10万篇游记),运用客观量化和问卷调查等实验方法进行了实验和评估,结果验证了所提出方法的有效性。
|
全文目录
摘要 3-4 ABSTRACT 4-7 第一章引言 7-13 1.1 研究背景 7-8 1.2 研究重点和难点 8-10 1.3 研究方法概述 10-12 1.4 论文结构 12-13 第二章相关工作及预备知识 13-17 2.1 相关工作 13-14 2.2 预备知识 14-17 2.2.1 词和词语 14-15 2.2.2 文档的向量表示 15-17 第三章 游记建模:地点-主题模型 17-26 3.1 基本思想 17-19 3.2 游记文档的产生过程 19-22 3.3 参数估计 22 3.4 模型的直接应用 22-26 3.4.1 地点表示及相似度度量 23 3.4.2 词语表示及相似度度量 23-24 3.4.3 推测新文档参数 24-26 第四章 基于地点-主题模型的应用 26-33 4.1 目的地推荐 26-27 4.1.1 相似准则下的目的地推荐 27 4.1.2 相关准则下的目的地推荐 27 4.2 目的地概述 27-29 4.2.1 代表性标签生成 28 4.2.2 相关游记摘录生成 28-29 4.3 游记可视化 29-33 4.3.1 游记重要内容提取 30-31 4.3.2 图片选择 31-33 第五章 实验结果与分析 33-49 5.1 实验数据集 33 5.2 游记建模实验 33-36 5.3 目的地推荐实验 36-40 5.3.1 相似准则下的目的地推荐 36-37 5.3.2 相关准则下的目的地推荐 37-40 5.4 目的地概述实验 40-46 5.4.1 代表性标签生成 40-42 5.4.2 相关游记摘录生成 42-46 5.5 游记可视化实验 46-49 第六章结论及展望 49-51 6.1 论文的主要工作 49 6.2 未来工作展望 49-51 参考文献 51-54 发表论文和参加科研情况说明 54-55 致谢 55
|
相似论文
- 中学古代写景游记散文教学研究,G633.3
- 晚明士人旅游活动研究,F592.9
- 人体运动序列数据的语义化分析方法研究,TP391.1
- 基于可拓分类知识挖掘的复杂产品性能配置设计,TB472
- 机械结构对称破缺的概念、作用及其应用,TH122
- 生态批评视角下的史蒂文森作品解读,I561
- 《马可·波罗游记》与元史研究,K247
- 周必大日记文研究,I207.6
- 《格列佛游记》的女性主义解读,I561
- 《徐霞客游记》经济史料研究,F129
- 《徐霞客游记》双音形容词研究,H134
- 论华盛顿·欧文游记作品中的逃遁主题,I712
- 汉英翻译中语篇连贯的内外因素,H315.9
- 《老残游记》程度副词研究,H146
- 改写理论对文学翻译的解释力,I046
- 从《文化苦旅》看文化游记的修辞视野,I207.6
- 《观光纪游》、《中国游记》与《我的留学记》中的中国情,I313.076
- 译者主体性的阐释学研究,H059
- 单士厘的世界之旅及其思想认识研究(1898-1912),K251
- 张德彝研究,K256
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|