学位论文 > 优秀研究生学位论文题录展示

基于概率主题模型的游记文本知识挖掘

作 者: 郝强
导 师: 庞彦伟
学 校: 天津大学
专 业: 信号与信息处理
关键词: 概率主题模型 知识挖掘 旅行规划 游记 用户生成内容
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 91次
引 用: 0次
阅 读: 论文下载
 

内容摘要


网络技术的发展促使人们热衷于在互联网上分享旅行经历,游记文本是一种主要形式。游记中蕴含着地点代表性知识(景观、风格、特色活动等),对旅行规划有很大参考价值。但由于游记中噪声多、视角多、缺乏目的地推荐和视觉信息等局限,导致这些知识难以靠人工方式获得。本文研究如何从游记文本中自动挖掘出这些知识并加以利用,为此提出了一种新的概率主题模型——地点-主题(LT)模型,用于从游记中挖掘两种主题,即刻画地点特色的局部主题和表示游记中常见语义的全局主题,并用局部主题表示各地点,以把握地点代表性知识和地点间相似度。基于该模型,我们结合旅行规划的情境实现了三种应用:(1)目的地推荐——向用户推荐与给定目的地相似、或是与给定旅行意图相关的目的地;(2)目的地概述——利用标签和相关游记摘录概括给定目的地的特色;(3)游记可视化——提取给定游记的重要内容并搭配相关图片。基于中英文两个游记数据集(分别包含9.4万和10万篇游记),运用客观量化和问卷调查等实验方法进行了实验和评估,结果验证了所提出方法的有效性。

全文目录


摘要  3-4
ABSTRACT  4-7
第一章引言  7-13
  1.1 研究背景  7-8
  1.2 研究重点和难点  8-10
  1.3 研究方法概述  10-12
  1.4 论文结构  12-13
第二章相关工作及预备知识  13-17
  2.1 相关工作  13-14
  2.2 预备知识  14-17
    2.2.1 词和词语  14-15
    2.2.2 文档的向量表示  15-17
第三章 游记建模:地点-主题模型  17-26
  3.1 基本思想  17-19
  3.2 游记文档的产生过程  19-22
  3.3 参数估计  22
  3.4 模型的直接应用  22-26
    3.4.1 地点表示及相似度度量  23
    3.4.2 词语表示及相似度度量  23-24
    3.4.3 推测新文档参数  24-26
第四章 基于地点-主题模型的应用  26-33
  4.1 目的地推荐  26-27
    4.1.1 相似准则下的目的地推荐  27
    4.1.2 相关准则下的目的地推荐  27
  4.2 目的地概述  27-29
    4.2.1 代表性标签生成  28
    4.2.2 相关游记摘录生成  28-29
  4.3 游记可视化  29-33
    4.3.1 游记重要内容提取  30-31
    4.3.2 图片选择  31-33
第五章 实验结果与分析  33-49
  5.1 实验数据集  33
  5.2 游记建模实验  33-36
  5.3 目的地推荐实验  36-40
    5.3.1 相似准则下的目的地推荐  36-37
    5.3.2 相关准则下的目的地推荐  37-40
  5.4 目的地概述实验  40-46
    5.4.1 代表性标签生成  40-42
    5.4.2 相关游记摘录生成  42-46
  5.5 游记可视化实验  46-49
第六章结论及展望  49-51
  6.1 论文的主要工作  49
  6.2 未来工作展望  49-51
参考文献  51-54
发表论文和参加科研情况说明  54-55
致谢  55

相似论文

  1. 中学古代写景游记散文教学研究,G633.3
  2. 晚明士人旅游活动研究,F592.9
  3. 人体运动序列数据的语义化分析方法研究,TP391.1
  4. 基于可拓分类知识挖掘的复杂产品性能配置设计,TB472
  5. 机械结构对称破缺的概念、作用及其应用,TH122
  6. 生态批评视角下的史蒂文森作品解读,I561
  7. 《马可·波罗游记》与元史研究,K247
  8. 周必大日记文研究,I207.6
  9. 《格列佛游记》的女性主义解读,I561
  10. 《徐霞客游记》经济史料研究,F129
  11. 《徐霞客游记》双音形容词研究,H134
  12. 论华盛顿·欧文游记作品中的逃遁主题,I712
  13. 汉英翻译中语篇连贯的内外因素,H315.9
  14. 《老残游记》程度副词研究,H146
  15. 改写理论对文学翻译的解释力,I046
  16. 从《文化苦旅》看文化游记的修辞视野,I207.6
  17. 《观光纪游》、《中国游记》与《我的留学记》中的中国情,I313.076
  18. 译者主体性的阐释学研究,H059
  19. 单士厘的世界之旅及其思想认识研究(1898-1912),K251
  20. 张德彝研究,K256

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com