- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于興趣度的移动旅行路线挖掘系统实现
重点实验室开放项目结题报告
(第十五期)
基于兴趣度的移动旅行路线挖掘
系统实现
项目编号:ZD201415133
单 位:交通信息与控制实验室
指导教师: 乔少杰
项目成员 李向波
赵 扬
孙 策
娄 旸
实验时间:2014年 11月—2015年 6月
项目名称及主要研究内容
1.1项目名称:基于兴趣度的移动旅行路线挖掘
1.2主要研究内容:
本项目将相关旅游网站、论坛等,利用数据挖掘算法和自然语言处理技术提取相关旅行路线因素,设计出符合用户兴趣度需求的旅游线路安排推荐。主要研究内容包括:
(1)利用网络爬虫技术及改进后的FP-Tree算法,对旅游点进行格式化信息爬取,并利用数据库进行存储利用。
(2)利用Java程序设计语言编写相应Android客户端,实现用户需求,并传达信息给服务器。
(3)服务器搭建,旨在完成用户实时请求需要,实现对Android客户端的数据支持。
参加学生情况及表现
序号
姓名
学号
班级
承担主要工作
教师评价
1
李向波物联网1
FPTree算法的实现
2
赵扬物联网1
Java服务器的建立
3
孙策物联网1
网络爬虫的实现
4
娄旸物联网1
Android客户端
项目成果
设计实现了基于移动互联网旅游路线推荐,本文设计并实现了一种基于频繁模式和兴趣度的旅游路线推荐系统。介绍了使用改进 FP-tree算法进行频繁模式挖掘的步骤,提出了对频繁模式进行排序的简易方法,设计了提高推荐准确性的路线兴趣度计算方法。此外,提供个性化路线筛选功能极大地改善了用户的个性化体验效果。
学生撰写部分:
李向波的个人总结
1.在项目中的分工
本人在项目中主要负责基于约束树的FP-tree改进算法的实现,通过该算法,对从网页上爬取的路线数据进行挖掘,从而得出最频繁的旅游路线。
2.查阅资料、方案确定等准备工作
通过请教指导老师和查阅相关资料,确定本项目采用改进的FP-tree算法。最初对FP-tree算法并不是很理解,通过查阅图书馆相关资料,并参考网上技术论坛及博客相关文章,深入理解FP-tree算法的思想与原理。但是传统的FP-tree算法并不适用于 旅游路线数据的挖掘。因为传统FP-tree算法所挖掘的数据之间并不存在先后顺序的约束,所以只需挖掘出频繁项集即可。而如果采用传统FP-tree算法,所挖掘出的频繁路线中景点顺序会被打乱,二者并不符合实际情况。所以我们在传统FP-tree算法的基础上进行改进,通过构造邻接矩阵,计算出最符合实际情况的旅游路线,从而最终完成旅游路线的挖掘。
3.项目实施过程描述
具体的实现步骤如下:
首先利用FP-tree算法对原始数据进行频繁项挖掘,得到无顺序的频繁路线,同时构造邻接矩阵供以后排序使用;然后利用邻接矩阵通过对上一步的路线结果进行排序,并选出置信度最高的路线作为最终路线;最后将挖掘的路线数据保存到MySQL数据库中,作为移动app的数据来源。
频繁路线挖掘包括频繁模式挖掘和频繁路线生成两个步骤。
(1)频繁模式的挖掘:
首先构造FP-tree。第一步,第一次扫描数据库,对所有路线包含的景点进行计数并降序排列,并删除频数小于最小支持度的景点,最终得到频繁1项集;第二步,第二次扫描数据库,对于每条路线的景点按照频繁1项集进行排序,并提出频繁1项集中不包含的景点;第三步,根据第一步得到的频繁1项集构造Header表,并将第二步得到的结果插入到FP-tree树中。至此FP-tree树构造完成。
然后通过基于约束树的递归挖掘算法对FP-tree进行频繁模式的挖掘,得到无顺序的路线挖掘结果。
(2)频繁路线生成:
由于得到的路线结果是无顺序的,所以并没有实际应用价值,所以要对每条路线所包含的景点重新排序,得到最符合实际的路线结果。
频繁路线生成包括构造邻接矩阵和对频繁模式进行排序两个步骤.
构造邻接矩阵:
通过第一次扫描数据库得到邻接矩阵所包含的项,然后在第二次扫描数据库时,保存原始路线中景点A在景点B之前出现的数据,从而完成邻接矩阵的构造。
对频繁模式进行排序:
通过构造二叉树,将步骤一得到的频繁模式中的每条路线中的景点进行排列组合,并利用邻接矩阵计算每种排序的置信度,从中选出置信度最高的一条路线作为最终结果。至此频繁路线生成完成。、
最后将挖掘结果保存到MySQL数据库中,并根据支持度和置信度对挖掘结果进行综合排序,对原始数据的挖掘工作便完成了。
4.最终成果
完成旅游路线挖掘系统改进
文档评论(0)