- 1、本文档共14页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
EasyTravel 项目报告 小组成员:邹俊锋,周政,白华,邓国(组长) 系统概述 EasyTravel面向广大旅游爱好者,力图在web世界里帮助用户提取到与用户输入相关的信息,并进行相关处理,最后以友好的接口返回给用户。系统定期从若干个比较知名的旅游网站抓取页面存入到后台数据库,并对原始页面进行词法分析及统计分析等相关处理,并将处理得到的结果存入到数据库,这个过程将会以固定的时间间隔进行,以保证系统数据与web的内容保持一致。 系统接受用户输入的旅游景点地址名称,通过查询后台数据库,比较准确地向用户提供与景点相关的超链接,这些超链接的内容包括景点介绍、天气信息、游记等、风俗习惯等。 系统功能 网页抓取 切词处理 提取景点介绍信息 提取路线信息 提取游记 天气信息 检索 实现方法--网页抓取 修改阎鸿飞的TSE,增加数据库功能,html解析功能。 利用Tse抓取的网页存放在数据库表page中。 实现方法--数据库 数据库模型: 数据库采用MYSQL,API采用MYSQL++ 实现方法--切词 利用tsegtag进行切词。 修改了tsegtag源程序,将切词过程转化为一个函数实现: Int tsegtag( char* dict,string content,vector_string_t result) 将待切分数据content进行处理之后保存入result,一个条目一个词语,利用自定义的景点词典控制只取景点 自定义词典: 词典选取了北京,江苏,云南几个旅游比较发达的地区,每一个景点为一个词条 使用自定义词典的目的是为了保证页面中的景点能够被正确的切分出来,比如,在没有使用自定义词典的时候,王府井被切分的结果为:“王府” \ “井” 而使用自定义词典之后就是 “王府井”。这在发现一些名字比较怪的景点名称的时候非常有用。 实现方法--提取景点介绍信息 采用预处理的方法对数据进行处理,确定景点介绍和页面的对应关系。 观察很多景点介绍网页,发现关于景点介绍的文字在页面中出现的地方标签p和br出现频率都比较高,所以可以通过页面的html标签分析,挖掘出一个页面中对于景点介绍最重要的信息,将这些信息存入数据库中,提供给切词程序处理,建立景点词汇和景点介绍页面的对应关系。反映在数据库中表现在表 scenery 和 scenery_to_page 实现方法--提取路线信息 分析旅游站点提供的路线信息,发现旅游公司或者旅游爱好者公布旅游路线时采用的格式都比较相近,即一条路线中景点出现的位置次序都比较相近,而且在一条路线中出现的景点,在地理位置上也比较相近,比如处于同一个市,同一个省等等,在交通方面的联系也比较紧密,所以通过对页面中的景点出现的位置的分析和按照以上要求制做的景点词典可以发掘出一个页面中的旅游路线来 。 比如: 昆明、大理、丽江 双飞双卧六日游 海南、北海、桂林 一飞一船一卧十日游 昆明、大理、丽江、泸沽湖 双飞双卧八日游 武夷山、九曲溪漂流、厦门、鼓浪屿 双飞五日游 提取游记-- 发掘游记:采用分类器的方法挖掘游记。开始想法是自己实现一个分类器,利用向量空间模型分析一些游记,发现这些游记的共同点,比如共同词汇。然后再利用这个分类器来分析别的网页,如果误差在容许的范围之内就确定该页面为一篇游记。 实现方法--检索 因为页面被抓取回来之后,经过一系列的处理之后,已经存入到数据库中了,所以在检索的时候只要从数据库中根据用户输入的关键字提取出景点信息。基本过程是这样的:首先对用户的输入进行切词,使用景点词典进行控制,然后在数据库中检索景点信息 项目完成情况 指定站点抓取,将抓取数据存入数据库 对数据库中的数据进行切词处理,并将切词记录存入数据库中,可以使用景点词典对切词结果进行控制,过虑到非景点名词。 用户输入关键字,能从数据库中检索出与该关键字相关的景点页面。 试验结果: 经过测试之后,检索出来的结果不理想。可能第二部分出现了些问题。还需要进一步修改。 问题 在运行Tse测试程序的时候,为什么在我的机器上能够正常运行,而在实验室的机器上却不能正常运行,在对数据库进行插入操作的时候会抛出异常,而且消息显示是乱码,不知道怎么调试。 * br p align=centerimg src=/images/pic/img522200492117279big.jpg width=400 height=300 border=0 align=absbottom/p p从丽江古城往北,沿中济海东侧的大路行程约四公里,便见两边山脚下一片密集的村落,这就是被称为清泉之乡的束河。当年
您可能关注的文档
最近下载
- “全媒体运营项目”—第二届职业技能大赛甘肃省选拔赛—竞赛任务书(样卷).pdf VIP
- T-D-T 1069-2022 国土空间生态保护修复工程验收规范(正式版).docx VIP
- 2024年食品安全生产经营大比武理论考试题库-下(多选、判断题汇总).docx VIP
- 高中校长职级制考试试题.docx VIP
- 《周易》 与人生智慧.ppt VIP
- BL8810中文规格书|USB2.0高速智能读卡器中文方案|BL8810新版中文设计方案.pdf VIP
- 临建房屋验收表.docx VIP
- 2024年食品安全生产经营大比武理论考试题库-上(单选题汇总).pdf VIP
- 2024年四川省成都市青白江区小升初数学试卷.docx VIP
- 免疫治疗在食管癌新辅助及辅助治疗中的临床进展.pptx VIP
文档评论(0)