基于MapReduce技术的网页的空间索引建立项目报告.ppt

下载文档 降价啦

4
0
约1.6千字
约 18页
2017-06-06 发布于江西
举报
版权申诉
保障服务

基于MapReduce技术的网页的空间索引建立项目报告.ppt

1、本文档共18页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于MapReduce技术的网页的空间索引建立项目报告

基于MapReduce技术的网页的空间索引建立 ——项目报告 Superstore小组蔡啸喻立久陈慧挺背景知识我们为什么要做这个项目目前的搜索引擎忽略了网页的地理范围大量网页信息针对特定地理区域的群体实际应用中的价值项目目标实现一个地名的空间索引基于空间位置的查找简洁高效解决方案主要的流程预处理中文切词, MR 抓取所有的地名计算外包矩形或者外包矩形组（假如地名节点之间存在层次关系，那么就只考虑叶结点）索引的结构层次结构面临的问题数据源能否建立数据库索引的建立（参考R*树的建立）网页预处理网页预处理去除非中文字符。消除噪声形成中文句子。以空格隔开。网页预处理原始网页 html headlink rel=stylesheet type=text/css href=/bbstyle.css / style type=text/css body {background-attachment: fixed; text-align: center;} td {text-align: left;} /style /head body 【在 gabriel (无聊！欢迎来找我玩) 的大作中提到: 】 span class=col36: 四个女生 /spanspan class=col36: 总价吃了多少忘记了 /spanspan class=col36: 打了7.8折之后240 /span /body /html 网页预处理预处理之后：在无聊欢迎来找我玩的大作中提到四个女生总价吃了多少忘记了打了折之后网页预处理中文切词正向完全匹配。词库——中文地名库。 Lucene 正向全切分分词器：org.mira.lucene.analysis.IK_CAnalyzer 地名解析（处理流程）地名处理抓取地名的流程输入:一组单词数组然后使用方法Gazetter.contains(string)来判断它是否是一个地名，若为地名，则返回地名所对应的多边形，若不是，则返回一个空串输出：一组地名数组，每一个条目都包括一个地名，以及与地名相关联的一个外包矩形 ? 计算描述区域的流程输入：一组地名数组，每一个条目都包括一个地名，以及与地名相关联的一个外包矩形处理流程：判断各个矩形之间是否存在有包含关系，如果存在，则舍去较大的矩形，只包含较小的矩形。输出：一组外包矩形索引建立部分索引建立部分索引建立部分索引建立部分索引建立部分索引建立部分总结对模型做了一定程度地简化各个部分都可以采取MR进行分布式处理最后建立的索引检索空间数据的效率较高，但仍然有待改进 * * 优化搜索结果，数据挖掘首先我们看传统的索引的建立是根据数据大小比较排序而成空间索引的建立是根据空间的包含关系确立的建好的索引树，假定是这样的那么之后我们就要考虑如用map/reduce函数来实现由于reduce只能归并由key/value组成的对值，我们必须设计一种方法把我们最后建立的关于空间关系的树映射表达为一种平面的方式如上就是我们将要使用方法的简单模型我们预先根据行政区划，先建立一棵关于空间关系的树并且为每个结点赋一个标号值然后我们对于每个网页即id，算出这个id的对应外包矩形，再在这颗树中找到相对应的结点，并获取那个结点的标号值根据每个id获得的标号值对其进行归并 * *

您可能关注的文档

文档评论（0）

zhuliyan1314 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

基于MapReduce技术的网页的空间索引建立项目报告.ppt