网站大量收购独家精品文档,联系QQ:2885784924

基于MapReduce技术的网页的空间索引建立 项目报告.ppt

基于MapReduce技术的网页的空间索引建立 项目报告.ppt

  1. 1、本文档共18页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于MapReduce技术的网页的空间索引建立 项目报告

基于MapReduce技术的网页的空间索引建立 ——项目报告 Superstore小组 蔡啸 喻立久 陈慧挺 背景知识 我们为什么要做这个项目 目前的搜索引擎忽略了网页的地理范围 大量网页信息针对特定地理区域的群体 实际应用中的价值 项目目标 实现一个地名的空间索引 基于空间位置的查找 简洁 高效 解决方案 主要的流程 预处理 中文切词, MR 抓取所有的地名 计算外包矩形或者外包矩形组(假如地名节点之间存在层次关系,那么就只考虑叶结点) 索引的结构 层次结构 面临的问题 数据源 能否建立数据库 索引的建立(参考R*树的建立) 网页预处理 网页预处理 去除非中文字符。 消除噪声 形成中文句子。以空格隔开。 网页预处理 原始网页 html headlink rel=stylesheet type=text/css href=/bbstyle.css / style type=text/css body {background-attachment: fixed; text-align: center;} td {text-align: left;} /style /head body 【 在 gabriel (无聊!欢迎来找我玩) 的大作中提到: 】 span class=col36: 四个女生 /spanspan class=col36: 总价吃了多少忘记了 /spanspan class=col36: 打了7.8折之后240 /span /body /html 网页预处理 预处理之后: 在 无聊 欢迎来找我玩的大作 中提到 四个女生 总价吃了多少忘记了 打了 折之后 网页预处理 中文切词 正向完全匹配。 词库——中文地名库。 Lucene 正向全切分分词器:org.mira.lucene.analysis.IK_CAnalyzer 地名解析(处理流程) 地名处理 抓取地名的流程 输入:一组单词数组 然后使用方法Gazetter.contains(string)来判断它是否是一个地名,若为地名,则返回地名所对应的多边形,若不是,则返回一个空串 输出:一组地名数组,每一个条目都包括一个地名,以及与地名相关联的一个外包矩形 ? 计算描述区域的流程 输入:一组地名数组,每一个条目都包括一个地名,以及与地名相关联的一个外包矩形 处理流程:判断各个矩形之间是否存在有包含关系,如果存在,则舍去较大的矩形,只包含较小的矩形。 输出:一组外包矩形 索引建立部分 索引建立部分 索引建立部分 索引建立部分 索引建立部分 索引建立部分 总结 对模型做了一定程度地简化 各个部分都可以采取MR进行分布式处理 最后建立的索引检索空间数据的效率较高,但仍然有待改进 * * 优化搜索结果,数据挖掘 首先我们看传统的索引的建立是根据数据大小比较排序而成 空间索引的建立是根据空间的包含关系确立的 建好的索引树,假定是这样的 那么之后我们就要考虑如用map/reduce函数来实现 由于reduce只能归并由key/value组成的对值, 我们必须设计一种方法把我们最后建立的关于空间关系的树映射表达为一种平面的方式 如上就是我们将要使用方法的简单模型 我们预先根据行政区划,先建立一棵关于空间关系的树 并且为每个结点赋一个标号值 然后我们对于每个网页即id,算出这个id的对应外包矩形,再在这颗树中找到相对应的结点,并获取那个结点的标号值 根据每个id获得的标号值对其进行归并 * *

文档评论(0)

zhuliyan1314 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档