[项目初步计划书2).docVIP

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
项目初步计划书 项目名称 基于时间的活动分类搜索 项目单位 北京大学计算机科学技术系 项目成员 欧阳锦林 罗庆军 叶萍 胡雅杰 目录 第1章 项目综述 3 1.1 项目背景 3 1.2 系统简介 4 1.2.1 功能概况 4 1.2.2 目标与意义 4 第2章 项目分析 5 2.1 技术分析 5 2.1.1 系统基本架构 5 2.1.2 基本技术分析 6 2.1.3 技术难点分析 6 2.2 商业分析 7 2.2.1 活动与搜索的当前状况 7 2.2.2 商业模型 7 第3章 项目实施 8 3.1 实施阶段 8 3.2 任务安排 8 项目综述 项目背景 “当这个世界正在慢慢的改变,世界不再是圆的,网络让世界变成平的,所有的资讯来源非常方便”,托马斯·弗里德曼在《世界是平的》这样写道。 爆炸性发展的网络信息、越来越便捷的通讯与交通方式,似乎加快了地球的旋转,也加快了人们的生活节奏。然而,Web是一个庞大的信息资源库。自从Web产生以来,其承载的信息量急剧的增长,使得Web的使用者找到对自己有用的信息的难度越来越大。在这样的环境下,搜索引擎应运而生。它就像网络信息资源的过滤与组织者,将用户需要的信息返回,屏蔽掉用户不关心的信息。 同时,快节奏的生活要求人们努力提高时间的利用效率,但是,随着世界变得越来越平,人们社会关系网也日趋复杂,人们对于未来活动的安排和选择也越来越多的与别人甚至陌生人相关,在这样的背景下,如何在复杂的活动中选择了有效的安排,成了当今时代的又一个课题。 我们正是在上述两个大的背景下,产生了我们这个项目最初的想法。 我们的系统基于如下理念: 立足于Web的海量数据,以搜索分类为核心技术,对以时间为基准,以活动为主要内容的信息进行搜索、分类,最后提供给用户一个统一、清晰的活动信息,让人们更快捷的找到自己感兴趣的活动,以高效安排自己的日程。 我们的信念是: 抓住世界的明天! 系统简介 功能概况 本系统分两期工程,第一期实现一个基于Web信息的活动搜索、分类与查询;第二期建立网络日历日程安排平台,并建立平台内部活动的搜索。计划在WBIA项目安排的时间内,务必完成第一期工程。第二期工程视第一期工程的时间、效果和需求再做安排。 第一期工程的功能有: 简单搜索:只需要给出一个时间段,便可得到此时间段的所有活动情况。 条件搜索: 提供活动内容的分类的条件搜索:如报告、通知。 提供活动范围的分类的条件搜索:如北京大学、信息科学技术学院 高级搜索:提供关键字查询搜索。并对关键字进行语义分析,确定关键字所属类别(可能是多个),对关键字匹配结果做选择、加权排序并输出。 目标与意义 “明天是可以抓住的,世界的明天就在你手中。” 这是所有人的梦想。而让用户实现这个梦想,正是我们团队和项目所有的目标与意义所在。 项目分析 技术分析系统 图表 1:Tomorrow Activity第一期项目模块图 基本技术分析 数据抓取Crawler 实际上是一个爬虫,先计划在北京大学校内搜索。主要针对新闻发布、报告转会BBS等几个主要的版面进行搜索。 信息过滤Filter 网页信息过虑器,过虑一些无关网页与模板。并将其存储在原始数据库中。 原数据存储 存储过虑和规整后的信息。 信息分析与分类Analyzer 使用恰当的分类算法对规整化的网页进行分类分析 分析后的数据存储 存储和索引分类好的信息 信息检索Searcher 执行查询命令,并根据查询结果对不同分类,不同的条件进行加权排序输出。 逻辑处理Plan 根据界面搜索条件与查询语句生成逻辑查询计划 界面、交互Web Interface 提供简单、条件与高级搜索,供用户查询搜索。 技术难点分析 在上述的基本模块中,比较复杂的是:信息分析与分类Analyzer和信息检索Searcher。 对于信息的分类,我们的设想是先人工的定义好几个分类,以及这几个分类的关键词,然后对文本进行分析后自动聚类到某个分类中去。这是整个项目搜索准确度与效率的关键。另外,我们还考虑未来系统的可扩充性,计划提供一个机制,以应对分类的增加。基本的想法是定义一个接口和数据结构,以增加分类和这个分类的关键词,同时也可以提供一个训练集来描述和增加新的分类。 对于信息检索Searcher,主要涉及对结果的排序算法。这也是提高系统准确性和可用性的关键技术。 商业分析 活动与搜索的当前状况 活动安排的重要性在现代人生活中显而易见,从手机日历、Google日历和各位日程安排软件的盛行便可略见一斑。而Google的生活搜索和酷讯搜索只是针对某一行业信息的内容搜索。而基于时间的活动搜索却没有见到一个市面上的产品来提供此服务。因此,基于时间的活动搜索还具有巨大的市场潜力

文档评论(0)

yingrong + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档