- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
博客专用搜索引擎 路志学陈友祥程彦涛贺 珊李预清 项目背景(1) 博客(blog),一种在线网络出版形式,版面通常由单栏文本贴子按倒时间顺序不断更新排列构成,并能提供一些个人化的链接。 1997年,blog这个术语被首次应用。 1999 年,第一个免费博客软件(pitas)发布。 “911” 之后,博客得到快速发展。 2002 年,博客概念进入中国。 2005年2 月24 日,博客联结分析公司Technorati动态监测,博客网站约为710万个。 项目背景(2) 博客的优势 民主化的社会沟通。 为主流媒体提供新闻和公众观点来源。 为教育和商业创造知识共享的环境。 为个人提供一个自我表达和自我价值实现的平台。 简单且成本低。 市场分析(1) 博客的用户 有较高的忠诚度。 有较高的知识水平和创造能力。 通常具有类似心理、社会情况、审美标的、生活方式的群体,有知识、有理想、有思想和明确的行动目标。 2004 年11月,美国博客创建者占网络总用户比例的11%,超过800 万名,博客访问用户占27%,达3200 万名。 近两年国内博客市场发展迅速 市场分析(2) 竞争对手 传统搜索引擎,先入为主。 现有的博客搜索引擎,跟传统的普通搜索引擎并无区别,针对查找时候的关键词,搜索出来的结果是包含该关键词的blog中的文章,而并未对该blog进行分析和归类。 博客网站,大型博客网站会提供分类等服务。 我们的目标 提供Blog主题类别搜索。 即:根据用户输入的关键词,返回与该词所属类别相关blog链接。 同义词(或属于同一个类别的词)扩展功能。 其它延伸功能。 项目开发示意图 项目开发主要模块 一个准确高效的Crawler。抓取互联网上的博客网页,blog以用户为单元,属于同一个用户所发表的文章集合成一个文档。 准确的分类器。将上面生成的文档准确归类,用户输入某个关键词,可以准确返回所有该类下的文档(URL)。 词频统计。我们认为同一个文档的高频词之间存在某种相似性。所以统计出文档的词频,截取前n个并返回,可以向用户提供类似于同义词扩展的提示。 友好的查询界面。 一、网页抓取存在的问题 同一个用户的多篇文章归档问题:如何识别这几篇文档属于同一个用户(博客)、如何保证该博客的所有文章都已获取。必须针对某个网站单独优化实现。 重复URL的消除。消除重复URL、同根(同路径)URL。 不同网站的汉字编码不同。 二、文档分类 利用中科院做的分类器。该分类器提供SVM、KNN两分类法。 SVM只能把一个文档归到某一个类下。考虑到本系统返回结果要支持优先排序。采用KNN分类法。 二、文档分类存在的问题 训练集问题。该分类器只给出了包括体育、教育、军事等在内的十个大类。每类下数十篇文档。如果本系统的文档需要准确归类,我们必须利用一个大而全的分类体系,人工获取一大批相关文档,构造训练集。 因时间关系并未构造。系统目前仍仅有十类,这直接影响了系统的检索效果! 三、提取关键词 每篇文档的关键词一定程度上代表了该文档的主题。而我们的目标是返回给用户具有相应主题的blog。 由于分类体系的不完善,我们退而求其次:提取每篇文章的关键词。用户查询时利用关键词匹配返回结果条目。 关键词的别一个用途是,可以作为同义词相关搜索返回给用户。 三、提取关键词 算法:统计词频法。对每篇文档中的词出现频率进行统计。去除其中的停用词,选择n出频率最高的词。 三、提取关键词存在的问题 目前的停用词表不够大。获取的关键词往往会包含一些无实际查询意义的词。 读取不同汉字编码的文档会出现乱码。解决办法是处理前进行编码转换。 四、查询界面 分类检索 根据用户选择的类别,列出属于该类的所有Blog地址。 关键字检索 根据用户输入的关键字,返回与之匹配的Blog地址。 四、查询界面:分类检索 首页提供了五个类别的检索,如计算机、军事、医药等。若想检索其他类别,可以点击“更多”。 每个类别下都列出了与之相关的Blog地址,由上至下属于该类别的程度依次降低。 四、查询界面:关键字检索 与用户查询相匹配的结果共分为若干类,由上至下依次列出,相关度逐渐降低。 返回的每个Blog地址后面显示五列(类别),从左至右依次代表了Blog属于该类别的程度依次降低。(有待改进) 总结 对搜索引擎的过程有了整体的了解。 开发项目本身是个学习的过程。学习并利用到Crawler、SVM、KNN等的一些算法。 分工协作。 有待改进之处 Crawler部分,抓取并处理得到的文档质量并不令人满意。 完善分类体
您可能关注的文档
- access8-VBA编程入门语法.ppt
- ACCESS课件第四章.ppt
- Access课件-宏.ppt
- Access数据库2003教学课件-CH3.ppt
- Access数据库SQL.ppt
- Access数据库操作表.ppt
- Access数据库和表在 组态王中使用.ppt
- ACCESS数据库项目案例员工工资.ppt
- ACESS第二章 表.ppt
- ACL与NAT技术专题与策略路由(2).ppt
- 湖南省衡阳市第八中学2026届高三上学期第一次月考物理(原卷版).doc
- 浙江省普通高中尖峰联盟2026届高三上学期10月联考英语(原卷版).doc
- 四川省绵阳市南山中学实验学校2026届高三上学期10月月考英语(原卷版).doc
- 湖南省衡阳市第八中学2026届高三上学期第二次月考历史 Word版含解析.doc
- 福建中考物理5年(2021-2025)真题分类汇编:专题09 功和机械能(原卷版).doc
- 福建中考物理5年(2021-2025)真题分类汇编:专题10 内能及其利用(原卷版).doc
- 福建中考物理5年(2021-2025)真题分类汇编:专题07 压强(原卷版).doc
- 福建中考物理5年(2021-2025)真题分类汇编:专题01 机械运动(原卷版).doc
- 福建中考物理5年(2021-2025)真题分类汇编:专题02 声现象(解析版).doc
- 福建中考物理5年(2021-2025)真题分类汇编:专题02 声现象(原卷版).doc
原创力文档


文档评论(0)