新闻定制服务.ppt

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
新闻定制服务

新闻定制服务 Group14 梁希云、张磊、李静静、袁玲、李勤飞 背景 搜索引擎查询范围广、时效性差 用户的需求 只关心某类或者某人的新闻 新闻网站内容繁杂,浏览不方便 发送机制 系统结构 新闻抓取 识别出新闻 新闻页面的url都含有日期 新浪:2004-12-21 新华:2004-12/21 识别出哪一天的新闻 抓取策略 定时更新 维护策略 保存近5天新闻 正文提取 分析html文档 新闻页面的特殊格式 分析了新浪网和新华网这两个网站的。分析发现,新闻正文一般都包含在<p>和</p>之间 保存结果 每条新闻保存在一个文件中 news_list.txt Sina_news, xinhua_news 索引和检索 clucene 索引和检索部分,我们使用了开源的系统clucene,它是lucene的C++版本实现 ,并对它增加了自己的改进 支持多种查询语法 独特的索引文件结构,支持增量索引和删除 初次查询只返回100个结果集缓存 Lucene模块 Index Search Document Analysis QueryParser Store Util 支持查询语法 修改语法分析,适合本项目 支持停用词过滤,可扩展 可扩展语法分析 支持短语查询,组合查询,日期区间查询 检索模型:向量空间模型 默认为布尔权值,可自定义 TF和IDF(log(numDocs/(docFreq+1)) + 1) 基于向量内积的相似度计算方法 对lucene的扩充 在原有clucene-0.8.11版本的基础上修改了一些bug和扩展了语言分析器。 增加了clucene/analysis/cjk包,共有三个类,ChAnalyzer, ChTokenizer, ChFileReader类 对lucene的扩展(续) ChTokenizer 针对含有中文的c字符串进行二元自动切词 无词表维护 提高查全率 ChFileReader 针对gb2312编码的文本文件的读入类 原来的clucene把文档默认为utf8编码格式,所以处理起gb2312文档有问题 修正lunece的bug 原来的clucene的queryparser有问题,针对短语查询,转义字符查询,还有区间查询等查询语法的query构造方法有问题,修改后可以正确支持短语查询,转义字符查询,区间查询。 支持临近查询、布尔查询、语法组合查询 文本分类 使用的是kNN算法 不过到目前为止,分类效果非常不理想,调试了很多参数组合都不如意。现在想想可能是训练上的原因,训练直接使用中科院那个分类器进行训练,它用的分词和老师提供的分词模块不是很一样,造成效果比较差 文本分类(续) 实现过程 训练先对每个文档切词,建立词表(features.txt),统计出每个词的idf。再为每个训练文档建立词频矩阵,写入train.txt文件中。文件由若干行组成,每一行表示一个训练文档。每一行第一个数字表示文档类别,此后由a:b形式的数表示,a表示词在词表中的位置,b表示tfidf数值(规格化后)。 对每个新来文档,切词,同样建立词频矩阵,然后对照train.txt的每一行,计算相对每一个训练文档的距离(夹角)。跟全部训练文档比对完,排序,选出前k个,计算出一个最大的类,返回。 交互 规则定制 用户定制一次,登入后直接显示 分类定制 根据url限制 正文和标题的关键词检索(组合语法) 修改规则 一次性定制 E-mail 界面部分 信息科学技术学院 · 网络研究所 抓取器 正文提取 (预处理) 分类器 索引 定制界面 检索 结果界面 文件名 Title URL 信息科学技术学院 · 网络研究所 * *

文档评论(0)

pangzilva + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档