新闻定制服务.ppt

下载文档 降价啦

2
0
约1.55千字
约 16页
2017-11-29 发布于江西
举报
版权申诉
保障服务

新闻定制服务.ppt

1、本文档共16页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

新闻定制服务

新闻定制服务 Group14 梁希云、张磊、李静静、袁玲、李勤飞背景搜索引擎查询范围广、时效性差用户的需求只关心某类或者某人的新闻新闻网站内容繁杂，浏览不方便发送机制系统结构新闻抓取识别出新闻新闻页面的url都含有日期新浪：2004-12-21 新华：2004-12/21 识别出哪一天的新闻抓取策略定时更新维护策略保存近5天新闻正文提取分析html文档新闻页面的特殊格式分析了新浪网和新华网这两个网站的。分析发现，新闻正文一般都包含在<p>和</p>之间保存结果每条新闻保存在一个文件中 news_list.txt Sina_news, xinhua_news 索引和检索 clucene 索引和检索部分，我们使用了开源的系统clucene，它是lucene的C++版本实现，并对它增加了自己的改进支持多种查询语法独特的索引文件结构，支持增量索引和删除初次查询只返回100个结果集缓存 Lucene模块 Index Search Document Analysis QueryParser Store Util 支持查询语法修改语法分析，适合本项目支持停用词过滤，可扩展可扩展语法分析支持短语查询，组合查询，日期区间查询检索模型：向量空间模型默认为布尔权值，可自定义 TF和IDF（log(numDocs/(docFreq+1)) + 1）基于向量内积的相似度计算方法对lucene的扩充在原有clucene-0.8.11版本的基础上修改了一些bug和扩展了语言分析器。增加了clucene/analysis/cjk包，共有三个类，ChAnalyzer, ChTokenizer, ChFileReader类对lucene的扩展（续） ChTokenizer 针对含有中文的c字符串进行二元自动切词无词表维护提高查全率 ChFileReader 针对gb2312编码的文本文件的读入类原来的clucene把文档默认为utf8编码格式，所以处理起gb2312文档有问题修正lunece的bug 原来的clucene的queryparser有问题，针对短语查询，转义字符查询，还有区间查询等查询语法的query构造方法有问题，修改后可以正确支持短语查询，转义字符查询，区间查询。支持临近查询、布尔查询、语法组合查询文本分类使用的是kNN算法不过到目前为止，分类效果非常不理想，调试了很多参数组合都不如意。现在想想可能是训练上的原因，训练直接使用中科院那个分类器进行训练，它用的分词和老师提供的分词模块不是很一样，造成效果比较差文本分类（续）实现过程训练先对每个文档切词，建立词表（features.txt），统计出每个词的idf。再为每个训练文档建立词频矩阵，写入train.txt文件中。文件由若干行组成，每一行表示一个训练文档。每一行第一个数字表示文档类别，此后由a:b形式的数表示，a表示词在词表中的位置，b表示tfidf数值（规格化后）。对每个新来文档，切词，同样建立词频矩阵，然后对照train.txt的每一行，计算相对每一个训练文档的距离（夹角）。跟全部训练文档比对完，排序，选出前k个，计算出一个最大的类，返回。交互规则定制用户定制一次，登入后直接显示分类定制根据url限制正文和标题的关键词检索（组合语法）修改规则一次性定制 E-mail 界面部分信息科学技术学院 · 网络研究所抓取器正文提取（预处理）分类器索引定制界面检索结果界面文件名 Title URL 信息科学技术学院 · 网络研究所 * *