新闻抓取.pptVIP

下载本文档

12
0
约1.35千字
约 14页
2017-03-04 发布于天津
举报

新闻抓取.ppt

新闻抓取

爬虫新闻抓取新闻抓取分为3个模块 1.新闻种子Parser (万点，金融界，新浪) 2.新闻内容分析 3.新闻数据有效性检查新闻抓取新闻抓取面临的问题 1.最严峻的问题，正文分析如何做到抓取正文基本通用 2.新闻排重一样的新闻如何排重东阿阿胶：阿胶块提价5% 维持40元目标价“ 东阿阿胶：年内三度提价累计38% 东阿阿胶出厂价再上调5%“ 东阿阿胶：产品提价5%“ 东阿阿胶产品提价5%“ 3.Django 不熟悉问题新闻抓取如何解决…….？新闻抓取如何解决：目前在这个领域我们和搜狗，有道，新浪等国内大公司比起来，我们就是刘备，他们就是曹操。怎么说：在这个领域我们势单力薄，刚刚起步，先攻下一座城池立脚再说。我们要学习刘备和孔明同学，一步步来，先搞定股票新闻页面，在说，这样我们的范围就缩小了很多，也就容易的许多。在业内叫做：特定领域的技术。新闻抓取-新闻种子Parser 新闻抓取-新闻种子Parser 这里News Source 将生成一个Feed List Feed List = [[2010-05-27 13:10:55,8012168,银行业：银行涉房贷款质量将好于预期, /stock/hyyjhtml,sh600000]]; 新闻抓取-新闻内容分析这里我们有了Feed List，就可以抓取新闻内容了新闻内容抓取算法为：密度算法例如：p我是小柳 ,大家好啊！/p start end Len = 17 Text Len = 10 Density = Text Len / Len = 0.59大约0.5的就将正文取出。正文 = 我是小柳 ,大家好啊！新闻抓取-新闻数据有效性检查新闻数据有效性检查分为两部分： 1.站点内检查 2个小时之内的同一只股票的新闻为相同新闻。 2.站点外检查使用关键字匹配长度进行判断，原理为标题是否相似。相似度算法：Jaccard = len(并集)/len(交集)=0.3说明关键字大约一半一样就说明为一样的文章。新闻抓取使用到的技术： Django Python FFM 中文分词算法 SogouW 互联网词库 (15万条高频词汇 + 股票名称 +　股票代码) 其他：中科院分词，海量分词　２０Ｍ　密度算法相似度算法 HTMLLib URLLib Beautiful Soup 新闻抓取 - 相似度算法新闻抓取 - 相似度算法这两个算法用集合描述更容易： Dice： S(A,B) = 2 *（ A B） / (A | B + （ A B）) Jaccard： S(A,B) = （ A B） / (A | B) 最后感谢大家积极参与 ? 同时我们以饱满的精神迎接 6-1 儿童节！

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

新闻抓取.pptVIP