新闻抓取.pptVIP

  • 12
  • 0
  • 约1.35千字
  • 约 14页
  • 2017-03-04 发布于天津
  • 举报
新闻抓取

爬虫 新闻抓取 新闻抓取分为3个模块 1.新闻种子Parser (万点,金融界,新浪) 2.新闻内容分析 3.新闻数据有效性检查 新闻抓取 新闻抓取 面临的问题 1.最严峻的问题,正文分析 如何做到抓取正文基本通用 2.新闻排重 一样的新闻如何排重 东阿阿胶:阿胶块提价5% 维持40元目标价“ 东阿阿胶:年内三度提价累计38% 东阿阿胶出厂价再上调5%“ 东阿阿胶:产品提价5%“ 东阿阿胶产品提价5%“ 3.Django 不熟悉问题 新闻抓取 如何解决…….? 新闻抓取 如何解决: 目前在这个领域我们和搜狗,有道,新浪等国内大公司比起来,我们就是刘备,他们就是曹操。怎么说: 在这个领域我们势单力薄,刚刚起步,先攻下一座城池立脚再说。 我们要学习刘备和孔明同学,一步步来,先搞定股票新闻页面,在说,这样我们的范围就缩小了很多,也就容易的许多。 在业内叫做:特定领域的技术。 新闻抓取-新闻种子Parser 新闻抓取-新闻种子Parser 这里News Source 将生成一个Feed List Feed List = [[2010-05-27 13:10:55,8012168,银行业:银行涉房贷款质量将好于预期, /stock/hyyjhtml,sh600000]]; 新闻抓取-新闻内容分析 这里我们有了Feed List,就可以抓取新闻内容了 新闻内容抓取算法为:密度算法 例如:p我是小柳 ,大家好啊!/p start end Len = 17 Text Len = 10 Density = Text Len / Len = 0.59 大约0.5的就将正文取出。 正文 = 我是小柳 ,大家好啊! 新闻抓取-新闻数据有效性检查 新闻数据有效性检查分为两部分: 1.站点内检查 2个小时之内的同一只股票的新闻为相同新闻。 2.站点外检查 使用关键字匹配长度进行判断,原理为标题是否相似。 相似度算法:Jaccard = len(并集)/len(交集)=0.3 说明关键字大约一半一样就说明为一样的文章。 新闻抓取 使用到的技术: Django Python FFM 中文分词算法 SogouW 互联网词库 (15万条高频词汇 + 股票名称 + 股票代码) 其他:中科院分词,海量分词 20M  密度算法 相似度算法 HTMLLib URLLib Beautiful Soup 新闻抓取 - 相似度算法 新闻抓取 - 相似度算法 这两个算法用集合描述更容易: Dice: S(A,B) = 2 *( A B) / (A | B + ( A B)) Jaccard: S(A,B) = ( A B) / (A | B) 最后感谢大家积极参与 ? 同时我们以饱满的精神迎接 6-1 儿童节!

文档评论(0)

1亿VIP精品文档

相关文档