新闻抓取.pptVIP

  • 4
  • 0
  • 约1.35千字
  • 约 14页
  • 2017-06-08 发布于天津
  • 举报
新闻抓取

爬虫 新闻抓取 新闻抓取分为3个模块 1.新闻种子Parser (万点,金融界,新浪) 2.新闻内容分析 3.新闻数据有效性检查 新闻抓取 新闻抓取 面临的问题 1.最严峻的问题,正文分析 如何做到抓取正文基本通用 2.新闻排重 一样的新闻如何排重 东阿阿胶:阿胶块提价5% 维持40元目标价“ 东阿阿胶:年内三度提价累计38% 东阿阿胶出厂价再上调5%“ 东阿阿胶:产品提价5%“ 东阿阿胶产品提价5%“ 3.Django 不熟悉问题 新闻抓取 如何解决…….? 新闻抓取 如何解决: 目前在这个领域我们和搜狗,有道,新浪等国内大公司比起来,我们就是刘备,他们就是曹操。怎么说: 在这个领域我们势单力薄,刚刚起步,先攻下一座城池立脚再说。 我们要学习刘备和孔明同学,一步步来,先搞定股票新闻页面,在说,这样我们的范围就缩小了很多,也就容易的许多。 在业内叫做:特定领域的技术。 新闻抓取-新闻种子Parser 新闻抓取-新闻种子Parser 这里News Source 将生成一个Feed List Feed List = [[2010-05-27 13:10:55,8012168,银行业:银行涉房贷款质量将好于预期, /stock/hyyjh

文档评论(0)

1亿VIP精品文档

相关文档