- 12
- 0
- 约1.35千字
- 约 14页
- 2017-03-04 发布于天津
- 举报
新闻抓取
爬虫 新闻抓取 新闻抓取分为3个模块 1.新闻种子Parser (万点,金融界,新浪) 2.新闻内容分析 3.新闻数据有效性检查 新闻抓取 新闻抓取 面临的问题 1.最严峻的问题,正文分析 如何做到抓取正文基本通用 2.新闻排重 一样的新闻如何排重 东阿阿胶:阿胶块提价5% 维持40元目标价“ 东阿阿胶:年内三度提价累计38% 东阿阿胶出厂价再上调5%“ 东阿阿胶:产品提价5%“ 东阿阿胶产品提价5%“ 3.Django 不熟悉问题 新闻抓取 如何解决…….? 新闻抓取 如何解决: 目前在这个领域我们和搜狗,有道,新浪等国内大公司比起来,我们就是刘备,他们就是曹操。怎么说: 在这个领域我们势单力薄,刚刚起步,先攻下一座城池立脚再说。 我们要学习刘备和孔明同学,一步步来,先搞定股票新闻页面,在说,这样我们的范围就缩小了很多,也就容易的许多。 在业内叫做:特定领域的技术。 新闻抓取-新闻种子Parser 新闻抓取-新闻种子Parser 这里News Source 将生成一个Feed List Feed List = [[2010-05-27 13:10:55,8012168,银行业:银行涉房贷款质量将好于预期, /stock/hyyjhtml,sh600000]]; 新闻抓取-新闻内容分析 这里我们有了Feed List,就可以抓取新闻内容了 新闻内容抓取算法为:密度算法 例如:p我是小柳 ,大家好啊!/p start end Len = 17 Text Len = 10 Density = Text Len / Len = 0.59大约0.5的就将正文取出。 正文 = 我是小柳 ,大家好啊! 新闻抓取-新闻数据有效性检查 新闻数据有效性检查分为两部分: 1.站点内检查 2个小时之内的同一只股票的新闻为相同新闻。 2.站点外检查 使用关键字匹配长度进行判断,原理为标题是否相似。 相似度算法:Jaccard = len(并集)/len(交集)=0.3说明关键字大约一半一样就说明为一样的文章。 新闻抓取 使用到的技术: Django Python FFM 中文分词算法 SogouW 互联网词库 (15万条高频词汇 + 股票名称 + 股票代码) 其他:中科院分词,海量分词 20M 密度算法 相似度算法 HTMLLib URLLib Beautiful Soup 新闻抓取 - 相似度算法 新闻抓取 - 相似度算法 这两个算法用集合描述更容易: Dice: S(A,B) = 2 *( A B) / (A | B + ( A B)) Jaccard: S(A,B) = ( A B) / (A | B) 最后感谢大家积极参与 ? 同时我们以饱满的精神迎接 6-1 儿童节!
您可能关注的文档
最近下载
- 栽培措施对青贮玉米粗蛋白质含量及产量的影响.pdf VIP
- EN IEC 62660-3-2022 Secondary lithium-ion cells for the propulsion of electric road vehicles - Part 3:Safety requirements 电动道路车辆推进用二次锂离子电池. 第3部分: 安全要求.pdf
- 2024年江苏省淮安市中考语文真题试卷含答案.docx
- 安全员(矿山)试题库含参考答案.docx VIP
- 矿山安全员试题库(附参考答案).docx VIP
- Honor荣耀MagicBook Pro 14 用户手册-(FMB-P,01,zh-cn)说明书.pdf
- 选矿厂设计考试试卷及答案.docx VIP
- 社会工作者(初级)考试题库及答案【题库版】.pdf VIP
- 融媒体中心新媒体制作岗位专业测试及答案.docx VIP
- 高考物理一轮复习6.2机械能守恒定律-动能定理及其应用--(原卷版+解析).docx VIP
原创力文档

文档评论(0)