* * * * * * 信息挖掘是通过分析用户数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示等步骤。互联网数据具有数据量大、数据结构复杂、数据内容分散等特点,呈现出爆炸性增长的趋势。因此,为了从浩如烟海的数据中提取出有效信息,必须选择合适的数据挖掘策略。 信息挖掘是一个复杂的过程,需要进行大量的数据采集和运算等。按照基本功能,可以将整个信息挖掘流程划分成内容采集、内容挖掘和行为分析3个环节。 页面内容爬取:这是将网页的内容通过爬虫获取的部分,分析页面代码格式,进行网页代码的编码转换等,尽可能获取自己需要的信息。 页面垃圾过滤:页面中不可避免地会存在大量的垃圾信息,这些信息严重干扰到对后期信息挖掘的准确性,页面垃圾过滤机制会找出包括广告在内的段落以及其他对内容挖掘无效的部分,并将其清除,不进入内容挖掘部分。 内容挖掘:主要是对需要的特定信息进行提取,该阶段处理后的文本数据是后期进行分词、情感分析的基础; 行为分析:重点和难点是分词和情感分析,对于海量文本信息而言,程序的处理速度也是至关重要的一点。 * 对于大规模的互联网信息抓取而言,单线程的数据获取是一项非常局限的事情,因此多线程、分布式的信息抓取平台是必须搭建的。因此数据的抓取平台的搭建是一项基础性的工作。整体上,数据的抓取平台分为三部分,首先是搜索热门网站,对需要提取信息的网站的网页编码格式、网页制作规则
您可能关注的文档
- 【精华模板】尝试不一样的风格(模板)程序.ppt
- 【精英新课堂】2016春八年级数学下册6.1平行四边形的对角线特征(第2课时)(新版)北师大版程序.ppt
- 【精英新课堂】2016春八年级数学下册17.2.2函数的图象(第1课时)(新版)华东师大版程序.ppt
- 【精英新课堂】2016春九年级数学下册1.6利用三角函数测高(新版)北师大版程序.ppt
- 【精英新课堂】2016春九年级数学下册第一章直角三角形的边角关系达标测(新版)北师大版程序.ppt
- 【景观】景观设计——石材篇程序.ppt
- 【聚焦中考】(浙江地区专版)2014中考科学总复习_第19讲_简单机械(考点+13中考真题)程序.ppt
- 【聚焦中考】2015河北省中考化学总复习:第2讲水、氢气程序.ppt
- 【聚焦中考】2015陕西省中考化学总复习:第2讲水、氢气程序.ppt
- 【聚焦中考】2015中考化学总复习:第2讲+水、氢气程序.ppt
最近下载
- 【设计】中温井式电阻炉设计.docx
- 2015-2023历年江苏省苏州市中考作文题目汇编(解析范文).docx VIP
- 2026年二级公立综合医院检验科工作计划.docx VIP
- 2026年杭州市上城区四季青街道办事处编外招聘5人考试备考题库及答案解析.docx VIP
- 《青花瓷(王志铭改编)》指弹吉他谱.pdf VIP
- 2025安徽高考化学 生物 物理真题(含解析).pdf VIP
- 2026年AI在口腔医疗数字化应用.docx VIP
- 《中式瓦屋面工程技术规程》.pdf VIP
- T_JSFPSA 008—2025(泡腾片(固体饮料)).pdf
- 年国家开放大学电大电子商务题库.docx VIP
原创力文档

文档评论(0)