- 11
- 0
- 约1.09万字
- 约 11页
- 2021-02-23 发布于天津
- 举报
精品资料
精品资料
1、文本挖掘主要内容
存储信息使用最多的是文本, 文本挖掘被认为比数据挖掘具有更高的商业潜 力,当数据挖掘的对象完全由文本这种数据类型组成时, 这个过程就称为文本数 据挖掘。
文本分类及情感分析
文本分类指按照预先定义的主题类别, 为文档集合中的每个文档确定一个类 别。需要训练集训练分类器,然后应用于测试集。主要有朴素贝叶斯分类、决策 树等。情感分析是近年来国内外的研究热点, 是基于计算机整理、 分析相关评价 信息,对带有感情色彩的的主观性文本进行分析、 处理和归纳。 情感分析包括情 感分类、观点抽取、观点问答等。
文本聚类
聚类与分类的不同之处在于, 聚类没有预先定义好的一部分文档的类别, 它 的目标是将文档集合分成若干个簇, 要求同一簇内文档内容的相似度尽可能的大, 而不同簇之间的相似度尽可能的小。
文本结构分析
其目的是为了更好地理解文本的主题思想, 了解文本表达的内容以及采用的 方式,最终结果是建立文本的逻辑结构,即文本结构树,根结点是文本主题,依 次为层次和段落。
Web 文本数据挖掘
在 Web 迅猛发展的同时,不能忽视“信息爆炸”的问题,即信息极大丰富而
知识相对匮乏。据估计,Web已经发展成为拥有3亿个页面的分布式信息空间, 而且这个数字仍以每 4-6 个月翻 1 倍的速度增加,在这些大量、异质的 Web 信 息资源中,蕴含着具有巨大潜在价值的知识。 Web 文本挖掘可以构建社交复杂 网络、用户标签、网络舆情分析等
2、自然语言处理流程
获取原始文本
文本最重要的来源无疑是网络。 我们要把网络中的文本获取形成一个文本数 据库(数据集 )。利用一个爬虫抓取到网络中的信息。爬取的策略有广度和深度爬 取;根据用户的需求,爬虫可以有主题爬虫和通用爬虫之分。
I —旦
I —旦
精品资料
精品资料
HTML 数据
jjj Python Z7.9 bhgll
File Edit £ 卜创 I Debug Optic ns Window^ Help
PytlKR 2.7,9 fdaE口丄Iec 10 2014f l::24?SSi [MSC v.lSCO 32 bxc lintel) ] an wxn32
Typ亡 ■ccTjyrijht P 刀匚工上日二二oi for inore inf zrsTiatigD B
? f 二:uzllLh 二匸匚 r mrlapen
? n-fid. - urloeani ^nztp:.. nens.EJDC-co.ujcf』』二丄 蛊总宜丄工?口 2丄匕弓tis」?巴二匕°』?工岂蔬二门?ae亡Qd皀(■二t:r二广}
riznl( s^O]
r 亡 dc匚e匸 hzml public W-//W3C//DTD HTML 1.0 Trai:3icxoMl//EN,
? - b4 i Bpjauti ful 3 oup
? raw 二 5e a or 1 Cd 13o [hr?l # Thu til ,pAr w)i Bg^r, ze-scc [)
? tZOT nit It L.xpor~ XQT 口上记1112:包
tckcoj B wcxd_tok^zizize raw
? 七口keiiJ
[u*BBC\ 2WE1W uf |\ u! HealLh\ q1 jsr u1 Blendes% u*to*p u?dle\ aauL1 P DUnt u*ioa\ u ?■龙■■畔T U1 ^O?S 1 f ySPQ-RT^ UkWEAT?IRB f U/WORLD% U^ERVJCf f UBA-Z\ ITHNEEK . U SEARCH 1 f U
RSS订阅源
博客是文本的重要来源,无论是正式的还是非正式的。通过Universal Feed
Parser第三方库可以访问博客的内容
Language LogIICWIIV! Abrwt 口的祁旳热 polkr
Language Log
IICWIIV! Abrwt 口的祁旳热 polkr
Fill low ijs
Fill low ijs tMi Twitter
Love heals all
13,8. 2Ult? ■- 11:36 pm TiM by Vkto*Miir und?rIxA in trinilraor
Li ml Jg@o sent me We follow ng phowgraiph of fr^iried picture that he bought:
Serch
Anchives [4/-J *
[PbatS tdcie 4/8?200S aF? her 甸
[5fB!l_?■ Oh1 pi:bb:? hri
I Isl dlfll亦[仃]A
Other authors [+/-]
Blo
原创力文档

文档评论(0)