- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
浅谈网络文本挖掘分类.pdf
浅 谈 网 络 文 本 挖 掘 分 类
姚轶
( 南京晓庄学院,江苏南京210000)
脯要】 由于 以因特网为主体 的信息高速公路的不断普吸和发展,一方面,因特网上蕴涵的海量信息远远超过人们的想象;另一方面,面
时信息的汪洋大海,于是一个极富挑 战J 洼 的课题 :如何帮助人撕1有效地选辑:和利用所感兴趣 的信息,尽量别除不好的信急 ,同时保证人们在
信息选择方面 的个人隐私权利。成为学术界和企业界所关注的焦点。
口 蝴 】 短 语 ; 网 络 文 本 挖 掘 ; 网 络 文 本 . 分 类 ; 探 讨
由于以因特网为主体的信息高速公路 的不断普及和发展 ,一方面, 术,可以从用户所浏览页面中分析出用户的爱好和习惯 ,进而在用户进
因特网上蕴涵的海量信息远远超过人们的想象i 另一方面,面对信息的 入 网站时 自动将他最喜欢 的内容呈现在他 的眼前,而且这种分析也是持
汪洋大海 ,于是一个极富挑战性的课题 :如何帮助人们有效地选择和利 续性的,可 以即时掌握用户习惯和爱好 的变化。
用所感兴趣 的信息,尽量剔除不好 的信息,同时保证人们在信息选择方 至少像短语结构文法这样一类的语法规则是建立在词类基础上 的。
面 的个人隐私权利,成为学术界和企业界所关注 的焦 点。 无怪乎语言学界有句行话说,设有词类就没法讲语法 了。所 以在 自然语
网络文本分类 的理论研究比铰成熟,而且也出现了一些初步 的应用 言的句法分析过程中,大概都有一个词性标注的阶段 。不难理解,汉语
系统。网络文本分类 的研究主要围绕算法方面进行,如特征提取、权重 的 自动分词和词性标注 的精确率,将直接影响到后续的句法分析结果。
计算、分类模型的算法的分析与改进网络文本分类需要的资源方面研究 据观察,在汉语句法分析结果中,有高达60%的分析错误来源于分词
的较少 ,如网络文本表示 中特征项的粒度选择和获取,特别是概念、短 和词性 标注的错 误。
语、词和宇究竟哪个更适合作为网络文本表示的特征项的问题缺乏系统 三、利用机器学习原理对飚页进行分类
的研究 。 分类器的工作步骤如下:利用搜狐分类 目录的分类样本集进行训
一、典型的网络文本分类系统 练,获得每个分类在特征空间上的聚类中心;随着信息技术的高速发
( 一) 网络文本挖掘的定义 展,信息管理技术的应用使得积累的数据越来越多,对于海量数据的 自
直观的说,当数据挖掘的对象完全 由网络文本这种数据类型组成 动分类方法成为数据挖掘的一个重要任务,其中网页 《尤其是网络文
时 。这个过程就称为 网络文本挖掘 。。 本) 分类显得越来越重要。因为文档和人脸特征作为高维空间的向量有
‘二) 网络文本挖掘的分类 着本质的联系,因此文章将人脸识别领域 中提出并被广泛应用的改进分
网络文本挖掘从功能上可 以分为总结、分类、聚类、趋势预测等。 类算法运用到海量网页网络文本分类中,扩展了算法的应用领域,并针
网络文本总结是指从文档 中抽取关键信息,用简洁的形式对文档 内容进 对此算法的缺点进行改进 ,结合其他算法提 出了改进算法。试验结果表
行摘要或解释 。网络文本总结在有些场合非常有用,例如,搜索引擎在 明,改进算法对海量网页 网络文本分类 。
向用户返 回查询结果时,通常需要给 出文档 的摘要。 目前,绝大部分搜 四、改进算法 的网络文本算法
索 引擎采用 的方法是简单地截取文档的前几行。 我们注意到欧氏距离通常涉及所
文档评论(0)