基于Bayes潜在语义模型半监督Web挖掘.pdfVIP

下载本文档

4
0
约2.61万字
约 7页
2017-09-04 发布于安徽
举报
版权申诉

基于Bayes潜在语义模型半监督Web挖掘.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

1000-9825/2002/13(08)1508-07 ©2002 Journal of Software 软件学报 Vol.13, No.8 基于Bayes 潜在语义模型的半监督Web 挖掘宫秀军, 史忠植 ( 中国科学院计算技术研究所智能信息处理开放实验室,北京 100080) E-mail: {gongxj,shizz}@ 摘要: 随着互联网信息的增长,Web 挖掘已经成为数据挖掘研究的热点之一. 网页分类是通过学习大量的带有类别标注的训练样本来预测网页的类别,人工标注这些训练样本是相当繁琐的. 网页聚类通过一定的相似性度量, 将相关网页归并到一类.然而传统的聚类算法对解空间的搜索带有盲目性和缺乏语义特征.提出了两阶段的半监督文本学习策略.第 1 阶段,利用贝叶斯潜在语义模型来标注含有潜在类别主题词变量的网页的类别;第 2 阶段,利用简单贝叶斯模型,在第1 阶段类别标注的基础上,通过EM(expectation maximization)算法对不含有潜在类别主题词变量的文档作类别标注.实验结果表明,该算法具有很高的精度和召回率. 关键词: 贝叶斯潜在语义分析;半监督学习;简单贝叶斯分类;期望最大化算法;Web 挖掘中图法分类号: TP393 文献标识码: A 随着互联网的普及, 网上信息正在呈指数级增长.合理地组织这些信息, 以便从茫茫的数据世界中检索到期望的目标,并有效地分析这些信息, 以便挖掘出新颖的、潜在的有用模式,正在成为网上信息处理的研究热点.网上信息的分类目录组织是提高检索效率和检索精度的有效途径,如在利用搜索引擎对网页数据进行检索时,若能提供查询的类别信息,必然会缩小与限制检索范围,从而提高查准率. 同时,分类可以提供信息的良好组织结构,便于用户进行浏览和过滤信息.很多大型网站都采用这种组织方式,如 Yahoo[1]采用人工方式来维护网页的目录结构;Google 网站采用一定的排序机制,使与用户最相关的网页排在前面,便于用户浏览.Deerweser[2]等人利用线性代数的知识,通过矩阵的奇异值分解(singular value decomposition,简称 SVD)来进行信息滤波和潜在语义索引(latent semantic index,简称LSI).它将文档在向量空间模型(VSM) 中的高维表示,投影到低维的潜在语义空间(LSS) 中,这一方面缩小了问题的规模,另一方面也从一定程度上避免了数据的过分稀疏现象.它在语言建模、视频检索及蛋白质数据库等实际应用中取得了较好的效果. 聚类分析是文本挖掘的主要手段之一[3] .它的主要作用是:(1) 通过对检索结果的聚类,将检索到的大量网页以一定的类别提供给用户,使用户能够快速定位期望的目标;(2) 自动生成分类目录;(3) 通过相似网页的归并,便于分析这些网页的共性.K-均值聚类是比较典型的聚类算法,另外, 自组织映射(SOM)神经网络聚类和基于概率分布的贝叶斯层次聚类(HBC)等新的聚类算法也正在不断地研制与应用.然而这些聚类算法大部分是一种无监督学习,它对解空间的搜索带有一定的盲目性, 因而聚类的结果在一定程度上缺乏语义特征. 同时,在高维情况下,选择合适的距离度量标准变得相当困难.而网页分类是一种监督学习,它通过对一系列训练样本的分析 [4,5],如Naive Bayesian[6],SVM 等.遗憾来预测未知网页的类别归属. 目前已有很多有效的算法来实现网页的分类的是,获得大量的、带有类别标注的样本的代价是相当昂贵的,而这些方法只有通过大规模的训练才能获得较高精度的分类效果.此外,在实际应用中, 分类体系常常是不一致的,这为目录的日常维护带来了一定的困收稿日期: 2001-06-04; 修改日期: 2001-09-06 基金项目: 国家自然科学基金资助项目69803010) 作者简介: 宫秀军(1972 －), 男, 内蒙古赤峰人,博士,主要研究领域为数据挖掘,数据仓库技术;史忠植(194 1－), 男,江苏无锡人, 研究员,博士生导师,主要研究领域为数据挖掘,人工智能,机器学习. 宫秀军等:基于Bayes 潜在语义模型的半监督Web 挖掘