Web信息挖掘和主题特征研究.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web信息挖掘和主题特征研究,web情报挖掘研究设计,数据挖掘特征提取,数据挖掘特征选择,特征工程数据挖掘,数据挖掘中特征提取,数据挖掘特征值选取,用户特征挖掘,文本挖掘特征提取,数据挖掘特征构造

Web 信息挖掘和主题特征研究 3.1 引言 由于信息的爆炸增长,主题搜索引擎在特定的搜索领域,例如机票搜索、旅游搜索、生 活搜索、小说搜索,有着更好的用户体验。主题搜索引擎作为未来搜索引擎主要发展趋势, 在网络信息智能处理上还存在着仅能处理一种类型网页、提取的信息细化程度低、准确率与 效率矛盾、人工干预较多、不支持增量信息处理等不足。基于主题特征的Web 信息挖掘方 法可以对特定领域的数据进行精确的抽取、高效的过滤,发现数据潜在有用信息,做出合理 性的推理。 3.2Web 信息挖掘 Web 信息挖掘,又可称为Web 数据挖掘,通过归纳学习、机器学习、统计分析等方法 得到数据对象间的内在特性,据此采用信息抽取技术在网络中提取用户感兴趣的信息,获得 [1] 更高层次的知识和规律 。Web 信息挖掘的应用已经涉及到电子商务、网站设计、社会新闻 编辑和制作以及搜索引擎服务等诸多方面。根据Web 挖掘的对象,可以分为结构挖掘、内 容挖掘和使用挖掘三类。 3.2.1 Web 结构挖掘 Web 结构挖掘可以分为外部结构挖掘、内部结构挖掘。目前,网络的外部结构挖掘技 术已经是比较成熟的技术,例如著名的PageRank 算法、HITS 算法、FICA 算法等都已经成 功应用到各大搜索网站中。Web 的内部挖掘目前还无法根据网站、用户个性化的信息需求, 提供智能的信息处理。 Web 内部挖掘主要通过站点不同网页之间的链接结构、URL 目录路径结构,发现Web 站点中有潜在价值的信息。Web 内部挖掘出的信息,可以对站点页面进行排序,发现重要 的内容页面,重新组织内容结构,使内容逻辑结构更加合理。有助于用户找到相关主题的权 威网页,对网络资源检索结果的排序也有很大的意义。 3.2.2 Web 内容挖掘 [2] Web 内容挖掘是从Web 文档的内容或其描述中提取知识的过程 。Web 页面上蕴含的 信息是多种多样的,数据的表现形式也是多种多样的,使得网络内容挖掘只能局限某一类网 站、主题,信息提取细致化程度低,准确性差。Web 内容挖掘目前主要处理的对象包含: 文本信息、图片、视频、音频和其他资源,其中文本挖掘是Web 挖掘的重要方面,但是网 络上的Web 文本数据往往是无结构化或半结构化的数据,不利于信息的处理。这些非结构 的文本作为Web 页面主要的信息载体,如何将它们转换为结构化的文本成为Web 内容挖掘 日益突出的问题。通过Web 内容挖掘,可以将这些非结构化的数据进行总结、分类、聚类、 集成、建模,形成易处理数据,帮助用户过滤无用信息、从海量数据中得到可靠真实的数据 信息。 3.2.3 Web 使用挖掘 Web 使用挖掘又可以称作Web 日志挖掘,通过对Web 服务器的日志文件记录分析,发 现用户访问的潜在模式,确定产品的市场战略,提高商业活动的效率,为站点带来经济效益。 用户在浏览网页,会有一定的习惯性和倾向性,Web 使用挖掘利用用户的这种习惯和倾向, 可以识别用户的兴趣、喜爱,还可以发现潜在的用户。Web 使用记录包含了丰富的数据, 深度挖掘可以用于用户个性推荐、改进系统服务质量和性能、合理组织站点、智能商务等。 3.3 主题特征 主题特征主要指的是用概括性的属性知识集描述和表征主题。根据主题的微观和宏观特 征构建当前领域主题其表征的、普遍性、具有较高层次概念的知识集和规则集,用此来描述 主题事物间的共同性质,对主题进行高度的概括、约束、精炼和抽象。在进行Web 信息挖 掘时,利用主题特征项作为依据,可以衡量、评价未知信息与目标信息的相关程度,有效的 获取有用信息。根据描述对象,可以将主题特征分为主题的描述特征、主题网页特征和链接 特征。 3.3.1 主题描述特征 网络包含的信息广泛,资源形式各异,其中最能直接表征某一主题领域的表示形式就是 主题的描述特征。利用一组概念和概念关系集将某一主题领域抽象概括化,创建相关的主题 关键词汇集和语义联系规则描述主题。主题的描述特征为纷乱的信息资源提供了明确的概念 和形式化的说明,保证了资源知识的一致性。主题的描述特征,更为计算机提供了一组知识 规则,使得计算机能够自主的学习、共享知识和推理思考

文档评论(0)

tianma2015 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档