- 1、本文档共17页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
网络信息资源的数据挖掘类型与应用研究
随着Internet的飞速发展,网络信息资源急剧增长,网络信息过载问题日益突出,人们越来越多地关注如何开发和利用这些资源。然而,目前中英文搜索引擎均存在查准率、查全率不高的现象,这种现状无法适应用户对高质量的网络信息服务的需求;同时,电子商务以及各种网络信息服务迅速兴起,原有的网络信息处理与组织技术无法赶上这样的发展趋势。网络信息挖掘就是在这样的环境下应运而生,并迅速成为网络信息检索、信息服务领域的热点之一。
网络信息的数据挖掘不仅包括对网页内容本身的挖掘,也包括其链接模式,以及用户访问、存取、浏览、发布、操作等操作行为、访问行为所产生的信息的挖掘。有效地研究、挖掘、利用网络信息可以增强网站的吸引力,有的放矢地吸引用户群,更有效地利用网络资源
一、 网络信息资源及其特点 网络信息资源是指放置在英特网上能满足人们信息需求的信息集合。网络信息资源极其丰富,包罗万象,其内容涉及农业、生物、化学、数学、天文学、航天、气象、地理、计算机、医疗和保险、历史、法律、音乐和电影等几乎所有专业领域,是知识、信息的巨大集合,是人类的资源宝库。网络信息资源是一种新型数字化资源,与传统文献相比有较大的差别。网络信息资源具有一下特点: 1、数量大,类型多传播范围广。网络信息类型多样,有文本、数据、图像、图形、声频、视频信息、多媒体信息等;内容既有高质量的信息,也有有害信息和虚假信息,有个人信息也有在政府信息。最为特殊的是各种非正式信息被广泛生产与传播
2、网络信息资源没有统一的管理机制,信息安全缺乏保障。黑客攻击、计算机病毒和色情泛滥成为网络的三大痼疾。为防止有害信息耗费了大量的社会资源
3、网络信息资源分布零乱无序,信息更新快,寿命短,管理相对困难。信息发布自由,来源广泛,内容混杂,质量不一,控制也比较困难
4、以网站为信息活动的单位,以网页为信息发布和收集的单元
5、信息利用水平取决于网站软硬件的技术水平和服务能力,网络信息提供方式是以网站为基点并可在网站间灵活链接的信息服务网
6、网络创造了多层次的信息交流模式,全面反应了社会生活的各个领域,形成了百科全书式的知识网络和传播功能
二、 数据挖掘的语言 数据挖掘语言有助于数据挖掘系统平台的标准化,推动数据挖掘应用的发展。数据挖掘语言根据功能和侧重点的不同,可分为三种类型:数据挖掘查询语言、数据挖掘建模语言、通用数据挖掘语言
(一)数据挖掘查询语言DMQL 数据挖掘查询语言DMQL由数据挖掘原语组成。数据挖掘原语用来定义一个数据挖掘任务,通过查询的方式实现与数据挖掘系统通信,获得所需信息。数据挖掘查询语言DMQL主要有五种基本的数据挖掘原语定义:任务相关数据原语、被挖掘的知识的种类原语、背景知识原语、兴趣度测量原语、被发现模式的表示和可视化原语。DMQL 是基于这五种数据挖掘原语设计的查询式语言,类似于SQL 语言的语法,因此很容易与SQL 关系查询语言集成,很容易从关系数据库中挖掘知识信息。MSQL 是另一个数据挖掘查询语言,由Imielinski 和Virmani 提出。它使用了类似于SQL 的语法和SQL原语,为了规范规则产生和规则选择,提出了被称作GetRule 和SelctRule 的原语
(二)数据挖掘建模语言PMML 数据挖掘建模语言PMML 全称预言模型标记语言(Predictive Model Markup Language),是对数据挖掘模型进行描述和定义的语言,使数据挖掘系统在模型定义和描述方面有法可依,各种数据挖掘系统可以共享模型,又可以在应用程序系统中间嵌套数据挖掘模型,不需要独自开发,就能使数据挖掘达到深度挖掘的目的。预言模型标记语言PMML 是一种基于XML 的数据挖掘建模语言,利用XML 描述和存储数据挖掘模型,使用标准的XML 解析器对PMML 解析,可以得到预计的输入和输出数据类型。PMML2.0 主要由:标题(header)、数据字典(data dictionary)、数据流(data flow)、挖掘模型(mining schema)、数据转换(Derived Values、Statistics、Taxonomy、Normalization)、预言模型(Tree Model、Naive Bayes、General Regression、Regression Model、Sequences、General Structure、Asscocation Rules、Neural Network、Center and Distribution based Clustering)、模型组合定义(ensembles of models)、选择和
您可能关注的文档
- 企业进销存管理系统的研究和实现论文.doc
- 企业库存管理和控制研究.doc
- 企业生产及其采购计划管理软件开发.doc
- 企业组织和团队管理(企业文化和团队精神).doc
- 黔西地区煤中金赋存分布和富集地球化学机理研究.doc
- 浅议承包商建筑工程项目施工风险控制_论文答辨.ppt
- 侵害名誉权的损害后果及民事救济方式探讨.doc
- 氢气教学改进及其趣味实验设计.doc
- 倾斜式螺旋输送机的设计及其分析设计.doc
- 权力决策模式和绩效之相关性研究.doc
- 专卖店促销员销售与成交技巧培训课件(34P).pptx
- 红色商务风新员工入职销售技巧知识培训课件(34P).pptx
- 专卖店商场销售员销售与成交技巧培训课件(34P).pptx
- 小区物业保安法律知识培训课件(28P).pptx
- 专卖店销售员轻松成交技巧培训(34P).pptx
- 轻松成交客户新员工入职通用销售技巧知识培训(34P).pptx
- 2024年初级《银行业法律法规与综合能力》考前必刷必练题库500题(含真题、必会题).docx
- 2024年“新安法知多少”知识竞赛题库及答案(最新版).docx
- 2024年30秒毕业生面试工作自我介绍.docx
- 2024年《医务人员礼仪培训》心得体会.docx
最近下载
- 自理养老房间家具通用技术要求编制说明.docx
- 2023年北京市海淀区中考英语二模试卷(含答案解析) .pdf
- 2022年山东省各市中考语文真题记叙文阅读汇编.doc VIP
- QB∕T 5867-2023 老年公寓家具通用技术要求.pdf
- GB 50755-2012《钢结构工程施工规范》.doc
- T_CASME 612-2023 自理养老房间家具通用技术要求.pdf
- 2023年山东省13市中考真题记叙文阅读汇编.doc VIP
- QB_T 5867-2023 老年公寓家具通用技术要求.docx
- LY_T 3357-2023 定制家具木质部件通用技术要求.docx VIP
- DB43_T 2934-2024 木质定制家具通用质量管理规范.docx VIP
文档评论(0)