- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘研究现状:1.数据挖掘的丿应用越来越广泛,金融、医疗、电信、教学、零伟、诈骗、 安全隐私等各个方面;
近年来数据挖掘的研究热点:文木挖掘,Web挖掘(例如在云平台的应用),数据挖掘算 法、数据挖掘与数据库系统的集成(数据挖掘系统的理想体系结构是与数据库系统的紧密耦 合)、对不同数据形式的处理、异构数据的处理
网络木身是一个巨大的数据库,Web挖掘是一个巨大的挑战,Web上挖掘潜在的、有用的信 息是很有应用价值的,Web又是是一个特殊的数据库,相对于传统的单个数据库,其数据类 型不同,及存在结构化数据,也存在半结构化数据:图片、文木,怎么样实现从Web中挖 掘有用的信息是关键。
我要研究的内容:
参照已有的船舶设计资料(已有的知识资源),对船舶设计知识进行分类(自定义),分 类完成后按照知识内容和知识结构存到不同的数据表屮,数据表是存储在数据库中的
待挖掘的知识资源(Web知识资源),Web爬虫是Web挖掘中一种有效的实现方式,通过爬 虫挖掘的知识是在我们定义的范F貝内进行选择的,而且通常采取的事基于文木的分析算法
通过Web爬虫采集来的知识按照内容和结构(屈性)(数据表的类目是自定义的)存到不 同的数据表屮,然后将这些数据表存储在数据库屮,展示的时候根据表和字段查找出来
数据表中的知识类日是白定义的,分类是粗糙的,再通过可行的数据挖掘算法对这些数 据进行分析是必要的也是值得研究的,从而提炼出更有价值的结论、关系等知识,要进一步 研究的是如何对这些知识进行分析,达到知识主动推送的目的。
数据挖掘是在没冇明确假设的前提下去挖掘信息、发现知识,所得到的信息常常是预先 未知的、也是很难预料到的,共至是与人的直觉相违背但又非常有用的。
在用户对知识进行浏览、利用、共享等过程屮,积累了大量的历史数据,充分运用数据 挖掘技术可以实现对用户浏览记录、兴趣等进行关联挖掘分析,从屮挖掘出潜在的兴趣模式 进而预测用户需求:如在关联挖掘屮发现很多用户浏览/下载A类船舶设计知识的同时也浏 览/下载了 B类设计知识,那么对浏览/下载A类设计知识的用户,可以将B类设计知识推送 给他。
对知识的主动推送的实现过稈屮,用户的行为挖掘是关键,主要是运用关联规则挖掘技 术在待挖掘的数据库(web数据库、已有资源数据库),根据挖掘任务进行行为模式的挖掘, 关联挖掘算法是至关重要的,关联挖掘的结果就是从用户历史数据屮挖掘出用户兴趣模式 群。
当用户登录进入我的“个人屮心”时?,系统从历史信息挖掘出用户未来信息需求,依据 数据挖掘结果形成用户兴趣模型,并将符合用户需求的知识推送给用户,同时将用户对知识 资源访问的记录以LI志方式记录入库,后台再通过对这些积累的口志的分析关联挖掘出更新 模式库的关联规则。关联规则算法与爬虫技术的结合
关联规则算法:Apriori经典算法(算法描述,存在瓶颈:耗时、繁琐)
Apriori更新算法FUP(算法描述)
协同的体现:主要体现在交流所展现的知识的浏览权限上,通过创建项目讨论组的形式,如 果是该项目纟FI的组员,就可以进来参与讨论与知识共享,否则就没有权限
小论文提纲:题目:面向船舶设计的Web数据挖掘研究
1、 引言(船舶设计知识、数据挖掘简介,数据挖掘的优势)
2、 数据挖掘的过程
3、 Web数据挖掘实现方式:网络爬虫,
3.1网络爬虫的运行原理
3.2网络爬虫运行过程(与船舶设计知识结合的过稈图),爬虫是根据知识内容的不同以及结 构的不同定制的
3.3网络爬虫代码,包含算法的讲解
重点:网络爬虫
通过文献阅读发现,网络爬虫主要是运用在电了商务网站知识,例如对产品价格、购买 数量、商品评论等信息的搜集与展示,将网络爬虫技术运川在船舶设计知识是一个很值得研 究的课题。
网络爬虫是一个白动抓取网页的计算机稈序,首先需要我们设定爬虫选择范伟I,根据设定的 条件抓取相应网站上的网页,从一个或若干初始网页的URL JF始,连续不断地抽取正在爬 虫正在爬行所在页血上的新URL地址放入到待抓取队列,直到满足条件停止。
首先选择比较有权威的船舶设计知识相关网站(如屮国船舶网、和船舶设计研究院),对爬 虫设定爬行范I韦I,然麻主要采用基于文木的挖掘算法,对爬虫设定选择条件,白动搜集已选 主流船舶设计网站上的设计知识信息或资讯,将设计信息有规律地组织起来(以数据表的形 式存在于后台数据库中),集中管理,分类展示,为用户提供一个垂肓搜索的展示模式。垂 直搜索就是为了满足某些塔顶人群的需求,在某一专业领域内提供的定制的信息和相关服 务。
I public void crawl () throws ThrowabJ.e {
23456
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
文档评论(0)