- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第九章料掘非化料源掘分容掘掘存取掘利用日的群集演算法子商中的挖掘掘是利用料掘技文件及服中自萃取人感趣的它是一整合式技涉及到技人工智慧言等多域通常掘程可以分以下理段源料萃取及料理段料及模式段分析段主要掘系能文本中萃取出目的特徵然後根目特徵在路中行有目的的搜最後搜到的文件交付客索的目的是某一特定域行或文件的收集可以看作是掘用於中文件分的一情掘的目的就是大量看似的料起其中的和知以供策支援非化料源料掘的困度由於的放性性性等固有特要些分散的的有一管理的巨量料中快速地取也成掘所要解的一困之然向的料掘比一料的
第九章 Web資料採掘9.1 非結構化Web資料來源 9.2 Web採掘分類9.3 Web內容採掘9.4 Web結構採掘9.5 Web存取採掘9.6 利用Web日誌的群集演算法9.7 電子商務中的Web挖掘習題 Web採掘是利用資料採掘技術從Web文件及Web服 務中自動發現並萃取人們感興趣的資訊。它是一項 整合式技術,涉及到Internet技術、人工智慧、電腦 語言學、資訊學、統計學等多個領域。通常Web採 掘過程可以分為以下幾個處理階段:資源發現、資 料萃取及資料預處理階段,資料匯總及模式識別階 段,分析驗證階段。 主要區別為: 採掘系統則能夠從文本中萃取出目標資訊的特徵,然後根據目標特徵在網路中進行有目的的搜尋,最後將搜尋到的文件交付給客戶。 資訊檢索的目的是針對某一特定領域進行資訊或文件的收集,可以看作是Web採掘用於中文件分類的一種情況。 Web採掘的目的就是將大量看似無關的資料關聯起來發現其中的規則和知識以供決策支援。 9.1 非結構化Web資料來源 Web資料採掘的困難度 由於Web的開放性、動態性與異構性等固有特點, 要從這些分散的、異構的、沒有統一管理的巨量資 料中快速、準確地擷取資訊,也成為Web採掘所要 解決的一個困難之處,顯然,Web導向的資料採掘 比單一資料倉儲的資料採掘要複雜得多。以下是 Web資料採掘應考量的問題。 資料來源分析 在對網站作資料採掘時,所需要的資料主要來自於 三方面:Web伺服器中的日誌檔、Web伺服器中的其 他資訊以及客戶的背景資訊。 異構資料環境 從資料庫研究的角度出發,Web網站上的資訊也可 以看作一個資料庫,一個更大、更複雜的資料庫。 這就構成了一個巨大的異構資料庫環境。 半結構化的資料結構 Web上的資料具有一定的結構性,但因自我描述階 層的存在,從而是一種非完全結構化的資料,這也 被稱之為半結構化資料。 解決半結構化的資料來源問題 Web資料採掘技術首先要解決半結構化資料來源模 型,和半結構化資料模型的查詢與整合問題。 文本總結 文本總結是指從文件中萃取關鍵資訊,用簡潔的形 式對文件內容進行摘要或解釋。 XML與Web資料採掘技術 XML的產生與發展 XML(extensible markup language,XML)是由全球資訊網協會(W3C)於1998年2月正式發佈XML 1.0 XML是Web應用服務的SGML(standard general markup language,SGML)的一個重要部分,它是一種超標記語言(meta-markuplanguage) XML解決了HTML不能解決的兩個關於Web的問題 XML中的標記(TAG)是沒有預先定義的 XML是能夠進行自我描述(self describing)的語言。 XML使用文件類型定義(document type definition,DTD)來顯示這些資料 XML的主要特點 XML不僅可以很好地相容原有的Web應用,而且可以更好地執行Web中的資訊共享與交換 XML可看作一種半結構化的資料模型 XML為一種標記語言 XML提供了一個標示結構化資料的架構。XML提供了一個獨立的運用程式來共享資料 XML支援世界上所有以主要語言編寫的混合文本。 XML在Web資料採掘中的應用 XML能夠完成那些用標準的HTML無法完成的Web應用。這些應用可以被分成以下四類: 需要Web客戶端在兩個或更多異質資料庫之間進行通訊的應用 試圖將大部分處理負載從Web伺服器轉到Web客戶端的應用 要Web客戶端將同樣的資料以不同的瀏覽形式提供給不同的客戶的應用 需要智慧型Web代理程式根據客戶個人的需要裁減資訊內容的應用。 XML給Web導向的應用軟體賦予了強大的功能和靈活性 軟體代理商可以在中間層的伺服器上對從後端資料庫和其他應用處來的資料進行整合 XML的延伸性和靈活性允許它描述不同種類應用軟體中的資料 利用XML,客戶可以方便地進行局部計算和處理 XML可以被利用來分離使用者觀看資料的介面,使用簡單、靈活、開放的格式,可以給Web創建功能強大的應用軟體 XML定義的資料允許指定不同的顯示方式,使資料更合理地表現出來。 CSS和XSL為資料的顯示提供了公佈的機制。透過XML資料,可以粒狀地更新。 XML解決了資料的統一介面問題。 XML的自我解釋性使客戶端在收到資料的同時也瞭解資料的邏輯結構與含義,從而使廣泛、運用的分散式計算成為可能 XML還被應用於網路代理 能夠使不同來源的結構化的資料很容易地結合在一起 XML為組織、軟體開發者、Web網站和終端使用者提供了許多有利條件。 9.2
您可能关注的文档
- autodesk建筑信息模型课程2012 第四单元 - autodesk forums.ppt
- autoload pro教育训练手册.ppt
- bfi - observatoire des métiers de la banque.ppt
- bim – record file standards - los angeles world airports.pdf
- bim quale strumento di sostenibilità energetico-ambientale - ibimi.ppt
- bim实训室建设 - 装配式建筑与bim.doc
- bim在室内设计上的使用.ppt
- bim在建筑上的应用.pdf
- c11刘林涛~我的旅行日志.ppt
- ccc ms word english template v20 - 《科技管理研究》!.doc
最近下载
- 黑龙江省哈尔滨德强高级中学2024-2025学年高一下学期7月期末英语试题(含答案).docx VIP
- (正式版)S-H∕T 3541-2024 石油化工泵组施工及验收规范.docx VIP
- 文桥中学少年宫素描组活动计划.doc VIP
- 家电生产产品检测员岗位责任制.doc VIP
- 火灾报警控制器标准GB4717-2024专题培训.pptx
- 缓解学习压力与调整心态主题班会PPT课件.pptx VIP
- 钢纤维混凝土破坏机理及力学性能试验报告.docx VIP
- 浙教版人自然社会三年级第9课 避暑胜地莫干山 课件.ppt VIP
- 黑龙江省哈尔滨第三中学2024-2025学年度高一下学期期末考试生物学试卷(含答案).pdf VIP
- 主题一 2.我做非遗小传人 综合实践活动教科版六年级上册.ppt
文档评论(0)