习题知识分享平台.DOC

  1. 1、本文档共18页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
习题知识分享平台

資料探勘 期中作業 (1-7習題各三題) 班級:碩研資工一甲 學號:M97G0217 姓名:黃烱育 Chapter 1 簡介 習題 1-1 (a)不是欺騙,擅用關聯規則可以提升得到較好的利潤,透過消 費者購物 習慣及分析可以將其相關物品擺放相鄰位置,不僅 提升消費者購物慾望也可讓商家利潤提高造成雙贏局面。 (b)不是簡單的轉換,機器學習和統計資料分析工具,僅是個不 能處裡大量資料的資料分析系統,而資料庫系統僅能處裡資 料存取,所以它們皆不能真正執行資料探勘。然而資料探勘 他是整合許多的科學方法,像是資料庫和資料倉儲、統計、 機器學習、高效能運算、圖形辨識、類神經網路、資料圖示、 資訊存取、影像與訊號處裡、空間與時間資料分析。 (c)資料庫技巧從最原始的檔案裡,發展到具有查詢與交易處裡 的資料庫管理系統,進一步發展的過程導致對有效力與有效 率的進階資料分析工具有更多的需求,這種需求是由於商業 與管理、政府監督、科學與工程、環境控管龐大資料成長的 結果。 (d)過程包含資料清除、資料整合、資料選取、資料轉換、資料 探勘、樣式評估、知識呈現。 習題 1-4 資料庫是含有組織中所有的資料和資訊未經過處理分類的資料倉儲經過處理分類的 習題 1-9 工作相關資料設定探勘知識的類型背景知識有趣度量顯示發覺樣式知識呈現與顯示方法 Chapter 2 資料前處理 習題2-4 (a) 均值= 29.85 中值= 25。 (b) 雙模式,在集合中出現最多的25和35皆出現4次。 (c) 41.5 (d) Q1 = 20,Q3 = 35 (e) Min = 13,Q1 = 20,mid = 25,Q3 = 35,Max = 70 (f) (g) q-q圖:圖將一個單變量的量分位與另一個相對應的量分 位互相比較。 量分位圖:顯示特定屬性的所有資料以及繪製量分位資訊。 習題 2-6 忽略這些值組。 利用人工方式填入遺失值。 利用全域常數(global constant)填入遺失值。 使用屬性均值來填入遺失值。 使用相同類別值組的屬性均值。 使用最有可能的值來填入遺失值。 習題 2-11 normalization 200 300 400 600 1000 min-max(0/1) 0 0.125 0.25 0.5 1 z-score 1.06 0.7 0.35 0.35 1.77 Chapter 3 資料倉儲與即時分析處理方法 習題 3-1 由於傳統資料庫使用包裝器和整合器來進行不同性質資料庫整合,當使用者進行查詢,metadata dictionary必須將查詢轉換為各種不同性質的查詢,再從各個查詢傳回的結果彙整成全域答案集合,這種查詢導向的方法需要複雜的資訊過濾與整合過程,並會競爭區域資源,對於頻繁查詢,這種做法會非常沒有效率,而資料倉儲使用更新導向的方法,不同性質的資料來源是先進行整合並存於資料倉儲,以變進行直接查詢與分析,這會使資料倉儲有效率的整合不同性質的資料庫,同時資料倉儲的查詢不會影響區域資源的處理,再者,資料倉儲能儲存與整合歷史資料並支援複雜的多維度查詢,所以資料倉儲較為業界所喜愛,畢竟time is money。 (i) 若需擷取詳細之資料以供決策者參考時。 (ii) 若只需在單一時間上做單一資料處理時。 習題3-2 雪片、事實星座與星網查詢模式。 雪片查詢模式: 雪片狀模式是星狀模式的延伸。如同星網模式,雪片模式的架構也是在中間有一個事實表格,而這個事實表格會與維度表格相連。 與星網模式不同的地方是,每個維度並不一定只有一個維度表格。在雪片模式的架構上,維度表格可以被延伸出去。 事實星座查詢模式: 事實星座模式是由星網模式延及雪片模式所延伸而成。在這種模式中,不同的事實表可以透過一致性維度表格串連在一起,這讓我們可以做跨越事實表格的分析。 星網查詢模式: 星網狀模式的架構是在中間有一個事實表格。這個事實表格會與相 關的維度表格相連,而每個維度表格只與事實表格相連。由於這種架構看起來像一顆星星,所被稱為星網模式,在這種模式下,一個維度表格就代表一個線維度。 資料清除、轉換與更新(refresh)。 資料清除:找出資料的錯誤並盡力矯正。 資料轉換:進行不同資料格式轉換。 資料更新:將更新資料傳遞給資料倉儲。 企業昌儲、資料超市與虛擬倉儲。 企業昌儲:收集涵蓋整個組織的資訊,它對整個企業資訊進行整合,資料通常來自一個或多個操作系統或外部訊息供應者,而它的範圍是跨功能性的,它包含明細與整合性資料,而資料大小由幾個gigabyte到terabyte或更多。企業資料倉儲可用傳統大

文档评论(0)

xiaozu + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档