资料仓储(Data.docVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
资料仓储(Data

資料倉儲(Data Warehouse)與資料採礦 要進行資料採礦前,企業必須先行建置資料倉儲。資料倉儲乃是儲存大量資料之資料庫,其與資料庫最大的不同之處則在於,資料庫中所儲存之資料通常為與營運(Operation)相關之資料,而這些資料在累積一段時間後,除儲存備份外,亦可加以整理後移轉至另一資料系統供作資料分析之用,稱之為資料倉儲。 由於將資料庫中之資料移轉至資料倉儲必須先行經過資料萃取及重新整理之過程,因此資料分析師可藉由相關分析工具如線上分析處理(On-Line Analytical Processing, OLAP)之工具、統計分析以及其他如資料採礦之分析工具來進行資料分析。 不同的分析工具針對相同的資料數據可能產生各種簡單與複雜的分析結果。一般而言,資料庫均有類似如詢問(Query)與報告(Reporting)等分析工具,藉由系統所設定之參數,產生不同之分析報告。 此類分析報告多屬制式性質,通常由部門中技術類型之經理(Functional Manager)來負責,一般分析的標的為不同時期之銷售量、成本等資料;而線上分析進行之工具以及多層次(Multi-Dimensional)分析工具則多屬企業內部商業分析人士專屬使用,這些分析工具使得分析人士有能力得以對於原始資料加以剖析(Drill)以瞭解資料所呈現出之不同面向,或是瞭解不同參數間之相關性;資料採礦亦具有上述之特性,惟其與上述各項分析工具主要之區分在於資料採礦可以針對相當大量之資料加以分析,找出資料中的隱性模式(Hidden Patterns)。 資料採礦本質上與統計分析技術及線上分析技術有所不同。統計技術分析僅能針對較少量之資料,就資料之關聯性或統計學上不同之標的加以分析;而線上分析處理技術,則為一般資料倉儲所採用之分析報告,可以針對制式化以及關聯性較低的數據資料加以分析。例如線上分析處理可以提供零售業者瞭解不同產品、區域以及其對於成本及銷售收入之影響,但是並無法提供顧客之購買行為模式,如顧客在購買零食後通常會購買飲料等顧客購買相關產品間之關連性。 以下的例子可以簡單的說明線上分析處理與資料採礦對於資料分析的不同點: 資料採礦之步驟與技術分類 網路或資訊軟體之應用並未改變資料採礦之流程,但是新資訊科技加速了資料採礦的流程並擴充了應用層面。在實體商品世界中,直效行銷(Direct Marketing)可能要耗費數週甚至數月來籌備,在資訊世界的領域中,直效行銷往往只是彈指之間即可完成。 雖然資料採礦涉及資訊軟體與統計分析,範圍相當廣泛,然而由於資訊科技的進步,一般企業使用者幾乎不需要過分瞭解軟體背後所涵蓋之專業知識。最重要的是,資料採礦之重點在於能夠瞭解資料背後所寓含之意義,以及資料分析對於商務營運所可能產生之功效,倘若公司無法或錯誤解讀資料,資料採礦也就完全失去了意義,甚至可能對公司營運產生負面效果。 資料採礦係一種利用分析與行為模組(Modeling)之技術,可瞭解顧客行為模式同時預測顧客未來可能行為模式之資訊軟體應用。而進行資料採礦有三個基本步驟:資料之描述、預測模組之建立以及測試模組之可信度。 首先,業者必須針對需進行資料採礦之資料進行整理,瞭解資料分析對於企業運作所可能產生之效益與優點,再針對資料庫中之資料加以分析,擷取最符合經濟效益之資料內容。其次,企業必須就歷史資料庫中之資料建立一個可供分析使用之模式(Model),並針對所設計之模式整合編修較不完整或遺失之資料,再從所設計之模式中找尋可資利用之資料行為模式。最後,則必須針對所建立之模組進行測試。測試之進行可從資料庫中透過取樣之方式,以測試所建立模組結果之真偽,然後再從測試結果瞭解模組之可信度。 由於不同之產業與顧客群特性,企業有時必須針對不同之模組設計來進行抽樣研究,再從中找尋最合適之模組與應用方式。錯誤之模組設計往往將導論出不同之結論,由於資料採礦之結果通常為行銷策略之重要指標,因此錯誤的設計不僅會使企業的行銷計畫不如預期,甚至可能會使公司營運遭到嚴重打擊。 資料採礦雖與傳統所用之統計分析有所不同,然二者之本質內容仍屬類似。簡單的資料採礦仍普遍應用統計學中之資料分析方式,分析資料之數學特性如平均值、中位數等,以及瞭解數據資料間之關連性如線性迴歸等分析方式,來作為資料預測之依據。 而常見之資料採礦分析類別可概分為下列數種: (一) 線性迴歸(Linear Regression): 線性迴歸分析方式乃是藉由二個或二個以上之變數,瞭解彼此間之關係。如廣告預算可能對銷售收入所造成之影響,即可藉由廣告預算與銷售收入二者之歷史數據,利用線性迴歸分析來瞭解數據間之關連性,進而預測未來廣告收入之增減可能對銷售收入所產生之影響。 (二) 最鄰近者(Nearest Neighbor): 此種

文档评论(0)

f8r9t5c + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8000054077000003

1亿VIP精品文档

相关文档