Chapter3-南华大学资讯管理学系暨研究所.ppt

下载文档 降价啦

3
0
约1.12万字
约 53页
2017-06-14 发布于天津
举报
版权申诉
保障服务

Chapter3-南华大学资讯管理学系暨研究所.ppt

1、本文档共53页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

* Data Mining * 建立新屬性利用舊屬性將探勘所需的新屬性建立出來。例如：整合後的資料只包含會員的生日，然而探勘時要用的屬性是會員的年齡，由於年齡可以從生日推算而出，因此可在此步驟建立出所需要的年齡屬性。(Derived Variables) * Data Mining * 資料正規化 Data Normalization 資料正規化的主要目的是將不同標準之下所記錄的資料轉換到同一個標準，以便提高分析時的準確度。資料的正規化會將資料重新分佈在一個較小而且特定的範圍內。例如：台灣人民的平均所得遠高於菲律賓人。一個月賺一萬八千元台幣在台灣算是中低收入，然而在菲律賓，這卻是相當於三個大學教授的薪水。若是直接拿兩國人民的收入數字來做比較，便會產生不夠客觀的問題。 * Data Mining * 極值正規化 (1/2) 極值正規化的公式如下：其中v為正規化前的數值，其範圍為[a, b]; v’為正規化後的數值，其範圍為[c, d]。 a b c d v v’ * Data Mining * 極值正規化 (2/2) 假設一般臺灣上班族的月收入範圍為[20000, 100000]，而一般菲律賓上班族的月收入範圍為[2000, 10000]；在台灣收入30000元相當於在菲律賓收入多少？ v = 30000 a = 20000 b = 100000 c = 2000 d = 10000 將以上數字代入公式中即可求得v正規化後的數值為極值正規化適合用在需要將資料規範在某一個指定範圍內的情況。 * Data Mining * Z-分數正規化公式範例：假設臺灣人月收入平均為35000元，標準差是10000元，利用Z-分數法將月收入30000元做正規化，將得到負數表示收入低於平均，正數表示高於平均；結果之絕對值越小，表示偏離平均值程度越小，反之越高 Z-分數正規化適合用在需要了解數值與平均分佈之間的關係時 * Data Mining * 十進位正規化十進位正規化之公式如下：，其中ｉ是使得Max(|v’|)?1的最小整數。假設台灣上班族最高月收入為100000元，因此使得正規化後的結果小於或等於1的最小整數ｉ為5。則月收入30000元經由十進位正規化之後將會得到：十進位正規化適合用在要將數字壓縮到區間[0,1]的情況。 * Data Mining * 資料形式轉換資料探勘技術所能處理的資料形式(data forms) 通常可分為四種：本文形式、時間形式、交易形式、關聯形式。本文形式：通常表示內容或是文件，可看作是字串的集合。例如：新聞或是各種網頁的內容。時間形式：通常儲存著時間序列(time series)，記錄隨時間而改變的資料。例如：證劵交易的行情變化或是顧客的交易歷程。交易形式：記錄交易的項目。例如：顧客單次採購的商品項目所成之集合。關聯形式：即關聯式資料庫中的表格，是最常用的資料形式，可儲存多種型態的資料。 * Data Mining * 資料探勘技術適用之資料形式(1/6) 多層次資料一般化 (multilevel data generalization) 主要目標是要在資料庫中發掘出較高層次的資料觀點(view)，以表達某些人類比較容易了解的觀念。例如了解來自不同區域的學生各科成績之間的關係。(concept hierarchy) 合適之資料形式：關聯形式，主要乃藉由收集統計關聯式資料庫表格的對應屬性資料，以發掘出較高層次的資料觀點。 * Data Mining * 資料探勘技術適用之資料形式 (2/6) 分類法 (data classification) 主要目的是在訓練樣本中發掘出分類的規則，以用來分類新進資料。合適之資料形式：適用於關聯形式的資料，以關聯式資料庫表格來儲存訓練樣本，以一個屬性做為分類的目標屬性，其中記錄著資料樣本的分類標記(class label)，而其他屬性則被當作分類演算法的輸入數據。 * Data Mining * 資料探勘技術適用之資料形式 (3/6) 群集分析 (cluster analysis) 根據資料樣本的樣式(pattern)，將最相似的資料樣本分成一個群集；同一群集的資料樣本差異性小，而不同群集的資料樣本差異性大。合適之資料形式如同分類法，適用於關聯形式的資料，以關聯式資料庫表格來儲存欲進行群集分析探勘的資料樣本。 * Data Mining * 資料探勘技術適用之資料形式 (4/6) 關連法則探勘 (association rules mining) 關連法