clementine12理论基础(全).docVIP

下载本文档

10
0
约2.41万字
约 41页
2016-12-20 发布于贵州
举报
版权申诉

clementine12理论基础(全).doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Automated Binary Classifier（）應用於二元分類的方法有以下四種：神經網路:類比人腦處理資訊的原理，將輸入變數不斷進行分解與組合從而最終與目標變數（二元變數）產生關係。決策樹：自上而下的建立樹形的分類從而對目標變數嘗試最優的分割。每個節點根據二叉或者多叉的不同又可以分為幾種方法。羅吉斯回歸：根據輸入變數和目標變數樣本資料建立起回歸模型來達到預測目標變數的目的。決策表：根據樣本值建立決策的邏輯運算式，同時也可以根據直觀的認識修改邏輯運算式中的參數。 Clementine可透過五種不同的方法來選擇好的模型: Overall accuracy：利用模型進行準確預測出的記錄數占全部記錄的百分比。 Area under the ROC curve：ROC曲線下方的面積。 Profit：總收益 Lift：提升度 Number of variables：所用變數個數 Numeric Predictor (數值預測) 當我們在配適模型時，可將變數分為目標變數(應變數)以及預測變數(自變數)，而根據目標變數與預測變數的資料類型不同，能適用的模型種類也就隨之而改變。舉例來說，針對目標變數而言，可將其分為數值型態以及二元類型的資料，其中線性迴歸分析(Linear Regression Analysis)就只能適用於目標變數為數值類型的資料，相反地，羅吉斯迴歸(Logistic Regression Analysis)則是用來處理目標變數為二元類型的資料。假設資料中有一個目標變數、個預測變數，而配適模型如下：那麼只要是目標變數()為數值型態的資料，就可以使用Clementine 12.0所提供的Numeric Predictor Node去比較所有適用的模型中各方面的表現能力為何。因此Numeric Predictor Node即是針對目標變數為數值類型的資料，來估計與比較不同的模型下所建立出來的模型其預測能力如何。 Clementine 12.0在目標變數為數值類型所支援的模型有：Neural Net、Classification and Regression (CR) Tree、CHAID 、Linear regression、generalized linear model以及Support Vector Machine (SVM)。 Time Series（時間序列）時間序列是指隨時間順序出現之一連串觀測值數列，日常生活中所熟悉的數值資料絕大部份皆為隨時間連續觀察所得有順序的觀測值數列集合。如失業率，股價，工廠生產線每日產能，季度GNP，及每月某廠牌之化妝品銷售量..等。時間序列分析的目的為對數列未來趨勢作預測（Forecasting）透析數列的各種趨勢，如主要趨勢成份(Trend Components)、季節變化成份(Seasonal Components)。對理論性模式與數據進行適合度檢定，以討論模式是否能正確地表示所觀測之現象，如一些常見的經濟模式。時間序列分析的假設前提數列為平穩型（stationary），或者是透過某些的方法使其平穩，最常用的方法是對資料差分(differencing)，實務分析時經常以數列走勢圖形及一些統計檢定量對數列的基本性質做初步的判斷。時間序列模型其中稱為記憶函數(memory function)，而所代表的意義即為對的影響程度。當一個系統輸入後，的產生是以記憶函數作為權數建立如上式之關係。平穩型時間序列基本模型有以下三種 Udny Yule 發展了一套對平穩型數列非常有用的模型自我迴歸模型 (Autoregressive Model, AR) 一階自我迴歸模型，AR(1) 就像是一條迴歸線 Zt-1 是自變數，Zt 是應變數。 p階自我迴歸模型，AR(p) 移動平均模型 (Moving Average Model, MA) 一階移動平均模型，MA(1) 其中稱為白噪音(white noise) θ為 at 的震動影響或記憶函數(shock effect or memory function) q階移動平均模型，MA(q) 自我迴歸移動平均模型(ARMA model) P階自我迴歸移動平均模型，ARMA(p,q): Classification CR TREE（分類回歸樹） CR Tree (Classification and Regression Tree)，稱為分類回歸樹，即CART演算法。 Breiman在