- 1、本文档共35页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
序列樣式
處理類別的屬性 有很多應用是包含對稱式二元屬性和名目(nominal)屬性。例如性別、家裡有無電腦、線上聊天、線上購物和隱私權的問題;也包含名目屬性,如教育層級與州名 使用關聯分析,我們可能會發現一些與網際網路使用者有關的有趣資訊,例如 {線上購物 = Yes} → {關心隱私權問題 = Yes} 這個規則表示:大部份線上購物的網際網路使用者會關心他們的個人隱私 當關聯分析應用至二元化的資料上時,要考慮的議題包括: 一些屬性值不是高頻項目,而不足以成為高頻樣式的一部份。這個問題對於名目屬性而言(如州名)會更明顯 和其他屬性值相較,有一些屬性值會有相當高的次數 一個用來減少計算時間的方式,是避免產生包含一個以上且為相同屬性項目的候選集 處理連續屬性的方法 離散式方法(discretization-based method) 統計式方法(statistics-based method) 非離散式方法(non-discretization method) 離散式方法 離散是最常用以處理連續屬性的方法。這個方法是將鄰近之連續屬性值分群至有限數值的區間中 屬性離散化中的一個重要參數是區間數量,此參數被用來切割每一個屬性,這個參數基本上是由使用者提供,且可被表示成區間寬度(相等區間寬度方法;等寬)、每個區間的平均交易數量(相等次數方法;等深)、或所需的群集數量(以分群為基礎之方法) 當針對年齡屬性做離散化時,區間寬度的取捨 若區間太寬,會因為信賴度不足而遺漏一些樣式 若區間太窄,會因為支持度不足而遺漏一些樣式 統計式方法 數量關聯規則(quantitative association rule)可被用來推論母體的統計特徵 為了產生以統計為基礎之數量關聯規則,必須指定目標屬性以用來區分母體中感興趣的部份(interesting segments)。藉由保留目標屬性,資料中剩餘的類別與連續屬性會用離散式的方法來做二元化,現存的演算法如Apriori或FP-growth則被應用於二元化資料中,以萃取高頻項目集,每個高頻項目表示母體的一個興趣部份 數量關聯規則是有趣的,只要用規則所涵蓋的交易資料而求得的統計量,與規則不涵蓋的交易資料而求得的統計量不同 非離散化方法 分析者在某些應用中,最感興趣的是在連續屬性(continuous attribute)中發現關聯,而不是在連續屬性中發現離散區間的關聯 在文字探勘中,分析者最感興趣的是去發掘字之間的關係(即data和mining),而不是字出現次數範圍間的關係 min-Apriori是另一個找尋字的關聯的方法,與傳統關聯分析類似,項目集會被視為一群字的集合,而它的支持度測量是根據字之間的關聯程度 項目集的支持度可根據其對應字的正規化次數(normalized frequencies)來計算 在min-Apriori中,某一特定文章中字的關聯可以取他們正規化次數的最小值,即min(word1,word2) = min(0.3, 0.6) = 0.3。項目集的支持度可以藉由整合所有文件中的關聯來計算 在min-Apriori中的支持度測量有下列特性,使得它適用於發掘文件中字的關聯: 當字的正規化次數增加時,支持度單調地增加 當包含字的文件數量增加時,支持度單調地增加 支持度有反單調的特性。舉例來說,假設一對項目集{A, B} 與 {A, B, C},由於min({A, B}) min({A, B, C}),則s({A, B}) s({A, B, C})。因此,在項目集中字的數量增加,則支持度單調地降低 概念階層 是在某個特定領域中,表示各種不同項目或概念之多層級組織架構 定義概念階層是根據領域知識(domain knowledge),或以某組織定義之標準分類架構為基礎(例如,國會圖書館之分類架構可用來組織資料的主題分類) 概念階層可使用有向無迴圈圖(directed acyclic graph)來表示, 如前頁投影片圖所示 整合概念階層至關聯分析中的主要優點如下: 在階層中較低層級之項目可能沒有足夠的支持度以出現於任何高頻項目集中 在概念階層之低階層中所發現的規則會有過度特殊的(overly specific)傾向,且不如高階層之規則有趣 序列樣式 序列資料對於識別動態系統中再發生的特性,或在某些事件中預測未來的發生是很有用的。 問題定義 序列樣式探勘 時間限制 替代的計算方法 序列樣式:問題定義 發掘序列樣式之問題的輸入為序列資料集合,每一列記錄某一特定物件在某時間內發生的相關事件 序列樣式:問題定義 序列可由它的長度和發生事件的數量來描述,序列的長度表示出現於序列中的元素數量,而k-sequence為一個包含k個事件的序列 序列樣式:問題定義 序列
您可能关注的文档
- 屋面工程技术规范-上海市建筑建材业.doc
- 山丘区铁路工程弃土(渣)场选址及防护措施研究-铁道建筑技术.doc
- 岛津MXF-2100型X-射线荧光分析仪-仪器信息网.doc
- 嵌入式实验1.ppt.ppt
- 家政员登记注册培训资料-登记站-上海家政公共服务网–沪家政.ppt
- 山頂國小生命教育課程設計與實施.doc
- 巡查系统建设清单-岳西县政务服务中心岳西县公共资源交易中心.doc
- 岛群中建港水动力关键技术问题研究-中国交通教育研究会.doc
- 工具书简介.ppt-通化师范学院图书馆.ppt
- 巧用判别式法解决数学问题-宁波外国语学校.doc
- 4篇 2025年党组副书记在学习中央八项规定精神理论学习中心组会上研讨发言材料.docx
- 6篇 2025年学习《求是》重要文章《朝着建成科技强国的宏伟目标奋勇前进》心得体会.doc
- 发展和改革局、卫生健康局2025年关于开展深入贯彻中央八项规定精神学习方案.docx
- 5篇 2025年党组书记在学习中央八项规定精神理论学习中心组会上研讨发言材料.docx
- 2025年4月深入贯彻中央八项规定精神学习教育读书班实施方案+在开展深入贯彻中央八项规定精神学习教育的工作方案.docx
- 2025年公安局关于作风建设工作情况的报告+2025年作风建设学习教育开展情况的报告.docx
- 5篇 2025年学习《求是》重要文章《朝着建成科技强国的宏伟目标奋勇前进》研讨发言.doc
- 班子成员、办公室党员干部在2025年度学习教育读书班上关于作风建设的研讨发言材料.docx
- 作风建设主题教育民主生活会个人对照检查材料(学思想、强党性、重实践、建新功)+在2025年深化能力作风建设启动会上的讲话.docx
- 3篇 2025年4月党支部“三会一课”方案.doc
最近下载
- NB∕T 10907-2021 风电机组混凝土—钢混合塔筒设计规范.pdf
- 普发ASM 310氦质谱检漏仪—操作说明书-中文.pdf
- 2022《刑事影像技术》考试复习备考题库(含各题型).pdf VIP
- (国家标准)GB 9078-1996 工业炉窑大气污染物排放标准.docx
- PKPM 软件说明书-隔震结构非线性设计分析软件-PKPM-GZ.pdf VIP
- 履行党风廉政职责情况汇报.doc VIP
- 基于大语言模型和BERT模型的本地知识库更新方法及系统.pdf VIP
- 小学科学三年级下册人教鄂教版(2024)合集.docx
- 黑龙江医疗机构集中采购目录挂网药品-黑龙江药品集中采购网.pdf
- 体能训练教案(全套).doc
文档评论(0)