模糊k-means分群法-企业运筹与电子化中心.ppt

下载文档 降价啦

1
0
约2.55千字
约 17页
2017-09-04 发布于天津
举报
版权申诉
保障服务

模糊k-means分群法-企业运筹与电子化中心.ppt

1、本文档共17页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

模糊k-means分群法-企业运筹与电子化中心

專利自動分群方法與範例了解分群方法與文件分群手法認識階層式分群方法與Non-exhaustive分群方法學習應用分群方法於專利文件分析為了掌握科技與產業趨勢之脈動，企業需要運用科技預測提供之訊息進行決策與布局。擁有完善的專利管理與分析制度，將可輔助企業在創新研發上獲得支援。發掘既有專利分布，以避免因侵犯他人專利而可能遭受之鉅額損失。分群及分類方法應用於專利文件分析並將專利資訊作有效之運用，已成為相當重要的議題。 8.1　分群方法探討 1/8 分群是一種預先不指定任何類別，將相同屬性的群體歸納於同一群的切割方法。同一群集中的資料彼此之間必須相似，而不同群集中的資料亦必須具有差異。使用分群的技術分析專利文件，將具有相關聯之技術歸納成不同群體，一群體可以代表出特定技術。 Han與Kamber將分群技術區分為五大方法分割法(Partitioning methods)：K-means、K-medoids。階層法 (Hierarchical method)： Agglomerative approach。 Divisive approach。密度法 (Density-based methods) 。格線法 (Grid-based methods) 。模式法 (Model-based methods)。 8.1　分群方法探討 3/8 學者MacQueen提出K-means之分群方法。首先使用者要預先給定群集數目k，一般是隨機定義出 k 個中心點(Centroids)，作為k個群集之中心。接著計算每個資料點與各中心點的距離，然後找出離資料點最近的中心點並將之歸類於該中心點所屬的群集中。所有資料點皆分群完畢後，再重新計算出k群個別的中心點，再一次重複上述的程序，直到無法再最佳化為止。 8.1　分群方法探討 4/8 K-medoids分群法用的概念是使用每一個群集中最中心的資料點當作群集中心。而其運作方式和K-means相似，不同的地方在於每回最多只改變一個群集中心。 K-means的群集中心點一開始以隨機產生，而之後重複運算的中心點則為平均值，並不是實際的物件；而K-medoids則是先任選k個物件作為群集的代表，亦即中心點。 8.1　分群方法探討 5/8 ISODATA分群法是針對初步分群後的結果，透過使用者所設定的門檻值，再進行合併或分裂群集的動作，而此動作可以改善K-means起始群集中心和群集數量這兩個問題。模糊K-means分群法(Fuzzy K-means clustering)，是由學者Bezdek所提出，原理是在K-means方法的基礎下，加入模糊的概念，每筆資料都被賦予一個介於0-1 之間的值來表示其隸屬於某個群聚的程度。 8.1　分群方法探討 6/8 階層法通常可再分成分裂法(Divisive algorithm)與聚合法(Agglomerative algorithm)，分裂法則是先把整個資料看成一個群聚，再將群集中相似程度最低的資料分割。聚合法在初始時，是將每一筆資料皆視為個別的群集，之後再將特性最相似的群集合併。密度法是利用資料點間密度的關係來分群，將資料集合中較密集的資料視為一個群集，運用密集度的方法不但可以濾除偏移值或雜質，且可以對任意形狀之群集進行分群。 8.1　分群方法探討 7/8 由於新科技種類增加之速度快過專利局分類標準之變化，儘管IPC等分類原則持續修訂，仍無法完整的表現出許多新科技應該歸屬的類別。例如部分RFID技術之應用，在UPC分類原則下歸類為圖書館書籍感應保全，其他應用卻又歸類於特殊天線架構，相同主題的技術被歸類於多種類別之下。因此，透過摘錄出每篇專利代表之屬性，並且藉由分群的方法，將具有相關聯之技術歸納成不同群體。　階層式分群演算法流程圖 8.3　Non-exhaustive分群方法 Hu所提出的Non-exhaustive clustering方法，是將關鍵字向量作為輸入進行分群。分群前的前置作業是要先建立關鍵字關聯矩陣，以表達關鍵字兩兩之間的距離。關鍵字關聯性矩陣可，判斷當任何一個關鍵字作為分群之群集中心時，其他關鍵字是否歸屬於同一群。 Non-exhaustive分群的技術可應用於科技預測，分為專利文件前置處理、專利技術分群、專利文件分群以及專利運用於科技預測四個程序。方法論程序圖專利文件前置處理關鍵字擷取是先建立知識領域本體論，然後利用專利文件的Abstract與Description部分來做分析。並將文件進行斷詞、去除停字、詞性解析、字詞還原等處理。最後再將本體論與TF-IDF方法所擷取出的關鍵字詞進行整併，這些關鍵字將作為文件分群的依據。專利文件分群首先將關鍵字之間的距離，轉換成介於0到1之間的相似程度(Simila