基于神经网络的新闻文件自动分类方法.pdfVIP

下载本文档

8
0
约8.01千字
约 9页
2017-08-21 发布于重庆
举报
版权申诉

基于神经网络的新闻文件自动分类方法.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于神经网络的新闻文件自动分类方法.pdf

基於階層式類神經網路之自動新聞文件分類方法陳彥呈蔣榮先國立成功大學資訊工程系 chenyc@ismp.csie.ncku.edu.tw jchiang@mail.ncku.edu.tw 摘要摘要摘要摘要　　文件分類是一項決定一篇文件是否屬於一個或多個已事先定義好的類別之工作，而自動化分類則可以有效地幫助分類的處理。在本篇論文中，我們提出了一個以階層混合式的專家模組(hierarchical mixture of experts model)為基礎的文件分類方法。這個模組使用了分割－克服原理(divide-and-conquer principle) ，在一個事先定義好的階層架構下定義較小的分類問題，而最後的分類器則是使用類神經網路中的倒傳遞網路來完成分類機制。另外，在特徵選取(feature selection) 上，我們也做了一些有別於傳統方法的改變。最後，我們以部份路透社 (Reuters-21578)的新聞性文件做為測試資料，實驗結果顯示我們所提出的方法能有效地改善文件分類的正確率。 1. 緒論緒論緒論緒論　　近幾年來，隨著網路技術不斷地進步，有用的資訊也相對地大量成長中。雖然網路上舉手可得的資訊方便人們對資訊的取得與傳遞，但是當網路資訊量愈來愈大時，如何有效、且快速地取得有用的資訊，便成為非常重要的事情。此時，文件分類(text categorization)技術，即透過演算法分析一電子文件後，將其分配 (assign)給一或多個類別(categories) ，便扮演著其中重要的角色。　　傳統的文件分類工作都是由某個領域的人類專家(human experts in domain) 所完成。但是，隨著文件數量快速地成長，對於專家而言，這樣的工作就變得更困難了。在這種情況下，文件的自動分類就顯得更加重要了。　　很多在做文件分類的方法中，例如使用規則庫(rule-based) 、知識庫 (knowledge-based) 、或樣本庫(instance-based) ．．．等，都是依賴大量的樣本來決定和文件有關的規則或知識。一般而言，這些樣本集合必須由那些對應用領域有深入認識的專家來訂定與建立，也因此，這些方法常常因為相關樣本建立得不足或不完全，使得規則或知識也就相對地不齊全，因此，就無法對文件做全盤性的樣本比對，以致於造成了分類上的困難。　　在本篇論文中，主要的動機在於改善目前文件分類的方法，我們不以關鍵字的存在否來決定一篇文件應屬於那一個或多個類別。進一步的，我們採用以類神經網路為基礎的階層式架構的機器學習的方法來決定文件的歸屬。而且，經由這樣學習的方法，可以使文件分類系統更容易地應用到其他的領域。　　本篇論文除了緒論外，第二節將介紹我們所提的階層式模組，第三節將介紹特徵及訓練樣本集的選取，第四節則針對我們所使用的路透社新聞性資料集所做的一些自動化文件分類實驗的結果與分析。最後，我們為本篇論文提出總結。 2. 階層式模組階層式模組階層式模組階層式模組　　圖一所示，是我們所提出的自動化文件分類的完整模組。一個文件分類系統 (text categorization system)的主要工作流程，是先用一組訓練樣本集來訓練系統中的文件分類器；然後再藉由已訓練好的分類器對測試樣本中的新文件做自動化分類的動作。在圖一的實線箭頭部份是整個文件分類的詳細訓練過程，首先決定一組已由專家分類好的樣本集，從此樣本集中，經過一連串的前處理程序後，選擇一組最能代表及識別(identification)此類別的特徵集(feature set) 。並以向量方式表示之，如此就可得到一個以特徵向量表示的樣本組，而在階層式類神經網路模組中，主要是希望能透過每一個樣本組來訓練其所屬的分類器，使其能很正確地將每一個樣本分到正確的類別去。經過一連串的反覆學習後