空间资讯专论ppt.ppt

下载文档 降价啦

1
0
约1.63万字
约 89页
2018-06-25 发布于浙江
举报
版权申诉
保障服务

空间资讯专论ppt.ppt

1、本文档共89页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

空间资讯专论ppt

空間資訊專論第四講空間資訊的文件挖掘講授大綱一、資訊擷取分類（ Information Extraction）二、關鍵詞擷取技術三、資訊擷取相關研究四、空間定位語彙的抽取五、空間TEXT MINING抽取案例參考資料：蔡純純，2003，中文新聞文件空間資訊擷取之研究—以火災、搶劫、車禍事件例，國立台灣大學地理環境資源研究所碩士論文（主要內容是由此論文編輯成）幽冥無定空間迷指標定位辯明晰文章內隱空間訊抽絲剝繭盡抽提朱氏詩集空間資訊是資訊內容的一環，通常指涉了絕對位置、相對位置或空間分佈等概念，而這些概念透過文字描述表達意義，作為資訊傳遞的媒介，使用具空間概念的詞彙如：地點、介係詞、連接詞等，透過特定文法傳遞空間資訊的訊息。新聞文件對電腦而言，屬於一堆沒有結構化的資料，如何讓電腦辨識，必須先對這些文件加以處理，相關的研究包括了資訊擷取（ InformationExtraction）、關鍵詞擷取（ keyword extraction）。一、資訊擷取分類（ Information Extraction）資訊擷取是為了提昇資訊檢索效能而發展出來的技術，它對資料進行文法剖析、重要名詞片語擷取以及語意了解等處理，目的是希望能將資訊提供者所要傳達的訊息，充份且完備的表現出來讓使用者充份了解。主要研究的重點是從大量文字資料中，自動抽取特定訊息，做為存取之用，並滿足使用者的需求。資訊擷取是由文件中擷取事先預設所需的資訊。訊息理解會議(Message Understanding Conference， MUC)中提到，資訊擷取不僅僅辨識重要的個體，還必須決定個體之間的關係。MUC-6 會議訂定的工作項目為：辨識專有名詞（Name Identification）、照應詞解析(Coreference Resolution)、腳本模版（Scenario Template）等三項。專有名詞的辨識正如字面上的意思，企圖擷取文件中的專有名詞；而照應詞的解析是串連專有名詞及其對應的代名詞；腳本模版則是依照預先訂定的模版，由文件中擷取相關的資訊填入模版的欄位。這三項工作可視為是有層級的關係，唯有專有名詞辨識完成，才能夠進行照應詞解析，而後進行腳本模版的記錄（陳光華，1997）。基本的資訊擷取系統可以包含以下幾個部份：文件版面分析模組、分詞模組、詞彙分析模組、語法分析模組、語義分析模組，其功能分別敘述如下，資訊擷取架構見圖1-1 （陳光華，1997）：圖1-1 資訊擷取架構１、版面分析模組（Layout Analysis Module）文件通常由文字、標題、表格、圖形等等組成，圖 1-2 是學術論文版面構成的一個例子。處理這類文件時，文件版面分析模組必須區分文字的結構區塊，然後串聯文字部份構成書面語，將其交由後續的語言處理模組；表格部份交由表格處理程序；圖形則交由圖形處理程序。圖1-2 學術論文版面結構（陳光華，1997） 2、分詞模組（Word Segmentation Module）中文分詞方面中文文件與英文文件在資訊擷取前置處理上，最大的差別是，中文文件需斷字處理而英文文件不同。因為英文文件每個字與字之間，以空白為區隔，而在中文文件，每個詞彙相連詞彙與詞彙之間並沒有明顯的區隔，需要利用工具或方法方能將有意義的詞彙分出來，分詞並不如想像的簡單，舉個例子說明如下：將劉大目的確實行動作了解釋這個句子包含很多可能的二字詞（Two-character Words），例如：目的、的確、確實、實行、行動、動作、了解、解釋，是只有一種分詞結果是正確的如下所示。將˙劉大目˙的˙確實˙行動˙作˙了˙解釋前述的例子還有一個困難的問題必須處理，亦即如何辨識劉大目是一個人名，而非三個單字詞（One- character Words）。 3、詞彙分析模組（Lexical Analysis Module）語彙分析模組主要是為詞彙加上詞類標記，進行更高階的處理。若是以下列的句子為例：「蘇聯總統戈巴契夫宣佈，蘇聯將在短期內自古巴撤出一支為數約一萬一千人的訓練旅」，依據中央研究院資訊科學研究所詞庫小組建構的漢語語料庫，加上詞類標記後為「蘇聯(Nc) 總統(Na) 戈巴契夫(Nb) 宣佈(VE)，(COMMACATEGORY)蘇聯(Nc) 將(D)在(P)短期(Na)內(Ncd)自(P) 古巴(Nc)撤出 (VC)一(Neu)支(Nf)為數(Na)約(Da)一萬一千(Neu) 人(Na)的(DE)訓練(Na)旅(Na)」，其中括弧內為該詞彙的詞類，以N開頭的詞類如Na、Nb、Nc、Neu、 Nf為名詞；以V開頭的詞類