网站大量收购闲置独家精品文档,联系QQ:2885784924

空间资讯专论ppt.ppt

  1. 1、本文档共89页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
空间资讯专论ppt

空間資訊專論 第四講 空間資訊的文件挖掘 講授大綱 一、資訊擷取分類( Information Extraction) 二、關鍵詞擷取技術 三、資訊擷取相關研究 四、空間定位語彙的抽取 五、空間TEXT MINING抽取案例 參考資料: 蔡純純,2003,中文新聞文件空間資訊擷取之研究—以火災、搶劫、車 禍事件例,國立台灣大學地理環境資源研究所碩士論文(主要內容是由 此論文編輯成) 幽冥無定空間迷 指標定位辯明晰 文章內隱空間訊 抽絲剝繭盡抽提 朱氏詩集 空間資訊是資訊內容的一環,通常指涉了絕對位置 、相對位置或空間分佈等概念,而這些概念透過文 字描述表達意義,作為資訊傳遞的媒介,使用具空 間概念的詞彙如:地點、介係詞、連接詞等,透過 特定文法傳遞空間資訊的訊息。 新聞文件對電腦而言,屬於一堆沒有結構化的資料 ,如何讓電腦辨識,必須先對這些文件加以處理, 相關的研究包括了 資訊擷取( InformationExtraction)、 關鍵詞擷取( keyword extraction)。 一、資訊擷取分類( Information Extraction) 資訊擷取是為了提昇資訊檢索效能而發展出來的技 術,它對資料進行文法剖析、重要名詞片語擷取以 及語意了解等處理,目的是希望能將資訊提供者所 要傳達的訊息,充份且完備的表現出來讓使用者充 份了解。主要研究的重點是從大量文字資料中,自 動抽取特定訊息,做為存取之用,並滿足使用者的 需求。 資訊擷取是由文件中擷取事先預設所需的資訊。訊 息理解會議(Message Understanding Conference, MUC)中提到,資訊擷取不僅僅辨識重要的個體,還 必須決定個體之間的關係。MUC-6 會議訂定的工作 項目為: 辨識專有名詞(Name Identification)、 照應詞解析(Coreference Resolution)、 腳本模版(Scenario Template)等三項。 專有名詞的辨識正如字面上的意思,企圖擷取文件 中的專有名詞;而照應詞的解析是串連專有名詞及 其對應的代名詞;腳本模版則是依照預先訂定的模 版,由文件中擷取相關的資訊填入模版的欄位。這 三項工作可視為是有層級的關係,唯有專有名詞辨 識完成,才能夠進行照應詞解析,而後進行腳本模 版的記錄(陳光華,1997)。 基本的資訊擷取系統可以包含以下幾個部份: 文件版面分析模組、分詞模組、詞彙分析模組、語 法分析模組、語義分析模組,其功能分別敘述如下 ,資訊擷取架構見圖1-1 (陳光華,1997): 圖1-1 資訊擷取架構 1、版面分析模組(Layout Analysis Module) 文件通常由文字、標題、表格、圖形等等組成,圖 1-2 是學術論文版面構成的一個例子。處理這類文 件時,文件版面分析模組必須區分文字的結構區塊 ,然後串聯文字部份構成書面語,將其交由後續的 語言處理模組;表格部份交由表格處理程序;圖形 則交由圖形處理程序。 圖1-2 學術論文版面結構(陳光華,1997) 2、分詞模組(Word Segmentation Module) 中文分詞方面中文文件與英文文件在資訊擷取前置 處理上,最大的差別是,中文文件需斷字處理而英 文文件不同。因為英文文件每個字與字之間,以空 白為區隔,而在中文文件,每個詞彙相連詞彙與詞 彙之間並沒有明顯的區隔,需要利用工具或方法方 能將有意義的詞彙分出來,分詞並不如想像的簡單 ,舉個例子說明如下: 將劉大目的確實行動作了解釋這個句子包含很多可 能的二字詞(Two-character Words),例如:目的 、的確、確實、實行、行動、動作、了解、解釋, 是只有一種分詞結果是正確的 如下所示。 將˙劉大目˙的˙確實˙行動˙作˙了˙解釋前述 的例子還有一個困難的問題必須處理,亦即如何辨 識劉大目是一個人名,而非三個單字詞(One- character Words)。 3、詞彙分析模組(Lexical Analysis Module) 語彙分析模組主要是為詞彙加上詞類標記,進行更 高階的處理。若是以下列的句子為例:「蘇聯總統 戈巴契夫宣佈,蘇聯將在短期內自古巴撤出一支為 數約一萬一千人的訓練旅」, 依據中央研究院資訊科學研究所詞庫小組建構的漢 語語料庫,加上詞類標記後為「蘇聯(Nc) 總統(Na) 戈巴契夫(Nb) 宣佈(VE),(COMMACATEGORY)蘇聯(Nc) 將(D)在(P)短期(Na)內(Ncd)自(P) 古巴(Nc)撤出 (VC)一(Neu)支(Nf)為數(Na)約(Da)一萬一千(Neu) 人(Na)的(DE)訓練(Na)旅(Na)」,其中括弧內為該 詞彙的詞類,以N開頭的詞類如Na、Nb、Nc、Neu、 Nf為名詞;以V開頭的詞類

文档评论(0)

138****7331 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档