- 1、本文档共89页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
空间资讯专论第四讲空间资讯的恙文件挖掘49
空間資訊專論第四講 空間資訊的文件挖掘 講授大綱 一、資訊擷取分類( Information Extraction) 二、關鍵詞擷取技術 三、資訊擷取相關研究 四、空間定位語彙的抽取 五、空間TEXT MINING抽取案例 參考資料: 蔡純純,2003,中文新聞文件空間資訊擷取之研究—以火災、搶劫、車 禍事件例,國立台灣大學地理環境資源研究所碩士論文(主要內容是由 此論文編輯成) 空間資訊是資訊內容的一環,通常指涉了絕對位置 、相對位置或空間分佈等概念,而這些概念透過文 字描述表達意義,作為資訊傳遞的媒介,使用具空 間概念的詞彙如:地點、介係詞、連接詞等,透過 特定文法傳遞空間資訊的訊息。 新聞文件對電腦而言,屬於一堆沒有結構化的資料 ,如何讓電腦辨識,必須先對這些文件加以處理, 相關的研究包括了 資訊擷取( InformationExtraction)、 關鍵詞擷取( keyword extraction)。 一、資訊擷取分類( Information Extraction) 資訊擷取是為了提昇資訊檢索效能而發展出來的技 術,它對資料進行文法剖析、重要名詞片語擷取以 及語意了解等處理,目的是希望能將資訊提供者所 要傳達的訊息,充份且完備的表現出來讓使用者充 份了解。主要研究的重點是從大量文字資料中,自 動抽取特定訊息,做為存取之用,並滿足使用者的 需求。 資訊擷取是由文件中擷取事先預設所需的資訊。訊 息理解會議(Message Understanding Conference, MUC)中提到,資訊擷取不僅僅辨識重要的個體,還 必須決定個體之間的關係。MUC-6 會議訂定的工作 項目為: 辨識專有名詞(Name Identification)、 照應詞解析(Coreference Resolution)、 腳本模版(Scenario Template)等三項。 專有名詞的辨識正如字面上的意思,企圖擷取文件 中的專有名詞;而照應詞的解析是串連專有名詞及 其對應的代名詞;腳本模版則是依照預先訂定的模 版,由文件中擷取相關的資訊填入模版的欄位。這 三項工作可視為是有層級的關係,唯有專有名詞辨 識完成,才能夠進行照應詞解析,而後進行腳本模 版的記錄(陳光華,1997)。 基本的資訊擷取系統可以包含以下幾個部份: 文件版面分析模組、分詞模組、詞彙分析模組、語 法分析模組、語義分析模組,其功能分別敘述如下 ,資訊擷取架構見圖1-1 (陳光華,1997): 圖1-1 資訊擷取架構 1、版面分析模組(Layout Analysis Module) 文件通常由文字、標題、表格、圖形等等組成,圖 1-2 是學術論文版面構成的一個例子。處理這類文 件時,文件版面分析模組必須區分文字的結構區塊 ,然後串聯文字部份構成書面語,將其交由後續的 語言處理模組;表格部份交由表格處理程序;圖形 則交由圖形處理程序。 圖1-2 學術論文版面結構(陳光華,1997) 2、分詞模組(Word Segmentation Module) 中文分詞方面中文文件與英文文件在資訊擷取前置 處理上,最大的差別是,中文文件需斷字處理而英 文文件不同。因為英文文件每個字與字之間,以空 白為區隔,而在中文文件,每個詞彙相連詞彙與詞 彙之間並沒有明顯的區隔,需要利用工具或方法方 能將有意義的詞彙分出來,分詞並不如想像的簡單 ,舉個例子說明如下: 將劉大目的確實行動作了解釋這個句子包含很多可 能的二字詞(Two-character Words),例如:目的 、的確、確實、實行、行動、動作、了解、解釋, 是只有一種分詞結果是正確的 如下所示。 將˙劉大目˙的˙確實˙行動˙作˙了˙解釋前述 的例子還有一個困難的問題必須處理,亦即如何辨 識劉大目是一個人名,而非三個單字詞(One- character Words)。 3、詞彙分析模組(Lexical Analysis Module) 語彙分析模組主要是為詞彙加上詞類標記,進行更 高階的處理。若是以下列的句子為例:「蘇聯總統 戈巴契夫宣佈,蘇聯將在短期內自古巴撤出一支為 數約一萬一千人的訓練旅」, 依據中央研究院資訊科學研究所詞庫小組建構的漢 語語料庫,加上詞類標記後為「蘇聯(Nc) 總統(Na) 戈巴契夫(Nb) 宣佈(VE),(COMMACATEGORY)蘇聯(Nc) 將(D)在(P)短期(Na)內(Ncd)自(P) 古巴(Nc)撤出 (VC)一(Neu)支(Nf)為數(Na)約(Da)一萬一千(Neu) 人(Na)的(DE)訓練(Na)旅(Na)」,其中括弧內為該 詞彙的詞類,以N開頭的詞類如Na、Nb、Nc、Neu、 Nf為名詞;以V開頭的詞類如VB、VC、VE為動詞;以 D開頭
您可能关注的文档
- 抗癫痫药物研核究进展96.ppt
- 康复饮食趁—蔡丹.ppt
- 康美药业20106-平2011年筹资分析.ppt
- 抗磁性和顺磁结性28.ppt
- 抗病毒治疗在特殊人群打中的临床经验.ppt
- 康复评定仔——协调平衡.ppt
- 抗高血压丹药新医学课件ppt课件.ppt
- 抗高血压般药及合理应用.ppt
- 抗恶性肿说瘤药2.ppt
- 抗菌药的p赏kpd理论.ppt
- 浙江衢州市卫生健康委员会衢州市直公立医院高层次紧缺人才招聘11人笔试模拟试题参考答案详解.docx
- 浙江温州泰顺县退役军人事务局招聘编外工作人员笔试备考题库及参考答案详解一套.docx
- 江苏靖江市数据局公开招聘编外工作人员笔试模拟试题及参考答案详解.docx
- 广东茂名市公安局电白分局招聘警务辅助人员40人笔试模拟试题带答案详解.docx
- 江苏盐城市大丰区住房和城乡建设局招聘劳务派遣工作人员4人笔试模拟试题带答案详解.docx
- 浙江舟山岱山县东沙镇人民政府招聘笔试模拟试题及参考答案详解1套.docx
- 最高人民检察院直属事业单位2025年度公开招聘工作人员笔试模拟试题含答案详解.docx
- 浙江金华市委宣传部、中共金华市委网信办所属事业单位选调工作人员笔试备考题库及答案详解1套.docx
- 广东深圳市党建组织员招聘40人笔试模拟试题及答案详解1套.docx
- 江苏南京水利科学研究院招聘非在编工作人员4人笔试模拟试题及参考答案详解.docx
最近下载
- 2025年4月20日四川省事业单位考试《公共基础知识》试题及答案解析参考.pdf
- 中层竞聘面试题目答案.doc VIP
- 电力系统优化与调度软件:PLEXOS二次开发_(4).电力系统优化理论.docx VIP
- 传染病、消毒知识测试题及答案.docx VIP
- 2025年解放军联勤保障部队第960医院医护人员招聘备考试题及答案解析.docx VIP
- 2021年版国家免疫规划疫苗儿童免疫程序相关知识考核试题含答案.docx VIP
- 电力系统优化与调度软件:Xpress二次开发_(3).电力系统优化问题的数学建模.docx VIP
- 中建钢筋精算管理操作手册.pdf VIP
- 电商仓库主管月工作总结.pptx
- 预防接种工作规范(2023版)试题.docx VIP
文档评论(0)