双语对应查询介面及领域词典标记建置说明--张如莹.PPTVIP

双语对应查询介面及领域词典标记建置说明--张如莹.PPT

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
双语对应查询介面及领域词典标记建置说明--张如莹

雙語對應查詢介面及領域詞典標記建置說明 張如瑩 ruyng@.tw 中研院語言所籌備處 2002年10月28日 電腦如何閱讀語意? 利用RDF(資源描述架構)與URI(通用資源標誌碼)連結到相關網頁/資源 藉超連結找到關鍵詞後 藉知識本體(Ontology)定義關鍵詞,並做邏輯推理 知識本體(Ontology) 對任一網頁/資源知識內容及資訊架構的描述與定義 以RDF(或類似語言)寫成的文件,清楚定義概念間的關係和推理的邏輯規則  請注意資訊學中把ONTOLOGY當成知識/訊息的基底架構;與哲學中本體論的原定義大不相同 知識本體的變遷 知識的豐富性從何而來? 從文化,領域,環境,族群,社會階層,媒體,學科,時代等… 知識的豐富性如何體現? 以共同的語言語語彙(即所謂的次語言「或行話─與領域詞彙「或專門辭典」) 領域詞彙庫運用 #1 領域詞彙庫運用 #2 十年後的網路與中文處理 朱邦復先生的宏願:九億農民上網 微軟研究院自然語言組經理周明的預測:五億中國人上網 黃居仁先生的預測:全世界上網人口中,每四人即有一人用中文 Source: panel on ‘Chinese Language Processing: 10 Years from Now’. The First SigHan Workshop on Chinese Language Processing. COLING2002. Sept. 1. Taipei. 如何呈現語言的知識本體? 詞彙網路WordNet是最直接的語言本體表徵 詞彙網路的構成元素: 某個語言內所有的詞彙(任一個詞形lemma與詞義sense的獨特配對定義為一個詞彙) 該語言表達的所有概念(即所有詞義sense) 一組基本的詞彙語意關係 中英雙語知識本體與領域檢索介面雛型 .tw/CKIP/ontology/ 資料來源 中研院遠見中英對譯資料庫 WordNet 1.7. 中研院詞庫小組 近程目標 建立完整精確的中英對譯資料庫及檢索介面,作為數位典藏知識國際化的基礎 逐步建立各領域之雙語領域辭典, 達成專門(學術)領域詞彙翻譯之標準化 作為該領域/典藏雙語控制詞彙的參考標準,及 具領域判斷能力資訊檢索之依據 建立帶領域標記之雙語辭典及檢索介面,以加值成為 知識加值雙語電子辭典 翻譯資料庫之精準雙語檢索 長程目標 建立精確的領域知識架構,以作為高加值知識產業的基礎 建立完整的知識本體架構,做為下一代網路(如「語意網」)之語意骨幹 建立以知識為經緯的中英雙語訊息交換平台,作為多語知識處理的憑藉 院內查詢-中查英 #1 院內查詢-中查英 #2 院外查詢-中查英 院內查詢-英查中 #1 院內查詢-英查中 #2 院外查詢-英查中 目前有的領域 一般的學科 人文學科 社會科學 形式科學 自然科學 應用科學 藝術 休閒娛樂 詞彙本身的指涉或使用 專名(說明文字符號的指涉) 語體(說明文字符號的使用) 各種語言∕詞源 corpus semantic field的規範 It should make sense in linguistic or psycholinguistic terms. It should be able to account exhaustively for the vocabulary in the corpus, not just for a part of it. It should be sufficiently flexible. I t should operate at an appropriate level of granularity (or delicacy of detail). It should, where appropriate, possess a hierarchical structure. It should conform to a standard, if on exists. 敬請指教 * * 詞類標記與後設資料工作營 Resource Property Value Subject Predicate Object Statement 例如:目前的搜尋引擎,搜尋「turkey」 Turkey ≠ turkey 例如:目前的搜尋引擎,搜尋「bank」 參考: 黃居仁,2002,「語意網,詞網,與知識本體: 淺談未來網絡上的知識運籌」,佛教知識組織管理研討會,9月13日。 教育部國語辭典 ABC 詳細請見:領域層級1.2版 Wilson Thomas(1997)

文档评论(0)

zhuwo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档