史籍分析平臺的本體構建.docVIP

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
史籍分析平臺的本體構建.doc

史籍分析平臺的本體構建 北京大學中文系 李鐸 摘要: 關鍵詞: 一、本體與本體庫 ONTOLOGY原本是十八世紀產生的哲學概念,二十世紀九十年代進入信息科學領域。目前我們就簡依哲學的翻譯方法,譯爲“本體”。既然是哲學術語,其基本意義依然是哲學的,即使是在計算機科學領域,如果從哲學的角度來思考研究它,它的意義便會清晰地顯現出來。 本體是抽象的概念,它所對應的是具體的事物。抽象的概念是不可以感覺到的,但是是可以思考的。而具體事物是可以感覺到,但是是不可以思考的。所以,本體是人類爲了思考而從具體物抽象出的概念。本體是人類思考,即認識、分類、判斷、推理地基礎。同樣的,如果要使計算機能夠思考,就必須從建設本體,所以,本體是人工智能AI的基礎。 本體不同於關係型數據庫,它要求用最基本的信息,盡可能小的內涵來達到最小的外延。應用於自然科學領域的,以質、量爲最基本需求。而人文社會科學,則需要時間、空間爲其最基本信息。而本體不同類間的關係,要求關聯,同類本體間,就需要建設如“父子”之關係。所以,“名、時、空和關係”爲其最基本的項。 針對中國古代文獻分析的需求,我們初步建設了“人物”、“地名”、“時名”、“職官”、“機構”、“文獻”本體。 本體的結構,以列分,爲4-6列,目前最大的是5列。一般均爲4列,如下: 一、名稱,即該本體的概念名詞,同時含別名表。 二、時間,是指該概念的存活期,起止時間。 三、空間,是地理信息,所處位置。 四、關係,層級關係。 如,地名:鄭州 一、鄭州;鄭 二、北宋 三、34.45/113.42(經緯度) 四、父:京西北路;子:原武、密縣、大隗、嵩渚山、梅山、滎陽、滎澤、賈谷、新鄭、須水、鄭州、管城 而人名則需要比基本信息增加一項,即:職官或職業。如,人名:李白 一、李白;白;太白;青蓮居士; 二、701/763 三、隴西成紀 四、父:李客 五:門下左拾遺 而其他的信息則是由不同的本體提供關聯的,如李白的作品,在“文獻”本體中,有作者項,其作者“李白”與人物本體“李白”相連接。同類本體關聯亦如此:如兄弟關係,則因爲他們有共同的“父”,在應用中自動生成兄弟等各種人物關係。“同僚”則以人物“職官”加“時間”通過“機構”而動態生成。 由於本體處在建設時期,提取的信息往往是不完善的,因此,我們在建設中設計了更多的關係層,這樣便於相互關聯,然而,在本體達到一定的量時,就會讓計算機自動整理,刪除不必要的信息。 有了人物文本庫,在分析歷史人物時,就可以不遺漏的找到全部的相關語料。這時,我們如果告訴計算機,我想要中國歷史上全部帝王的信息。計算機依人物本體庫中的爲官信息來判定該人物是否曾爲帝王,可以迅速將歷史上的帝王列出來,這還不算復雜,因爲,僅僅是在檢索語料,在檢索時代用別的手段也可以做到。但是要做更復雜一些的工作,比如,我想知道《資治通鑑》中所記載的九十餘次地震中,有那些帝王參與了善後處理,想知道哪些帝王參加過戰爭,哪些帝王不參加占卜活動,哪些帝王和平民的關係密切,哪些帝王和詩人、藝術家交往比較多,等等。這些問題,如果早幾年提出,那是在刁難計算機。而今天,這些問題幾乎可以說已經不算問題了。因爲我們使用數據分析,而不僅僅是檢索,讓計算機用分析的方法,爲我們的命題求解。數據分析必須建立在“本體”的基礎上。 然而有了人物本體庫還不夠,還不能真正對文獻進行數據分析,因爲它所面對的文獻數據是一堆“平面數據”,計算機並不夠保證查全率和查準率的同時完善。如,唐太宗,在文獻中並不一定是以“唐太宗”三個字出現的,如果是就容易多了,它可能僅是兩個字“太宗”,這樣一來,計算機就可能會將中國歷史上廟號稱爲“太宗”的十二位都檢到,它分不清哪個是“唐太宗”哪個是“宋太宗”哪個是“清太宗”。更有甚者,僅一個字,如“上”,它如果代表皇帝,就可以代表歷史上幾乎所有的皇帝。我們面臨兩難的選擇,如果我們用“精確匹配”,在查全方面大量損失信息,如果我們用“模糊匹配”,在準確性方面就不可靠,如果是僅限於檢索,計算機可以羅列出大量的並不是你所要的信息,如果讓計算機分析,讓它做上述的課題。那結論必然是不可靠的。 因此,計算機在分析文獻時,衹能對已標記的文獻進行分析。先將文獻中的“太宗”分別標記爲“李世民”的ID、“趙匡義”的ID和“愛新覺羅皇太極”的ID。這樣我們纔能分別對待之。也就是在分析之前,需要對文獻做預處理,需要對人物做一一標記,明確關聯到不同人物的ID上去,使原本“平面數據”變成“立體數據”。 如何標記古代文獻,這是目前古代文獻信息處理的一大難題。小量的文獻,人工標引是可能的,但是對數億漢字的文獻,衹能讓計算機做預處理,做預先的標引。 標記的第一步是用已建設成型的本體庫來掃描文獻,幾乎不引起歧義的,就可以直接標記上去。由於古代人對人的稱謂比較復雜,而且單字的過多,就會有

文档评论(0)

天马行空 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档