史籍分析平臺的本體構建.docVIP

下载本文档

4
0
约9.25千字
约 8页
2017-09-01 发布于重庆
举报
版权申诉

史籍分析平臺的本體構建.doc

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

史籍分析平臺的本體構建.doc

史籍分析平臺的本體構建北京大學中文系李鐸摘要：關鍵詞：一、本體與本體庫 ONTOLOGY原本是十八世紀產生的哲學概念，二十世紀九十年代進入信息科學領域。目前我們就簡依哲學的翻譯方法，譯爲“本體”。既然是哲學術語，其基本意義依然是哲學的，即使是在計算機科學領域，如果從哲學的角度來思考研究它，它的意義便會清晰地顯現出來。本體是抽象的概念，它所對應的是具體的事物。抽象的概念是不可以感覺到的，但是是可以思考的。而具體事物是可以感覺到，但是是不可以思考的。所以，本體是人類爲了思考而從具體物抽象出的概念。本體是人類思考，即認識、分類、判斷、推理地基礎。同樣的，如果要使計算機能夠思考，就必須從建設本體，所以，本體是人工智能AI的基礎。本體不同於關係型數據庫，它要求用最基本的信息，盡可能小的內涵來達到最小的外延。應用於自然科學領域的，以質、量爲最基本需求。而人文社會科學，則需要時間、空間爲其最基本信息。而本體不同類間的關係，要求關聯，同類本體間，就需要建設如“父子”之關係。所以，“名、時、空和關係”爲其最基本的項。針對中國古代文獻分析的需求，我們初步建設了“人物”、“地名”、“時名”、“職官”、“機構”、“文獻”本體。本體的結構，以列分，爲4-6列，目前最大的是5列。一般均爲4列，如下：一、名稱，即該本體的概念名詞，同時含別名表。二、時間，是指該概念的存活期，起止時間。三、空間，是地理信息，所處位置。四、關係，層級關係。如，地名：鄭州一、鄭州；鄭二、北宋三、34.45/113.42（經緯度）四、父：京西北路；子：原武、密縣、大隗、嵩渚山、梅山、滎陽、滎澤、賈谷、新鄭、須水、鄭州、管城而人名則需要比基本信息增加一項，即：職官或職業。如，人名：李白一、李白；白；太白；青蓮居士；二、701/763 三、隴西成紀四、父：李客五：門下左拾遺而其他的信息則是由不同的本體提供關聯的，如李白的作品，在“文獻”本體中，有作者項，其作者“李白”與人物本體“李白”相連接。同類本體關聯亦如此：如兄弟關係，則因爲他們有共同的“父”，在應用中自動生成兄弟等各種人物關係。“同僚”則以人物“職官”加“時間”通過“機構”而動態生成。由於本體處在建設時期，提取的信息往往是不完善的，因此，我們在建設中設計了更多的關係層，這樣便於相互關聯，然而，在本體達到一定的量時，就會讓計算機自動整理，刪除不必要的信息。有了人物文本庫，在分析歷史人物時，就可以不遺漏的找到全部的相關語料。這時，我們如果告訴計算機，我想要中國歷史上全部帝王的信息。計算機依人物本體庫中的爲官信息來判定該人物是否曾爲帝王，可以迅速將歷史上的帝王列出來，這還不算復雜，因爲，僅僅是在檢索語料，在檢索時代用別的手段也可以做到。但是要做更復雜一些的工作，比如，我想知道《資治通鑑》中所記載的九十餘次地震中，有那些帝王參與了善後處理，想知道哪些帝王參加過戰爭，哪些帝王不參加占卜活動，哪些帝王和平民的關係密切，哪些帝王和詩人、藝術家交往比較多，等等。這些問題，如果早幾年提出，那是在刁難計算機。而今天，這些問題幾乎可以說已經不算問題了。因爲我們使用數據分析，而不僅僅是檢索，讓計算機用分析的方法，爲我們的命題求解。數據分析必須建立在“本體”的基礎上。然而有了人物本體庫還不夠，還不能真正對文獻進行數據分析，因爲它所面對的文獻數據是一堆“平面數據”，計算機並不夠保證查全率和查準率的同時完善。如，唐太宗，在文獻中並不一定是以“唐太宗”三個字出現的，如果是就容易多了，它可能僅是兩個字“太宗”，這樣一來，計算機就可能會將中國歷史上廟號稱爲“太宗”的十二位都檢到，它分不清哪個是“唐太宗”哪個是“宋太宗”哪個是“清太宗”。更有甚者，僅一個字，如“上”，它如果代表皇帝，就可以代表歷史上幾乎所有的皇帝。我們面臨兩難的選擇，如果我們用“精確匹配”，在查全方面大量損失信息，如果我們用“模糊匹配”，在準確性方面就不可靠，如果是僅限於檢索，計算機可以羅列出大量的並不是你所要的信息，如果讓計算機分析，讓它做上述的課題。那結論必然是不可靠的。因此，計算機在分析文獻時，衹能對已標記的文獻進行分析。先將文獻中的“太宗”分別標記爲“李世民”的ID、“趙匡義”的ID和“愛新覺羅皇太極”的ID。這樣我們纔能分別對待之。也就是在分析之前，需要對文獻做預處理，需要對人物做一一標記，明確關聯到不同人物的ID上去，使原本“平面數據”變成“立體數據”。如何標記古代文獻，這是目前古代文獻信息處理的一大難題。小量的文獻，人工標引是可能的，但是對數億漢字的文獻，衹能讓計算機做預處理，做預先的標引。標記的第一步是用已建設成型的本體庫來掃描文獻，幾乎不引起歧義的，就可以直接標記上去。由於古代人對人的稱謂比較復雜，而且單字的過多，就會有