唐宋诗之词汇自动分析及应用.docVIP

下载本文档

26
0
约 13页
2016-10-14 发布于重庆
举报
版权申诉

唐宋诗之词汇自动分析及应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

唐宋诗之词汇自动分析及应用

唐宋诗之词汇自动分析及应用俞士汶胡俊峰摘要：本文介绍了唐宋诗之词汇的自动提取、自动分析技术及其在古代诗词计算机辅助研究中的一些应用的实例。文章着重介绍了利用统计的方法对唐宋诗语料进行词汇获取的具体算法及步骤。给出了“共现度”、“结合强度”等统计参数的计算方法，并与传统的”“互信息”方法进行了比较。在对全唐诗（481万字）、宋代部分名家诗（160万字）的语料完成切分及词性标注的基础上，系统又对唐宋诗词汇的使用情况进行了统计分析。提取了词汇共现信息、词汇对仗信息、作者词汇特征信息以及词汇引用的时代变迁分布等多种统计信息。在此基础上，进一步对唐宋诗诗句的相似性检索、诗人风格检索、意象索引技术等研究课题进行了探索。一、引言在人们谈论“数字化生存”（Being Digital）的今天，中华古籍的数字化似乎已经算不上新潮。但回想10多年前，已有一批学者为中华古籍的整理、研究、出版的现代化奔走呼号、身体力行，笔者由衷地钦佩他们的先知先觉。正是受海峡两岸从事古籍电子化研究的学者的影响和鼓励，北京大学计算语言学研究所自1993年以来一直将“中国古代诗词的计算机辅助研究”作为研究所的重要研究方向之一[刘岩斌1997]。中国的诗歌艺术源远流长，诗歌作为一种最接近口语的大众化文学形式，在汉语文化的成长、演变与传播中占有着极其重要的地位，因而对中国古代诗词的研究历来是汉学研究的热点之一。不过，关于诗歌的传统研究往往着眼于作品的人文及艺术特征，研究者多半依靠自身良好的文化修养与“强闻博记”，凭感悟直接把握作品的内涵，这种研究用于诠释作品的美学及人文意义自有其无可替代的优势，但在对作品的语言全貌进行横向或纵向的细密分析时，往往就显得力不从心。虽然也有一些文章对某些词汇、典故的使用及意义进行分析和研究，通常只能是及其一点不及其余，很难以时代或作者为单位来分析其语言的风格、特征及演变情况，更不要说从中总结出可信的规律了。笔者一直认为，古籍整理对我们计算机专业工作者来说是一个新天地，又是一个引人入胜的可以大有作为的天地。运用在现代汉语信息处理研究中建立的计算语言学的理论、方法与技术，可以对古代汉语的语言现象进行深层次的研究。同时也会促进古代汉语语法研究与现代汉语语法研究的纵向结合，推动现代汉语语法研究的深入和语言信息处理技术的发展。正是基于这样的理念，北大计算语言所在开发“中国古代诗词的计算机辅助研究系统”时，既不满足于纸介质到电子文本的转换和简单的检索、统计功能，也不追求多媒体的外在形式或眼前的商业价值。而是把力量集中于能发挥自己优势的深加工和知识发现的领域。积七八年之努力，终于取得了一些阶段性成果，“古诗自动注音软件”是其一例[穗志方1998]。本文介绍的是另一项成果，即使用统计方法对唐宋诗的词汇进行分析所取得的一些结果。“词”（这里的“词”相当于英语的word，有别于“宋词”的“词”）在汉语中是一个难以严格定义的模糊的概念。类型语言学将汉语归入“孤立语”，并认为以单音节语素（其书面记录符号即汉字）构成的“词”（以下简称“单字词”）成为词汇的主体是汉语的主要特征之一。对于古汉语，这个论断是接近实际的。随着社会生活的发展，汉语要保持和丰富其表达能力而又要避免不断扩充汉字的数量，必然要引进由两个以上语素或汉字构成的“词”（以下简称“多字词”）。“多字词”在汉语的发展史上究竟是什么时代开始出现的显然是一个饶有兴趣的问题。不过，本文研究唐宋诗中的“多字词”并非仅仅出于理论研究的兴趣。笔者从研究过程体验到，从唐宋诗中提取词汇（词汇包括“单字词”和“多字词”，对于自动提取技术研究来说，只考虑“多字词”），并以词汇为基础进行深层次的分析，相对于以“字”或“字串”为基础的简单匹配，可以取得更多的有实际应用价值的成果。北大计算语言学研究所自1998年至1999年建造了“中国古代诗词计算机辅助研究系统”（原型系统），在这个系统中已收纳全唐诗（481万字）、宋代部分名家诗（160万字）共计640多万字的语料。以这个语料库为实验材料，本文介绍了词汇的自动提取、自动分析技术及其成果在诗句、风格相似性检索等领域的应用。除引言外，以下还有4节。第二节到第四节是本文的核心内容，分别介绍唐宋诗词典的计算机辅助构造、唐宋诗语料的自动切分与词汇分析、基于词汇的诗歌相似性分析。第五节是结语，讨论了词汇分析在相关领域的应用和古代诗词计算机辅助研究的若干新课题。最后是谢辞。二、唐宋诗词典的计算机辅助构建本文避开“词”或“多字词”的定义，但从实际应用的需要出发，根据具体的目标确定了“词”特别是“多字词”的在统计意义上的提取标准。词的提取与分析当然离不开对词义的理解。领域专家对词义的理解自有优势。但是，许多现代汉语中的词（如：可以、上学等）在古诗