语法规则和改进关联规则的中文文本非等级关系提取研究-图书情报工作.PDFVIP

下载本文档

0
0
约2.71万字
约 7页
2017-08-15 发布于天津
举报
版权申诉

语法规则和改进关联规则的中文文本非等级关系提取研究-图书情报工作.PDF

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

语法规则和改进关联规则的中文文本非等级关系提取研究-图书情报工作

第５７卷第２２期　２０１３年１１月语法规则和改进关联规则的中文文本非等级关系提取研究 ■ 余凡　程虹　楼雯［摘　要］针对目前适用于中文文本非等级关系提取方法偏少以及关联规则筛选方法忽略了集中出现在部分文本集中的领域词汇关系的问题，通过对中文文本的统计分析，尝试定义一套中文非等级关系提取的规则，同时提出一种加入平均值变量的改进的关联规则。实践证明，基于自定义的语法规则提取方法能够有效地从中文文本中提取出主、谓、宾语，进而提取出非等级关系，改进的关联规则方法能够提取出集中出现在部分文本集中的领域词汇非等级关系。［关键词］非等级关系提取　语法规则　关联规则　中文文本［分类号］Ｇ３５０　　ＤＯＩ：１０．７５３６／ｊ．ｉｓｓｎ．０２５２－３１１６．２０１３．２２．０２０１　引　言词。虽然句子构成丰富多样，但是仍然存在一定的规律，比如动词一般充当谓语，充当主语的名词一般在动　　作为实现语义网的基础技术支撑，本体一直都是［５－６］词谓语前面，充当宾语的名词一般在谓语后面。研究热点。概念和关系是构成本体的两大基本元通过统计句子组成的规律，从而根据规律提取句子的［１］［２］素。关系又可细分为等级关系和非等级关系。本主、谓、宾，形成非等级关系。体构建方法相对成熟，但从文本中正确获取概念和关２．２　基于统计的非等级关系提取系的方法则一直没有形成规范。相对于概念获取，关　　基于统计的非等级关系提取方法包括：首先计算系获取更加困难。相对于等级关系获取，非等级关系出中文文本中共现的概念对的频率，然后根据一定的获取更加困难。如何将文本中的非等级关系提取出来权重和算法计算出每对概念对的相关度，最后设定一是构建本体最复杂、最重要的一步。目前本体非等级个阈值，将高于该阈值的概念对之间的关系抽取出来，关系提取主要分为两个方向：基于规则的非等级关系［７－８］成为非等级关系。统计方法非常多，使用最多的［３］［４］提取和基于关联规则的非等级关系提取。第一种［９－１０］方法是关联规则。方法多集中在对英文文献的研究上，没有适用于中文ｆ（ｗｗ）　　Ｓｕｐｐｏｒｔ（ｗｗ）＝１２（１） → 提取的方法。第二种方法忽略了集中出现在部分文本１２ｎ ∑ｆ（ｗｗ）ｉｊ集中的领域