基于hownet概念获取的中文自动文摘系统.pdfVIP

基于hownet概念获取的中文自动文摘系统.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于hownet概念获取的中文自动文摘系统+ 王萌 何婷婷 王晓荣 (华中师范大学计算机科学系, 武汉430079) hett国163.net xrwang(勃znu.nct 摘要:本文首先基于hownct对多义词进行无导词语消歧处理。然后利用hownet建立的知识库获取文章中 词语的概念·井对未登录诃语进行概念标洼。用概念统计代替传统的词形频率统计方法,选择出与主题相 E。mail:一ccnuwm6岔sina.com 关的若干概念·建立主题概念向量空间模型;通过段落聚类的算法计算出段落重要度;利用段落重要度和 主题概念向量空问模型计算出句子重要度,抽取文摘句。通过对抽取出的语句进行句子相似度的计算来提 高文摘精确度,设计并实现了一个中文自动文摘系统。 关键词:ho¨ct自动文摘概念向量空间模型概念获取 1引言 自动文摘系统太体上可分为两类:基于统汁的机械文摘和基于意义的理解文摘。前者主 要根据线索词词典、词频、词和句子的启发函数进行模式匹配提取文摘[1l。后者则是利用句 法和语义知识、或一阶谓词逻辑等对文章的内容,在理解的基础上提取文摘来口】。 下面将在第2部分中介绍基于hownet的概念获取和概念向量空间模型建立,在第3部 分介绍主题语义概念p1重要度计算,第4部分介绍基于概念的VSM自动文摘生成,在5、6 部分分别介绍系统评估以及最后的结论。 2基于hownet的概念获取和概念向量空间模型建立 本文以hownet为词语的语义知识库,利用它建立概念向量空间模型。 2.1 HOWNET简介 Hownet是一个以汉语和英语的词语所代表的概念为描述对像,以揭示概念与概念之间 以及概念所具有的属性之间的关系为基本内容的常用知识库嗍。运用hownet里面所带的知 识库作为对词语意义赋值的重要资源,通过处理可以得到hownet里面的一些有用信息。其 格式(将此格式定义为hownett001)描述如下: wx=词语 GX=词语的词性 DEF=词语的定义 下面是对hownet处理后得到有用信息的一部分: W—X G_X DEF 工作 N a曲irs障务,$undertake[担任 工作 N factl事情,d01做 工作 N 饭碗 N 职业 N 差事 N 表1—1 ’基金项目;国家语言文字应用委员会“十五”应用项目(ZDll05-43B):湖北省自然科学基金项目 (200lABBOl2)。 作者介绍:王萌(1979一),男.硕士研究生,研究领域为自然语言处理、数据库;何婷婷(1964一),女 教授。研究领域为自然语言处理、数据库、分布式系统;姬东鸿,男,研究员,博士生导师.研究领域为 自然语言处理,知识挖掘。 440 2.2基于hownet的概念获取 2.2.1预处理 对文本进行分词处理后,需对每个已经切分的词语进行词性的标注,这样可以在预处理 阶段就排除那些对文本文摘作用不大的介词、虚词、数词等词语,只对一些关键的名词,形 容词等重要词语进行处理,这样可以大大提高程序运行的速度。 【定义11概念指的是在文章中词义相关的基本语义单元。一个概念可以对 应文中的一个词,也可以对应文中的多个词义相近的词。 例如表l一1中“饭碗”、“职业”、“差事”就是多个词义相近的词,本文认为它们代表 是同一个概念。 2.2.2概念获取 中的单义词并且在hownet词典中存在的词语来说,只需要给该词语一个相应的概念就可以 了;而如何获得多义词和未登录词语的概念才是一个关键问题。本文采用一种无指导的词义 消歧”J和自动标注来获取这些词语的概念。 多义词消歧的实质就是对在hownet词典中存在多个义项的词语选择一个最佳的义项。 对多义词进行了消歧。本文采用一种无指导的词义消歧”1。 众所周知,一个词的上下文环境

文档评论(0)

wuhuaiyu002 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档