- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于领域知识的关键词自动标引
刘 华
(暨南大学华文学院/海外华语研究中心 广州 510610)
[摘要] 基于大规模层级分类语料库,抽取网页上专家已经标引的关键词形成关键词表;针对关键词的领域不均匀性和邻界域两个特征,提出并模拟计算了关键词表征文本主题特征程度的主题度。以关键词及其主题度为领域知识,结合统计方法,完成了一个知识与统计相结合的关键词自动标引系统。针对关键词标引测试难的问题,提出了细致完整、有一定可操作性的关键词标引的多点综合测试方法,关键词自动标引系统的综合平均得分为8.08。
[关键词] 关键词标引 分类语料库 主题度
[分类号] TP391.2
Key Words Auto-Indexing System Based on Domain Repository
Liu Hua
(College of Chinese Language and Culture of Jinan University,Guangzhou,510610,China)
[Abstract] From a classed large-scale corpus, extracted key words labeled on web pages by indexing specialist; bring up and calculated words’ subject degree by statistical model, subject degree express text content’ subject concept. Based on subject degree, construct a key words auto-indexing system, which acquired average 8.08 scores. Aim at the difficultness of testing in key words indexing, brought forward a meticulous, integrated and manipulable test means, which is called multi-feature synthetical test.
[Key Words] Key Words Indexing; Classed Corpus; Subject Degree
1 关键词标引综述
关键词自动标引根据文档的主题内容,借助计算机处理技术,自动从文档中直接抽取关键词作为标引词。关键词标引存在较大的难度,准确性不高,一致性难以保证,而且需要耗费巨大的人力物力。在信息高速发展的今天,随着网络的发展,精确专业的主题词人工标引很不切实际的。而且,网络发展对于文献标引的要求并不很高,更注重标引速度和时效。
一个文档可以表示成一个集合,集合中的每个元素是具有频数、位置和权重等属性的词语。因此,关键词标引的任务就是判断这个集合中哪些词语是关键词。关键词自动标引的任务需要解决两个主要问题:
第一、如何从文档中提取出哪些词语作为关键词候选项。
第二、怎样判断候选项是否是关键词,其依据是什么。
第一步是基础,主要是词语抽取。一般是先用有词表法切出词语,检索时无须对字串的字间关系进行组配,检索速度快,但存在构造困难、更新滞后等不足;而且词表词条的数量和质量直接影响到标引质量,影响检索结果(吴春玉,2005)。另外一种是基于统计的无词表抽词法(基于字频统计的字串获取),或者切分后重新捆绑碎片(杨文峰,2001;王明燕,2003;宋华,2004)。这当中的词语组配与冗余过滤非常重要,往往导致一个过与不足的问题,即高频串含有太多的垃圾组配;而关键串又组配不够。目前主要采用禁用词表过滤、语言学成词规则组配过滤、基于概念的组配等等(王明燕,2003;叶志清,2003)。
第二步是关键,主要包括权重计算。对抽取的词语在文中的词频、词语的相对词频、词语的反文献频率因子、词语在文中的位置、词性、词语本身的价值、词语的长度等进行分析,并引入某些统计方法,如互信息、TFIDF、最大熵等,对词语相应加权,最后按权重大小排序,并输出权值较大的一些标引词语。(戴璞,1998;丁璇,2002;王明燕,2003;叶志清,2003)
为了更准确地进行标引,有的系统往往增加一些模块,如:
1、主题分析模块。主要针对文本中的多主题问题,试图通过主题块的划分,解决关键词标引时主题覆盖不周的问题,如万敏(2003)提出的滑动窗口式主题划分算法,Salton(1994)提出的常见的基于相邻段落相似度的主题划分算法等。
2、隐含标引模块。有些反映主题的关键词可能并不出现在原文中,只有理解了内容语义,才能将隐含的关键词标引出来。多试图通过关键词语或概念组
您可能关注的文档
- 节水灌溉工程施工组织设计毕业设计(论文).doc
- 全自动洗衣机设计毕业设计(论文).doc
- 上料机液压系统设计毕业设计(论文).doc
- 基于PLC实现的交通控制灯设计毕业设计(论文).doc
- 单片机定时器设计报告毕业设计(论文).doc
- 基于PID控制的温度控制系统毕业设计(论文).doc
- 基于单片机的水温控制系统word格式毕业设计(论文).doc
- 年产20万吨矿渣微粉经济性生产线的工艺设计及设备选型毕业设计(论文).doc
- 用LU分解求解线性方程组数值 课程设计毕业设计(论文).doc
- 某教学楼施工组织设计毕业设计(论文).doc
- 2025年江西省时事政治考试试卷带解析必背(有一套).docx
- 2025年河南省公务员考试时事政治考试试卷带解析附完整答案【全优】.docx
- 2025年河南省公务员考试时事政治考试试卷带解析及完整答案【各地真题】.docx
- 2025年辽宁省公务员考试时事政治考试试卷带解析附完整答案【夺冠】.docx
- 2025年河南省时事政治考试试卷带解析含答案【预热题】.docx
- 江西昌河航空工业有限公司校园招聘模拟试题附带答案详解及参考答案1套.docx
- 2025年江西省时事政治考试试卷带解析必背(综合题).docx
- 2024年案件风险防控学习心得体会范例(4篇) .pdf
- 2025年江西省时事政治考试试卷带解析(全国通用).docx
- 2024年竣工验收管理制度(三篇) .pdf
文档评论(0)