基于分类标注语料库关键词标引知识自动获取.docVIP

下载本文档

3
0
约4.81千字
约 11页
2018-05-15 发布于福建
举报
版权申诉

基于分类标注语料库关键词标引知识自动获取.doc

1、本文档共11页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于分类标注语料库关键词标引知识自动获取

基于分类标注语料库关键词标引知识自动获取　　〔摘要〕基于大规模层级分类语料库，抽取网页上专家已经标引的关键词形成关键词表;针对关键词的领域不均匀性和邻界域两个特征，提出并模拟计算了关键词表征文本主题特征程度的主题度。以关键词及其主题度为领域知识，结合统计方法，完成了一个知识与统计相结合的关键词自动标引系统。　　〔关键词〕关键词标引分类语料库主题度　　〔分类号〕G254.361 TP391.1 　　　　Knowledge Repository Acquire for Keywords Auto-Indexing System Based on Labeled and Classed Corpus 　　Liu Hua 　　College of Chinese Language and Culture of Jinan University, Guangzhou510610 　　〔Abstract〕From a classed large-scale corpus, extracts keywords labeled on web pages by indexing specialist and formed a keywords list; Referring to the two characteristics of keywords: fields non-even and exists range edge, brought up and calculated the words subject degree by statistical model.Subject degree expresses text content s subject concept. Based on subject degree, constructed a key words auto-indexing system. 　　〔Keywords〕keywords indexing classed corpus subject degree 　　　　1关键词标引知识　　　　关键词自动标引根据文档的主题内容，借助计算机处理技术，自动从文档中直接抽取关键词作为标引词。关键词自动标引可分为两种：基于知识的和基于统计的。基于知识的关键词标引通常见于图书馆文献标引领域，主要基于已有的标引资源，如《汉语主题词语表》、《中国分类词语表》及其复分表以及各专科性主题标引手册等，利用文献标引规则，由专家手工标引。基于统计的主题词标引主要借助于数据挖掘和机器学习的统计算法实现，如马尔可夫统计模型和互信息、最大熵模型等。　　关键词自动标引的任务包括:①文档表示为怎样的词语集合作为关键词候选项 ;②依据什么标准选出候选项作为关键词。　　因此，关键词自动标引需要的领域知识主要包括:关键词候选项、表示词语主题象征性能力的某种强度或权重。　　本文基于大规模层级分类标注语料库，抽取网页上专家已经标引的关键词形成超大词语表;针对关键词的领域不均匀性和邻界域两个特征，提出并模拟计算了关键词表征???本主题特征程度的主题度。　　　　2基于语料库的关键词标注知识获取　　　　2.1专家标引的网页关键词获取　　在构建文本分类和主题词标引系统时，我们建立了一个超大规模的语料库。语料来自几个门户网站，时间跨度为3年(2003-2005)，共约60万个网页，6亿字。对60万个网页提取出详细的语料信息，如标题、栏目、关键词、时间、同主题链接标题和正文。　　同时，我们通过对4个门户网站、3个搜索引擎和13个主流报纸网站的栏目分类体系和传统分类体系的对比研究，使用同名栏目去重、相似栏目合并、异名同类栏目映射、子类栏目提炼上升等手段，最终在总结各大网站栏目共性的基础上，重点考虑“主题划分”、“生活优先”的原则，归纳出一个网页分类用类目体系。该体系分15个大类，层级类别最深为4级，如“科技_数码_视频_数字电视”，类目总共244个。　　将语料库的网页栏目和已建立的网页分类体系进行映射，最终，形成以XML格式存储的详细标注语料属性的层级分类语料库。　　语料库信息汇总见表1(仅列举大类): 　　　　在网页信息提取时，我们发现很多网页已经人工标引了关键词。关键词往往标引在标题下面，是那些具有文本主题表示功能的词语。关键词是对一个网页的主题进行描述的关键性词语，一般一个网页约两三个关键词。例如一篇题为《中国民航总局解禁“红眼航班” 消费者喜闻乐见》的网页，其关键词为“民航、红眼航班”。这些关键词都是网站主题标引专家长期积累下来的集体智慧，是我们基于知识的标引系统非常珍贵的专家资源，不仅为我们的关键词标引词表提供了来源，也