- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
章节稿2-索引的建立资料
PAGE
PAGE 22
二 索引的建立
1、目的、标准
在大量的文档集中(通常情况下大约为100,000个文档以上),为了提高检索性能和速度, 需要找到文档中比较重要的内容并为这些内容创建内部表示,这些表示形式被称为索引。为了找到这些内容,必须进行语义分析来确定哪些是某一文档中的概念。对于IR来讲,这种分析是非常复杂的也是很难进行的。目前存在的技术,大多限制在某一特别领域。
建立索引的目标是找出主要内容,创建内部表示。表示法的选择应考虑下面三个准则:
-精确表示语义
-涵盖所有内容
-易于计算机处理
实际上,人们更加倾向于研究概念的表示形式。概念表示形式可以是字、词、词组等,概念表示形式与精确度关系如图2-1所示。选用词作为概念的表示形式的想法是很自然的。事实上,词是最容易识别的语言单位,并且,它们也能充分地表达语义。在现有的系统中,它是最常用的方法。但是,单词经常不能给出专一的描述。例如,“专家系统”,被表示为“专家”和“系统”, 失去了一定的精确性。因此,研究者们提出了新的方法,建议将单词组织起来形成合成词,文献可以由词和短语联合来描述。
研究表明使用中文分词,按词索引结合二元组(bi-gram)索引是检索效率和效果较优的索引综合考虑方式,通常通过自动分词来选择索引词。在文档索引过程中,先通过中文自动分词程序的处理,把文档正文分割成为独立的分词单位,然后在这些分词单位基础上选择索引词。分词单位是指具有确定语义或语法功能的基本单位,通常被直接选作索引词[7]。
涵盖率
涵盖率
(Recall)
精确度
(Precision)
字符串 词 合成词 概念
图2-1 概念表示形式与精确度关系
文档集合通常由文档逻辑视图来表示,可以是一组索引词或关键词。既可以自动提取,也可以是由人主观指定。索引词的选取过程见图2-2、2-3 所示。
首先,对文本信息进行预处理,预处理技术主要包括结构提取、分词(中文)、词干提取等,然后选择特征表示形式和进行特征提取, 以一定特征项(如词或词组)来代表文档,在检索时只需对这些特征项进行处理。
图2-2 索引词选取框图(英文文档)
词或词组
词或词组
停用词
中文切词
中文文档
自动或手工索引
结构识别
索引词集合
结构
图2-3 索引词选取框图(中文文档)
语言学界、人工智能领域和情报检索界的学者在汉语自动分词与索引的研究与实践上进行了大量的研究,找到了许多解决汉语分词的方法。80年代以来见诸报端的自动分词方法归纳起来有:最大匹配法、逆向最大匹配法,逐词遍历法、设立切分标志法、最佳匹配法、有穷多层次列举法、二次扫描法、高频优先分词法、基于期望的分词法、联想———回溯法、双向扫描法、邻接约束法、扩弃转移网络分词法、语境相关法、全自动词典切词法、基于规则的分词法、多遍扫描联想法、部件词典法、链接表法、最少分词词频选择法、专家系统分词法、基于神经网络的分词方法等22种[3]。
由于汉语结构上的复杂性、切分的模糊性以及语法分析问题等诸多因素的影响,汉语自动分词未能取得重大的实质性突破。这一问题的搁浅直接影响了汉语文献的自动索引及汉语的句法分析与语义分析研究,成为中文自动索引研究发展的瓶颈。
如何高效低成本地实现信息索引是信息检索领域重要的研究课题。索引从原理上分抽词索引和赋词索引,各种方法和技术以自然语言的规律为基础,构建在相应的数学模型上。在这一章中,我们将介绍以单词和合成词为表示形式的自动索引方法。首先,介绍自动索引的基本原理,然后,介绍基于词汇分布特征的索引方法:统计标引法、n-gram标引法和概率标引、基于语言规则与内容的索引:句法分析标引法、语义分析标引法和基于概念的标引法、人工智能索引法:知识产生式表示法、语义网络表示法和框架表示法和汉语自动索引。其中,重点介绍基于词汇分布特征的索引方法,其它方法只是简单讲解,同学们课后可以查阅相关的资料,对每个方法进行总结,形成介绍性的文章。
2、自动索引的基本原理
2.1自动抽词标引原理
自动抽词标引是指直接从原文中抽取词或短语作为标引词来描述文献主题内容的过程。它涉及如何从原文中抽取能够表达其实质意义的词汇,以及如何根据这些词汇确定标引词。
1、自动抽词标引思路
在手工标引中,标引员总是尽量选择能较好反映文献主题的原文词语。他们的选择结果可能要受到一些因素的影响, 如词语在文献中出现的频率、词语出现的位置(标题、结论、插图说明等)及其语境。假定文本以机器可读的形式存在,计算机程序就可以模仿人,通过对文本中词的频率、位置和语境标准来实施抽词标引。
标引程序的基本算法是,抽取文本中的词汇,将词汇与一个“禁用词表”比较,除去各种非实义词(冠词、介词、连词等),然后统计剩下的词汇的出现频率,并按其降序排列,排在前
您可能关注的文档
最近下载
- 4郭永康光的干涉-14.ppt VIP
- 中职教育一年级上学期英语《We Are Friends》课件.pptx
- 4郭永康光的干涉-11.ppt VIP
- 《危险化学品目录(2015版)》(2022年调整)-标注为爆炸物的化学品.pdf VIP
- 湘南学院2021-2022学年第2学期《高等数学(下)》期末试卷(B卷)附标准答案.pdf
- 人美版小学四年级上册美术教案.pdf VIP
- 人教PEP版五年级上册英语Unit 2 My week单元整体教学设计(教案).docx VIP
- 4郭永康 光干涉-7 .ppt VIP
- 小学语文新部编版一年级上册全册教案(2025秋新版).doc
- 湘南学院2022-2023学年第2学期《高等数学(下)》期末试卷(B卷)附标准答案.pdf
文档评论(0)