- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
浅析中文搜索引擎分类体系
浅析中文搜索引擎分类体系摘要分类法在搜索引擎中的应用极大的提高了搜索效率与查准率,当前各中文搜索引擎都在建立自己的分类体系。本文对中文搜索引擎分类的特点和评价标准进行研究,在找出当前分类体系存在问题的基础上,提出一些改进建议。关键词搜索引擎 分类体系 分类法引言随着互联网的飞速发展,网络信息资源成爆炸式增长,如何从海量的、种类繁多、内容繁杂的网络信息资源获取想要信息资源是网络信息组织及检索亟待解决的问题。搜索引擎作为浏览和获取网络信息资源的工具,它的分类体系就显得尤为重要。当前大多中文搜索引擎采用关键词检索有着查全率高、检索方便等特点,但也不可避免的存在查准率低的缺点,增加我们获得所需信息的难度。由于分类法限定了检索范围,可以提高查准率,分类等级结构可能提供检索词的上下文,当检索目的不明确或检索词不确定时,分类浏览方式更有效率,因此许多搜索引擎采用自编分类系统进行信息组织。但是目前中文搜索引擎分类体系多为自编,没有统一的标准,都不同程度的存在着这样那样的问题,因此有必要对中文搜索引擎进行探究,找出问题并提出一些改进建议。中文搜索引擎分类体系介绍种类(1)等级分类体系。搜索引擎对所收录的信息或网站的内容进行逻辑划分和系统排列而形成等级分类体系。一般分为十到二十个左右的大类,每个大类下又细分为不同层次的子类,类的层次越深,专指度越高。等级分类体系还又细分为主题分类体系和学科分类体系。(2)分面组配分类体系。将网页信息内容按照某种标准进行分面,划分出来的若干特征概念,即类目,每一分面的类目与其它分面的类目进行组配,形成许多组配类目,达到细分的目的。(3)体系一组配分类体系。它的特点是在等级分类体系的基础上大量采用分面组配方法,以达到细分复杂主题的目的,以满足信息查询或检索的多重需要,现在一些著名的中文搜索引擎如新浪、搜狐、网易等均采用这种分类体系。特点(1)实用性强。搜索引擎主要是面向用户需求,以学科分类的传统分类法不能满足海量、日益变化的网络信息资源,因此分类更加要求实用性。(2)易用性。搜索引擎是方便用户查询信息的工具,而大多数用户缺乏基本的检索知识,因此中文搜索引擎的分类体系比较简明,操作快捷简单。(3)多维化。中文搜索引擎是根据网状的和立体的网络信息而建立起来的,并且采用了超文本链接技术,把类目与类目之间、类目与主题之间都链接了起来,形成了网状结构,因此,其分类体系具有很高的多维性。评价标准评价标准说明知识覆盖程度覆盖人类知识领域的大小,如学科、行业、专业等类目组织程度类目划分的层次、类目的排列等类名规范程度是否简洁、规范、清晰等结构完善程度是否具备完善结构,如大纲、主表、次表等界面友好程度布局是否合理、界面是否雅观等当前中文搜索引擎分类体系存在的问题 知识覆盖领域不全一般说一个中文搜索引擎分类体系质量不高,一般都是说它的知识覆盖率不高,很多搜索引擎网站在分类时总是或多或少的缺乏某个知识领域,这几乎是现有分类体系的通病。一个完整的综合性分类体系在划分基本大类时应该将所涉及到的知识领域全部涵盖进去, 而目前一些搜索引擎在划分类目时往往只从商业角度考虑如何吸引用户, 并未真正从知识领域、知识体系的角度来分类,因而使得分类体系遗漏掉了许多重要的知识领域,同时又有重复列类的现象, 体系的系统性和完整性受到很大影响。 类目体系混乱,结构不完善一般来说,搜索引擎分类体系都有严格的等级体系,但网络信息资源纷繁芜杂、种类多样, 所以往往在一些类下同时采用两个或多个标准, 以便减少类目展开的层次和增加类表的直接性。 划分标准不唯一,归类不科学中文搜索引擎分类体系的类目没有统一的划分标准,主要表现在划分过宽、划分过窄、划分出的子类级别过高或过低,划分出来的子类仍相交等。还有许多中文搜索引擎的分类体系都未能严格地按照类目的内涵和外延进行科学地归属类目,只是简单的随意堆集。 类名不规范统一,排列随意许多中文搜索引擎在分类过程中采用了自然语言作为类目名称,这虽然符合实用性的原则,但由于缺乏规范化处理,并且缺少类目解释,这在无形中增加了网民的理解负担。此外,类名表达的外延不清,这就使得在划分过程中使得分类体系混乱,有失将分类法引入搜索引擎的初衷。同位类的排列有多种标准, 不少网络分类体系的同位类展开时都采用这些不同标准,这就使使得排列处于无序状态,让人摸不清头脑。对策建议构建统一的分类体系由于网络信息资源和用户需求的不断变化,用户在获取所需信息时可能会采用不同的搜索引擎进行检索,各搜索引擎为了凸显自己的特显都有自己的分类体系和覆盖面,如果没有统一的分类体系,即便类名相同的话,外延也会不一样。因此有必要构建一套标准的中文搜索引擎分类体系,包括分类的标准和基础、类目的划分及设置等等,以实用性、易用性和多维化为原则,制定统一的分类体系。4.2 分类主题一体化
您可能关注的文档
最近下载
- 兴边富民工程实施方案(3篇).docx
- 苏科版八年级数学上册压轴题攻略专题03解题技巧专题:判定三角形全等的基本思路压轴题三种模型全攻略(原卷版+解析).docx VIP
- 卡通手绘风班干部竞选自我介绍PPT模板(二零二五学期版).pptx VIP
- 带锯机安全生产操作规程.pptx
- 第3课 古代印度 课件(共34张PPT).pptx VIP
- 公共政策3政策的资料搜集与方法剖析.ppt VIP
- 专题04 解题技巧专题:判定三角形全等的基本思路压轴题三种模型全攻略(解析版).docx VIP
- 2025年健康管理师技能证书全国考试题库(含答案).pdf VIP
- 写景抒情散文阅读.doc VIP
- 中小学班级卫生值日表 模板.docx VIP
文档评论(0)