- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
提升全文检索搜索引擎应用问题研究
提升全文检索搜索引擎应用问题研究
【摘 要】全文检索系统中最为关键的部分是全文检索引擎,各种应用程序都需要建立在这个引擎之上。全文检索的核心是如何从文本中提取主题词,而如何从单文档中提取主题词是本文要重点解决的问题同时也是提升全文检索引擎的效率即是提升全文检索应用的根本。
【关键词】全文检索;搜索引擎;提取主题词
引言
信息的迅速增长必然需要强大的信息检索工具,而在信息检索工具中,全文检索是最具有通用性和实用性的。迅速发展的互联网带来的信息增长对全文检索技术又提出了新的要求。由此可见全文检索系统的研究对人们日常生活的意义与重要性,能准确地从web数据中查找用户需要的信息、并以有效的形式呈现给用户的问题势在必行。
1.主题词提取关键技术
主题词提取算法设计时要保证提取的主题词能反映文档的主旨内容。因此,采用了全新的主题词提取算法:基于同义词词林的主题词提取。
1.1主题词词频与词语位置
词语在文献中出现的次数越多,它越可能是主题词。词语在文献中出现的位置对主题词提取也具有重要的影响,一般来说,词语会出现在标题、正文等不同的位置。出现在正文的词语,设它的位置loci=1;出现在标题的词语,设它的位置值为loci=0。出现在标题中的词语往往就比出现在正文中的词语重要。
1.2同义词权值设计
如果一个词语的同义词在文中出现,那么这个词语获得附加权重。判断文章中词语是否有同义词,主要的依据是在同义词词林字典中进行查找,如果这个词语及同义词在文中都有出现,那么同义词词林中一定有“=”号标记,标记该词与该词相关的同义词。则将这个词的权重(weight)增加;如果一个词的相关词语出现在文中,那么这个词也获得附加权重,在同义词词库中是以“#”作为相关词标记的。如果文章中的一个词既没有同义词也没有相关词出现,那么它很有可能是独立词,只需要判断该词的TF值就可以了。
2.主题词提取算法
虽然目前很多研究者都采用了像TF-IDF等算法计算主题词权重,但这种算法不属于单文档主题词提取算法,而且没有考虑词语的其他相关信息对???题词权值判定的影响。在设计主题词提取算法时考虑了设计词语权重时的因素:文本中词语的词频、词语出现的位置、同义词、相关词、独立词。设计权重算法如下:
(1)
首先,Wj是判断一个词是否能作为主题词提取的唯一权重,Wj的值越高越可能是主题词。第一个因子与第二个因子分别计算了词频和词语的相关位置,位置因子算法中第一个fi为词语在文中第i种位置上出现的次数。在标题中出现的词,权重往往比在正文中出现的词语权重大。Loci为该词语的位置因子,Loci=0时,该词出现的位置是标题,则λ值为0.6。如果Loci=1,说明这个词的位置在正文,则λ值为0.3。第二项是参考了同义词词林设计的因子,h是这个词语的相关同义词种类。同义词相关种类指的是同义词、相关词、独立词这三种。kind为基于同义词相关信息的相关因子,kind有三种形式,当文章中这个词有同义词出现时kind值为1,相关词出现时kind值为0.6,没有任何同义词和相关词时该词kind值不增加。计算出所有词的权重后,输出链表中权重最大的前N个词,作为文章的主题词。在这个过程中,设置了可以提取主题词个数是3至6个。
3. 主题词提取模块
3.1分词模块
分词模块处理时:首先设置了一个函数,作为分词时的预处理。所谓预处理即是对一个待分词文档,判断其要匹配的字段是否含有非中文字符。如果没有则调用正向或者反向最大匹配分词法。如果这个匹配字段中含有非中文字字符,那么在处理时先将char设置为unsigned char类型,存储几乎所有的字符文字。首先用户选择载入文件打开待分词文档。按下正向最大匹配分词OnSplitBack()按钮或者反向最大匹配分词OnSplitFront()按钮,调用事件处理函数开始进行中文分词。载入词库文件以后,进入SplitWord函数。它是分词的开始,bDick参数是用户选择的分词方式。bDick =1 则进行正向最大匹配分词,bDick=2则进行反向最大匹配分词。如果按下正向最大匹配分词按钮,则进入MaxFrontMatching()函数,进行正向最大匹配。如果按下反向最大匹配分词按钮,则进入MaxFrontMatching()函数,进行反向匹配。通过反复的调用这个函数,最终完成中文分词。
3.2主题词提取模块
在设计主题词权重算法时,参考了主题词提取算法的相关资料,设计了影响词语权重的因子:即该词词频、词语出现的位置、同义词、相关词、独立词。根据主题词提取权重算法,Weight作为判断一个词是否能作为关键词提取的唯一权重。进入函数Count_loc判断该词语在文本中的词频,统计文章中每个词的词频
您可能关注的文档
最近下载
- 黄磷尾气在循环流化床锅炉中的掺烧使用介绍.PDF VIP
- 静脉输液安全隐患及防范措施.pptx VIP
- 碗扣钢管楼板模板支架计算书97027.doc VIP
- Boss Roland逻兰ME-90B 贝斯综合效果器[Simplified Chinese] ME-90B Reference Manual 说明书用户手册.pdf
- 玩转手机银行APP.doc VIP
- 征信报告模板详细版带水印可编辑2025年9月新版.pdf VIP
- 征信电子版PDF个人信用报告简版2024年12月最新版可编辑带水印模板.pdf VIP
- 征信详细版纸质个人信用报告2024年12月版可编辑带水印.pptx VIP
- 羽毛球单双打简易规则和图解.doc VIP
- 第1讲职业生涯规划概论.ppt VIP
原创力文档


文档评论(0)