- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
关于结构化向量空间模型的研究
摘 要
在我??当下的网络信息检索中,传统的向量空间模型因为不能较好的解决索引项之间的相互独立型和Web文档半结构化之间的矛盾,已经不能较好的满足我国民众对于网络信息检索的需求,在这种背景下,结构化向量空间模型开始被用于网络信息检索之中,且发挥着不俗的应用效果,在这种网络信息检索的发展现状下,本文就结构化向量空间模型进行了具体研究,希望能够进一步推动结构化向量空间模型在网络信息检索中的应用发展。
【关键词】向量空间模型 结构化
1 传统向量空间模型
在Web信息检索所使用的传统向量模型中,传统向量模型本身将文档与用户视为由相互独立索引项组成的等长向量。而在传统向量模型的使用中,我们还可以通过对某索引项Tj在文档集Dj中权重Wij,表示这一索引的重要程度,通过我国当下流行的权重计算公式
,就可以计算得出某索引项Tj在文档中的具体重要程度,也就是指Tj这一索引项的文档集中比例,但这种计算方式不能够很好地对索引项Tj在文档中的分布差异性进行较好而表现。在对文中分布差异性表现存在的问题中,半结构化的Web文档集合由于自身不同位置存在着不同的权重,这就使得这种文档集合本身包含的信息量较大,而这种信息量较大的特点对于具体索引项在半结构化的Web文档集合中的分布差异性的表现也就变得更加困难。值得注意的是,传统的向量空间模型每增加一个文档都需要通过
公式进行向量的重新计算,这种特点的存在客观上降低了传统向量模型的运行效率,制约了传统向量模型的发展。
2 结构化向量空间模型的优点
由于传统的向量空间模型在应用中存在着一些问题,制约着Web信息检索效率的提升,这就催生了结构化向量空间模型在Web信息检索中的应用。由于结构化向量空间模型本身是从传统向量空间模型发展而来的,这就使得结构化向量空间模型既具有传统向量空间模型的特点,又能够较好的对半结构化的Web文档集合中索引项的分布差异性进行表现,在实现这一功用中,结构化向量空间模型会将具体的文档按照一定策略进行区域划分,这种划分会将Web文档本身分为长度与内容都不同的文本段,这样就可以较好的对不同文本段索引项的权值进行较好的区分。在这种结构化向量空间模型的应用中,传统向量模型所无法解决的运行效率降低的问题,结构化向量空间模型能够予以轻松解决,而如果将两种模型进行具体对比,我们就能够发现结构化向量空间模型所具有的较高的查准率。值得注意的是,在结构化向量空间模型的应用中,对于传统向量空间模型没有考虑过的索引项的具体出现位置与索引项的附加信息,其能够通过自身功用较好的进行解决,保证自身应用对Web文档中索引项权值频度、位置、大小等信息的具体计算,最大程度上提高Web信息检索中匹配结果的精确程度。
3 结构化向量空间模型的应用
结构化向量空间模型在Web信息检索中的具体应用,能够有效解决传统向量空间模型在应用中存在的问题,并会切实通过解决索引项之间的相互独立和Web文档半结构化的矛盾,保证Web信息检索效率与质量的提高。在结构化向量空间模型在Web信息检索中的具体应用,结构化向量空间模型会通过自身逻辑将Web文档分为文本段,通过对不同文本段的特征向量计算,组成具体的结构化向量组,这就使得结构化向量空间模型的具体应用形式。笔者将在下文中对结构化向量空间模型应用中文档索引项分段权值以及查询向量与文档向量的相似度这两方面重点环节进行详细论述。
3.1 文档索引项分段权值
结构化向量空间模型在Web信息检索的具体应用中,我们提到了结构化向量空间模型会将Web文档本身分为长度与内容都不同的文本段,在这里我们将第k个文本段记录为Sik,将文档本身用Di表示,这样我们就可以通过公式
,对结构化向量空间模型中索引项Tj在文本段Sik中的分段权重进行具体计算。在这一公式之中,λk代表位置加权系数,这一系数主要对结构化向量空间模型不同位置索引对文档主题的贡献大小进行描述。
3.2 查询向量与文档向量的相似度
在结构化向量空间模型的应用中,对于查询向量与文档向量相似度的计算,也是结构化向量空间模型能够完成的任务之一,而为了完成这一计算,我们首先将询串q的查询向量设为Qq,这样我们就可以利用公式1进行具体的计算。
(1)
4 结构化向量空间模型的应用
通过结构化向量空间模型的应用,我们就能够设计出较为优秀的Web信息检索系统,这一系统的具体系统框架如图1所示。
在这一框架中,其本身主要包括数据源处理模块、页面解析模块、链接分析模块、索引组织模块、检索模块以及用户接口模块。在这些模块组成的系统中,其通过PageRank和结构化向量空间模型所组成的检索系统,就能够很好地对网页进行结构化解析
文档评论(0)