研究生学位毕业论文选题报告.docVIP

  • 3
  • 0
  • 约5.23千字
  • 约 8页
  • 2018-04-04 发布于重庆
  • 举报
研究生学位毕业论文选题报告

研究生学位、毕业论文选题报告 论文题目或 选题方向 (一) 文 献 综 述 1.信息检索 信息检索(Information Retrieve),是通过对组织化的信息文档的查询来获取所需知识的信息处理方式。传统的信息检索自20世纪60年代逐渐发展起来,主要包括文献检索(Document Retrieve)、数据检索、知识检索等许多方面,其中文献检索作为最重要的,也是发展最完善的检索方式,在信息检索中占有重要的地位。 信息检索中有三种典型的检索模型,分别是布尔模型、矢量空间模型、概率模型[1]。 布尔模型:布尔模型用一组索引项表示文档,每个索引项可看作一个布尔变量,如果该索引项在文档中出现,则取值为真。查询表示为由逻辑运算符(与、或、非)连接起来的布尔表达式。检索状态值(Retrieval Status Value,RSV)用来度量文档和查询的相似度。如果查询表达式的值为真,则RSV值为1,否则为0。所有RSV为1的文档与查询相关。这种模型实现简单,但检索性能较差。 向量空间模型(Vector Space Model)由Salton等人在60年代末提出。在该模型中,文档被表示为由n个经过归一化处理的索引词构成的n维空间中的向量。该向量第k维的值(第k个分量)表示第k个索引项在文档中的出现频率或者权值。如在一个n维向量空间中,文档X可表示为: X(x0,x1,x3,...,xn) 其中,xi表示一个特征,比如可以是关键字出现的频率。 两个向量(比如文档向量和标准向量,文档向量和查询向量)的相关性使用两者夹角余弦来衡量。假设有两个向量X(x0,x1,x3,...,xn)和Y(y0,y1,y3,...,yn): 其夹角余弦D(X,Y)可计算为: D(X,Y)越小,则两者的相关度便越大。 基于该方法的检索是当前信息检索的主要方式之一。当前的许多研究都是在此方法上,进行相应的改进。 概率模型:概率模型考虑了索引项之间的相关关系,并定义了查询词 权值 等主要参数以及查询和文档间相似度的形式。概率模型中有两个主要参数:一篇文档与查询的相关概率Pr(rel)和无关概率Pr(nonrel)。它们是用索引项的概率权值和文档中实际出现的索引项计算得到的。另外,使用两个损失参数a1,a2分别表示在无关文档中检出和在相关文档中漏检的损失。 2.定题检索(主题检索) 所谓定题搜索引擎,就是将信息检索限定在特定主题领域,就主题相关的信息提供检索服务。不同于通用搜索引擎,定题搜索引擎的检索范围相对小,查准率和查全率易于保证。它是新一代搜索引擎的发展方向之一。工作重点主要围绕主题相关信息的搜集算法展开。 P. DeBra 等人首次提出称为“Fish-Search”的定题Crawler搜索算法[23]。定题Crawler动态维护一个按搜索优先权值排序的未搜集Url列表,并根据它选择下一步搜集目标。在信息搜索过程中,相关网页包含的超链接被赋予比不相关网页包含的超链接更高的优先权值,插入到未搜索Url 列表中。 Chen H.等人提出设计客户端智能搜索引擎[24]。其搜索算法中引入了遗传算法。搜索开始之前,首先将用户提问表达式提交给通用搜索引擎,获得搜索起始网页集。同时,从Yahoo中获取与主题相关的检索结果组成相关网页集。搜索过程,通过遗传算法的变异操作,将相关页面集中的页面作为新个体加入群体。此算法一定程度上扩大信息搜索范围,但搜索过程依然是基于网页相似度优先。 M. Diligenti等人将网页之间的链接关系表示成层次关系[25]。根据给定起始页面集,建立称为“Context Graph”的层次图。图中每一层建立一个Naive Bayes分类器,对应一个队列。搜索过程中,将被搜索网页分类到相应的类别中,离中心越近的队列,网页搜集优先权越大。此算法引入分类器,分类器的性能将直接影响搜索的效果。 3.文本分类和聚类 文本分类是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别.这样用户不仅可方便地阅读文档,而且可以通过限制搜索范围来使文档查找更容易.利用文本分类技术可对大量文档进行快速有效地自动分类.目前文本分类算法有很多,如:最小距离分类,K-近邻法,BYS法及矢量相似度法等[17]。 文本聚类是一种典型的无教师机器学习问题,它与文本分类的不同之处在于,聚类没有预先定义好的主题类别,它的目标是将文档集合分成若干簇,要求同一簇内文档内容的相似度尽可能大,而不同簇间的相似度尽可能少小. 如K-平均聚类法、层次凝聚法、平面划分法、分级聚类法等。 4.信息抽取 文本挖掘中的信息提取,不是简单的进行文本数据的顺序分析或是从文本中简单提取一些高频词,而是通过挖掘从文本中获得更多隐含信息,如短语间的关系、规则、典型的框架等。这些信

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档