面向领域的中文搜索引擎若干关键技术研究-计算机应用技术专业毕业论文.docxVIP

  • 1
  • 0
  • 约4.43万字
  • 约 50页
  • 2019-05-11 发布于上海
  • 举报

面向领域的中文搜索引擎若干关键技术研究-计算机应用技术专业毕业论文.docx

中文摘要面向领域的搜索引擎已成为为信息检索领域的一个重要研究课题。虽然该领 中文摘要 面向领域的搜索引擎已成为为信息检索领域的一个重要研究课题。虽然该领 域已经取得许多研究成果,但目前相应的系统应用和检索效果却并不乐观。本文 就面向领域的搜索引擎的若干问题,包括爬取算法、文本关键词提取和文本分类, 进行了较深入研究。 Web信息采集是搜索引擎的基础,也是一个核心组成部分。本文讲解了Web 爬取的基本原理和策略,并对常用的Web爬取算法进行了深入的分析。最后提 出了改进的基于Shark算法的新算法。 关键词提取是文本处理的一个重要环节。本文以朴素贝叶斯定理为基础,以 文本中词语的传统权重、第一次出现位置、出现位置的样本标准差为特征项,构 建了关键词提取的朴素贝叶斯模型。实验结果表明。相对于传统的基于权重的关 键词提取算法,该算法具有较高的准确度。另外,本文针对特征项取值离散化对 模型的不利影响,对该算法做了修正,重新调整了上述三个特征项在模型中的相 对重要性,从而进一步提高了算法的准确度。 文本分类是某些搜索引擎中对Web文本进行组织、实现高效检索的一项关 键技术。本文改进了传统的朴素贝叶斯分类模型,考虑进了文本长度和文本结构 两个影响因素,修正了分类模型的计算公式,同时在特征项选择算法中,综合考 虑了频度、集中度、分散度三项指标,使得选出的特征项更为合理,从而使分类 结果在精确度、召回率和F.Measure值方面均获得了一定程度的提高。 关键词:搜索引擎,爬取,关键词提取,文本分类,朴索贝叶斯定理 ABSTRACTThe ABSTRACT The domain-specific search engine has been an important roscareh branch of information retrieval and achieved rapid development in recent years.However,there are still some issues need to be studied further for boosting its practical application and improving its effectiveness and efficiency.This paper provides a more detailed study for several issues in the domain-specific search engine,including crawling policies,text keyword extraction and text classificatiom The information crawling is the foundation for search engine.At first the crawling policies and strategy are studied.Then s0Ine common crawling algorithms ale analyzed in great detail.In the end,觚improved algorithm based on Shark algorithm is proposed. Keyword extraction is one of important steps for text pro-processing.Based On Naive Baycs Theorem,this paper establishes a valid kcyword extraction model by taking the traditional weight,the first occurring position and the average deviation of spacing of the candidate words in a text as feature terms.Experimental results show mal this model achieves higher accuracy than the traditional keyword extraction method based on word’S weight.In addition,for reducing the adverse effect of value diseretization of feature tc:rms-this paper re-adjusts the relative importance of the above-mentioned three

文档评论(0)

1亿VIP精品文档

相关文档