- 1
- 0
- 约4.43万字
- 约 50页
- 2019-05-11 发布于上海
- 举报
中文摘要面向领域的搜索引擎已成为为信息检索领域的一个重要研究课题。虽然该领
中文摘要
面向领域的搜索引擎已成为为信息检索领域的一个重要研究课题。虽然该领 域已经取得许多研究成果,但目前相应的系统应用和检索效果却并不乐观。本文 就面向领域的搜索引擎的若干问题,包括爬取算法、文本关键词提取和文本分类, 进行了较深入研究。
Web信息采集是搜索引擎的基础,也是一个核心组成部分。本文讲解了Web 爬取的基本原理和策略,并对常用的Web爬取算法进行了深入的分析。最后提 出了改进的基于Shark算法的新算法。
关键词提取是文本处理的一个重要环节。本文以朴素贝叶斯定理为基础,以 文本中词语的传统权重、第一次出现位置、出现位置的样本标准差为特征项,构 建了关键词提取的朴素贝叶斯模型。实验结果表明。相对于传统的基于权重的关 键词提取算法,该算法具有较高的准确度。另外,本文针对特征项取值离散化对 模型的不利影响,对该算法做了修正,重新调整了上述三个特征项在模型中的相 对重要性,从而进一步提高了算法的准确度。
文本分类是某些搜索引擎中对Web文本进行组织、实现高效检索的一项关 键技术。本文改进了传统的朴素贝叶斯分类模型,考虑进了文本长度和文本结构 两个影响因素,修正了分类模型的计算公式,同时在特征项选择算法中,综合考 虑了频度、集中度、分散度三项指标,使得选出的特征项更为合理,从而使分类 结果在精确度、召回率和F.Measure值方面均获得了一定程度的提高。
关键词:搜索引擎,爬取,关键词提取,文本分类,朴索贝叶斯定理
ABSTRACTThe
ABSTRACT
The domain-specific search engine has been an important roscareh branch of information retrieval and achieved rapid development in recent years.However,there are still some issues need to be studied further for boosting its practical application and improving its effectiveness and efficiency.This paper provides a more detailed
study for several issues in the domain-specific search engine,including crawling
policies,text keyword extraction and text classificatiom
The information crawling is the foundation for search engine.At first the crawling policies and strategy are studied.Then s0Ine common crawling algorithms ale analyzed in great detail.In the end,觚improved algorithm based on Shark algorithm is proposed.
Keyword extraction is one of important steps for text pro-processing.Based On Naive Baycs Theorem,this paper establishes a valid kcyword extraction model by taking the traditional weight,the first occurring position and the average deviation of spacing of the candidate words in a text as feature terms.Experimental results show
mal this model achieves higher accuracy than the traditional keyword extraction
method based on word’S weight.In addition,for reducing the adverse effect of value diseretization of feature tc:rms-this paper re-adjusts the relative importance of the above-mentioned three
您可能关注的文档
- 旅游观光电动车车身结构设计及轻量化研究-机械工程专业毕业论文.docx
- 黄海夏季底边界层动物生物多样性的研究-渔业资源专业毕业论文.docx
- 论注册会计师如何规避审计风险研究-会计学专业毕业论文.docx
- 美学视野中的中国古代园居生存-文艺学专业毕业论文.docx
- 面向切削宽度优化的自由曲面加工编程技术-航空宇航制造工程专业毕业论文.docx
- 抗抑郁药盐酸度洛西汀的合成及其质量标准的制定-药物分析学专业毕业论文.docx
- 论注册会计师如何规避审计风险-会计学专业毕业论文.docx
- 煤层气资源储量评估方法与理论研究-地质学专业毕业论文.docx
- 梅山铁矿低贫化放矿可行性研究-采矿工程专业毕业论文.docx
- 苗间机械除草装备结构设计研究-机械工程专业毕业论文.docx
最近下载
- GB50461-2024:石油化工静设备安装工程施工质量验收规范.pptx VIP
- 三江A116火灾报警控制器简易操作规程.docx
- (新版)社会体育指导员理论知识考试题库(含答案).docx VIP
- DB31T 1104-2018 城市轨道交通导向标识系统设计规范.docx VIP
- 2023年浙江省军队转业干部录用考试试题.docx VIP
- 口渴了-朋友帮你.ppt VIP
- Xikong西莱克低温机控制板SHXK814用户手册.pdf
- 爱迪生牛顿大发明攻略.doc VIP
- 重庆天齐锂电新材料有限公司新建1000吨_年高能锂电材料电池级金属锂项目环评报告.pdf VIP
- 朗文3A复习资料及垃圾分类作文8篇.doc VIP
原创力文档

文档评论(0)