- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* 首风格基本一致,简单明了 * 状态栏:查询短语,查询时间,找到的相关文档数 结果栏: 标题,摘要,查询词高亮显示,历史网页,相同站点内的结果聚类显示 在google,baidu,tianwang上检索“搜索引擎新技术”,不理想 检索“search engine new technology”,同样不理想,如果不加双引号,检索结果中与我要找的不相关, 增加了双引号,baidu,tianwang都没有匹配的结果了 也许有好的结果页面,但是我们没有找到。 New technology could speed the collection and categorizing of information from the Web * 1。CNNIC截止在2004年6月底的统计表明, (/download/2004/2004072002.pdf) 互联网用户使用电子邮件和搜索引擎的比率分别为84.3%和64.4%,在近30种网络服务中 高居前两位。用户对搜索引擎的满意度也很高,其中,对搜索引擎服务表示非常满意和 比较满意的分别为26.9%和52.5%(居各项服务之首),表示不太满意和很不满意的仅为 2.8%和0.6%(居各项服务之末)。 * 现代大规模高质量搜索引擎一般采用三段式的工作流程,即: 网页搜集,预处理,和查询服务 1) 定期搜集,每次搜集替换上一次的内容,我们称之为“批量搜集”。 开始时搜集一批,往后只是(1)搜集新出现的网页,(2)搜集那些在上次搜集后有过改变的网页,(3)发现自从上次搜集后已经不再存在了的网页,并从库中删除。我们称之为“增量搜集”。 “目标网页”指的是搜索引擎设计覆盖的网页范围。例如Google是全球,天网是全中国。 2) 对于中文来说,就是要根据一个词典Σ,用一个所谓“切词软件”,从网页文字中切出Σ所含的词语来。在那之后,一篇网页主要就由一组词来近似代表了 . 天网在2003年的一次大规模统计分析表明,网页的重复率平均大约为4。 大量的HTML标记既给网页的预处理造成了一些麻烦,也带来了一些新的机遇。从信息检索的角度讲,如果系统面对的仅仅是内容的文字,我们能依据的就是“共有词汇假设”(shared bag of words),即内容所包含的关键词集合,最多加上词频(term frequency 或tf、TF)和词在文档集合中出现的文档频率(document frequency 或df、DF)之类的统计量。而TF和DF这样的频率信息能在一定程度上指示词语在一篇文档中的相对重要性或者和某些内容的相关性,这是有意义的。 搜索引擎返回给用户的,是一个和用户查询相关的结果列表。列表中条目的顺序是很重要的一个问题。 3) 搜索引擎给出的结果是一个有序的条目列表,每一个条目有三个基本的元素:标题,网址和摘要。 * Just look, and skip * The goals of web pages storage are long-time preservation and multi-application oriented. So the format should be simple enough and convenient enough to use. Yet we face the two challenges, the size of raw web pages is not regular – it may range from lKB to several MB. An individual file will usually require more space to store than the true size of the file, because the block size is more than one byte, and a block is never divided between multiple files. Suppose the size of a page file is 6KB and the block size is 4KB, the file will occupy 2 blocks. If the space waste in storing a single file will be 2KB, how much will cost in storing numerous files? the life of storage device is not unlimited and the system software is not absolutely robust, so the stor
您可能关注的文档
- 数控车工中级操作技能考核试题.doc
- 税务干部群众路线教育个人对照检查材料.doc
- 变质重结晶锆石微量元地球化学与U-Pb年代学以辽宁红透山铜锌矿床赋矿片麻岩为例 Trace element geochemical and U-Pb geochronology of metamorphic recrystallization zircon Taking gneiss from Hongtoushan copper-zinc deposit as an example.pdf
- 数控机床常见故障及排除方法.doc
- 储层流动单元研究在油田老区挖潜中的应用——以吉林油田乾146区块开发为例 Applications of Reservoir Flow Unit in Potential Finding of Developed Reservoir A Case Study on Exploitation of Block Qian-146 in Jilin Oil Field, NE China.pdf
- 2014年公司业务员工作自我总结.doc
- 主诉检察官选任现状调研报告.doc
- 数控机床的坐标系说课课件.ppt
- 带东段喷流沉积型铅锌矿床特征及其成矿模式以徽县洛坝矿床为例 Characteristics and Metallogenic Model of SEDEX Lead-Zinc Deposits in the Western Qinling Orogenic BeltA Case Study of the Luoba Deposit in Hui County,Gansu Province.pdf
- 滇西北北衙金多金属矿田的成岩成矿作用对印-亚碰撞造山过程的响应 Petrogenesis and metallogenesis of the Beiya-goldpolymetallic ore district, northwestern Yunnan province, China Responses to the Indo-Asian collisional processes.pdf
最近下载
- 市政基础设施工程施工现场质量管理标准化.doc
- 手机照片视频误删后的恢复方法.doc VIP
- 一例无法控制大脑的心理咨询案例——以人为中心疗法取向.pdf VIP
- [教你如何制作KTV歌曲VOD歌曲KTV歌曲库.doc VIP
- 照明设计软件:AGI 32二次开发_AGI32数据管理与优化.docx VIP
- 第五届潍坊市职业技能大赛城市管理网格员题库及答案(760题).docx VIP
- 鼻肠管滑脱的应急预案.pptx VIP
- DGT 801系列数字式发电机变压器组保护装置技术说明书.pdf
- 广东省肇庆市怀集县事业单位考试真题每日一练带答案解析(2021年03月02日).docx VIP
- 农村教师公开选调进城考试模拟试题1(初中地理·附参考答案).docx
文档评论(0)