- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
索引子系统的设计与实现 - 北京大学
论文摘要
中国于1994年进入INTERNET,之后INTERNET在中国得到了迅速的发展,中文的WWW信息也迅速增加。这使得在搜索中文信息时也需要一定的搜索工具。由于世界上现有的搜索引擎大部分都是针对英文设计的,它们或支持中文的能力很差,或根本不支持中文。个别支持中文搜索的搜索引擎,它们的数据库中所包含的中文信息的数量十分小,搜索的结果非常不理想。对于日益增长的中国INTERNET来说,实现一个具有大量中文信息数据库,能够良好支持中文检索的搜索引擎已是一种迫切的需求。
本论文所描述的系统即是作者参与设计和实现的一个支持中文的搜索引擎。它即支持对中文,英文的简单检索,又支持逻辑运算,模糊匹配等高级检索。它通过对中文的分词,实现了对在中文词汇一级检索的支持;通过对中文,英文的编码,实现了对中文,英文系统核心实现的一致化;通过两级索引机制和索引项的特殊设计,实现了检索的快速命中。
论文首先介绍了系统设计和实现的一些背景资料,介绍了WWW的发展于现状,世界主要搜索引擎及其比较,中文的特点与搜索引擎对中文的支持。之后,描述了系统的整体设计,详细介绍了转接层子系统和索引数据库子系统的设计。
关键词:搜索引擎 中文分词 索引数据库 编码方案
目录
第一章 背景介绍....................................................................................3
§1.1 Internet和WWW的发展与现状......................................................3
§1.2 世界主要得搜索引擎及其比较.......................................................4
§1.3 中文的特点和搜索引擎对中文的支持............................................6
第二章 系统概述...................................................................................10
§2.1 系统设计目标.................................................................................10
§2.2 系统总体结构.................................................................................10
第三章 转结层子系统的设计..........................................................12
§3.1 转结层子系统的设计思想..............................................................12
§3.2 中文编码互换.................................................................................13
§3.3 中英文编码方案.............................................................................14
§3.4 中文分词........................................................................................17
§3.5 中英文词汇的自动学习..................................................................19
第四章 索引数据库子系统的设计.................................................21
§4.1 索引数据库系统的设计思想...........................................................21
§4.2 索引数据库的设计..........................................................................22
§4.3 索引数据库的更新和维护...............................................................23
§4.4 索引数据库的检
您可能关注的文档
- 四川久远银海软件股份有限公司关于取得计算机软件着作权的公告.pdf
- 四叉树与多种活动轮廓模型相结合的遥感影像水边线提取方法 - 测绘学报.pdf
- 四川省高新技术产业园区项目投入强度和产出强度分类标准(试行).pdf
- 四川省广元中学2017届高考政治一轮备考讲座《把准高考考向理清命题 .ppt
- 四能级原子系统中量子相干增强的kerr非线性效应的研究.pdf
- 四逆变器并联磁悬浮列车牵引系统的谐波抑制 - 电工技术学报.pdf
- 四川科伦药业股份有限公司2016 年度第二期短期融资券 - 每日债券.pdf
- 四辊轧机工作辊辊端压靠板形控制模型 - 燕山大学学报.pdf
- 四上申报操作规范及标准 - 岳阳市部门单位信息共享平台.ppt
- 四则混合运算规则的样例学习 - 心理学报.pdf
- 建设工程质量安全管理标准化图集(安全篇2024版)ppt230页.pptx
- 《油气储存企业安全风险评估细则(2025年修订)》解读.pptx
- 2025年《危大工程专项施工方案严重缺陷清单专题培训》ppt120页_1230.pptx
- 中建分部分项检验批划分方案、资料目录策划编制要点ppt75页.pptx
- 某项目智慧工地示范项目应用成果介绍75页_5843.pptx
- 2025年中国风筝无人机LED夜光编队编程师应聘面试模拟题及答案.doc
- 2025年中国鞍钢集团招聘笔试题库附答案.doc
- 2025年中国鞍钢集团招聘面试预测题及答案.doc
- 临床器械实验培训试题及答案2025年版.docx
- 中石化《两个责任》解读分析.ppt
文档评论(0)