搜索引擎基本原理及实现技术 ——索引技术 网络爬虫辛辛苦苦的把网页爬回来之后…… 预处理系统 主要工作 信息抽取 分词 分类等处理工作 生成正排发送 到索引系统生成倒排索引。 信息抽取 去标签和去噪 去标签 构造 DOM 树。,Jsoup;tinyHTML,htmlParser 去噪 去掉与正文不相关的广告或者其他信息。如广告,评论,导航条,版权信息,友情链接等等。 分词 分词的目的是为了提取文件特征,文件特征即网页内容的结构化表现形式。 分词方法 基于字符串匹配的分词方法 基于理解的分词方法 基于统计的分词方法 基于字符串匹配的分词方法 也叫做基于字典的分词方法,它是以字典为依据的。按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配。若在词典中找到某个字符串,则匹配成功,即识别出一个词。 又分为三种: 正向最大匹配法(由左到右的方向); 逆向最大匹配法(由右到左的方向); 最少切分法(使每一句中切出的词数最小)。 基于理解的分词方法 该方法又称基于人工智能的分词方法。 它是利用汉语的语法知识和语义知识以及心理学知识进行分词,需要建立分词数据库、知识库和推理机。这种分词方法需要使用大量的语言知识和信息。 目前还处在试验阶段。 基于统计的分词方法 又称为无字典分词,它的主要思想是:词是稳定的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成
您可能关注的文档
- A122中国电信移动终端需求白皮书VoLTE终端分册汇编.docx
- 数控车床编程常用指令介绍分解.doc
- 松鼠和松果分解.ppt
- 松拓户外登山手表说明书分解.docx
- A04_多表关联查询副本汇编.ppt
- A15工程项目管理制度汇编.doc
- 松下六西格玛项目案例分解.ppt
- 数控车床编程基础知识分解.ppt
- 崧泽华城幸福里悬挑钢平台施工方案分解.doc
- 嵩栾五标30m箱梁架梁方案分解.doc
- 2026住宅小区消防改造建筑方案(执行版,含总平面布置/疏散流线/消防节点).docx
- 2026制造工厂人力资源规划与排班配置方案(执行版,含排班模型/岗位编制/缺口清单).docx
- 2026人工智能企业内训实施计划(执行版,含培训安排/案例任务/考核清单).docx
- 2026仓储物流园总平面布置建筑方案(执行版,含车流组织/仓位分区/消防间距).docx
- 2026老旧办公楼节能改造建筑方案(执行版,含围护结构/节能设备/施工节点).docx
- 2026Python文件批量重命名与归档脚本方案(执行版,含文件样例/处理脚本/归档规则).docx
- 2026企业会计准则长期股权投资核算指南(执行版,含成本法分录/权益法分录/减值检查表).docx
- 2026社区养老服务中心项目可行性研究报告(执行版,含服务需求/建设内容/运营预算).docx
- 2026物流园冷链仓储项目可行性研究报告(执行版,含选址分析/设备配置/财务测算).docx
- 2026企业会计准则现金流量表编制口径手册(执行版,含分类口径/填报模板/勾稽检查表).docx
最近下载
- 2025至2030年中国除草解毒剂市场分析及竞争策略研究报告.docx
- 梁加大截面加固施工方案.docx VIP
- 05J909《工程做法》图集.docx VIP
- 2025第四季度思想汇报范文(2篇).docx VIP
- 2025内蒙古乌兰察布市商都县事业单位人才引进38人笔试备考题库及答案解析.docx VIP
- TSG 21-2016 固定式压力容器安全技术监察规程.docx VIP
- 机房建设项目预算报价清单.xlsx VIP
- 15ZD03 室外箱式变电站安装.docx VIP
- 《原始社会的解体和阶级社会的演进》课件_高中政治_必修1 中国特色社会主义.pptx VIP
- 2025年事业单位职测考试试卷:资料分析经典题型解析.docx VIP
原创力文档

文档评论(0)