- 1、本文档共64页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
03文本信息检索技术与方法分析
第 3 章 文本信息检索技术与方法 文本是一种极其重要的信息和知识交流媒介。从远古时期的象形文字开始,人类社会已发展和创造了各种形式的文字和语言系统。自计算机诞生以来,各种文本数据一直是其处理和加工的主要对象,信息检索领域也不例外。 3.1 文本信息概述 3.1.1 文本信息的基本知识 一、文本的概念 文本是基于一定的语言符号系统而形成的一个有限符号序列 符号是不能再分割的记号单位,如数字符号、字母符号、标点符号等 3.1 文本信息概述 符号表是有限个任意符号组成的非空集合,符号表中的元素即是“符号”,如由所有汉字组成的集合,由所有英语词汇组成的集合等 符号串是指由符号表中的符号组成的长度有限的序列。例如,如果符号表是汉语中所有词汇的集合,那么,任何汉语句子和短语都是该符号表上的符号串 这样我们就可以将文本定义为某符号表上的符号串的集合 二、文本的信息量 假设在某一给定的文本片段中共出现有δ个符号,而在该文本段中每个符号的出现概率为pi(i=1,2,…, δ),则该段文本的信息熵定义为: 熵的单位是比特 例:在某一文本片段中,取δ=16,每个符号以等概率方式出现,则该段文本的信息熵为4比特 三、文本文档的格式与编码 当把文本信息输入、存放在计算机存储器中,通常需要结合具体应用任务来指定一定的文档格式。 常用的文档格式: TXT、RTF、DOC、PDF、MIME、… ARJ、ZIP… 3.1.2、自然语言文本中词汇的频率与数量分布规律 在基于某种自然语言系统的文本文档集合中,词汇的出现频率和数量是有一定规律的。 一、词汇的频率与齐普夫分布模型 词的出现频率和按照频率高低降序排列后产生的词的序号是一个频率词典的两个最基本的数量指标。 齐普夫分布模型 齐普夫定律即在一个给定的文本文档集合中,如果将所有单词按照其出现频率递减排列,并用自然数依次给单词赋予等级序号1、2、3、…,那么,单词频率与其等级序号的乘积为一个常数,其数学表达式为 fr = C 或者 f = C / r 上式中f为某个单词的出现频率,r为该单词的等级序号,C为常数。 齐普夫分布模型 齐普夫分布模型 齐普夫定律的更普遍形式 或者 上式中的参数 因学科样本等不同而有所变化,其取值范围约在1.5-2之间 对于文本信息检索来说,齐普夫定律在词表编制、自动标引、倒排文档组织等方面有比较重要的理论指导价值 二、词汇的数量与Heaps分布模型 在文本文档集合中,不仅词汇的频率分布具有显著的规律性,词汇的数量及其增长变化也表现出一定的规律性。 为了预测自然语言文本中词汇的增长变化,研究人员提出了Heaps模型 该模型认为,在一个长度为n个词的文本片段中,它的词汇量V与n之间具有以下关系 K通常取10-100, 则是小于1的正实数 二、词汇的数量与Heaps分布模型 3.2、布尔检索 布尔检索主要以索引文档为基础,通过布尔逻辑运算符对检索词进行组配,形成检索提问式,进而以此提问式为匹配依据完成对索引文档的匹配处理并获取查询结果 3.2.1 布尔逻辑运算符号及其使用 一、布尔逻辑运算符及其运算含义 布尔逻辑运算符是构造用户检索提问式的一组主要连接组配符号,主要包括: 逻辑或(OR) 逻辑与(AND) 逻辑非(NOT) 逻辑或(OR) 也称为“析取联接词”,形式上还可以写作“+” 检索词A和检索词B若用“OR”组配,则检索提问式可表示为 A OR B 或者 A + B 逻辑或(OR) 逻辑或(XOR)运算的文氏图表示 逻辑或(OR) 例如,研究网络搜索引擎的用户,对有关Google、Excite、百度的文献信息都比较感兴趣,就可以使用“OR”构造如下的提问检索式: Google OR Excite OR 百度 逻辑或(OR) 对于检索提问式“A OR B”, 假设检索词A的所有命中文档有m篇,检索词B的所有命中文档有n篇,“A OR B”的所有命中文档有s篇,则: 当A与B不相关时,s = m + n; 当A与B有一定相关性时,s m + n; 当A与B密切相关时,s = Max(m,n); 综合以上三种情况,有 Max(m,n) ≤ s ≤ m + n 逻辑与(AND) 也称为“合成联接词”,形式上还可以写作“*” 检索词A和检索词B若用“AND”组配,则检索提问式可表示为 A AND B 或者 A * B 逻辑与(AND) 逻辑与(AND) 例如,研究网络搜索引擎的用户,对同时出现Google、Excite、百度的文献信息比较感兴趣,就可以使用“AN
您可能关注的文档
- 03.胜科采油管理区生产信息化建设数控中心配套工程施工组织设计.doc分析.doc
- 03.1放射诊疗建设项目卫生审查申请书及示范文本2分析.doc
- 控制测量学课件第十八讲.ppt
- 032纠正与预防措施管理规程分析.doc
- 控制计划CP培训教材.ppt
- 0350-大型公司全套作业流程图分析.ppt
- X线诊断报告模板解析.doc
- 控制逆变一体机10-50K用户手册V1.0.doc
- 03Linux操作基础分析.ppt
- 投资评估报告071125-quan222.ppt
- 2025年景区新能源电动观光车运营与景区旅游智慧化建设.docx
- 老年人健康监测系统2025年数据隐私保护技术研究与应用.docx
- 电竞产业2025年用户社交需求分析报告:社区运营策略创新与实战.docx
- 聚焦2025:职业教育数字化转型政策下的国际化人才培养模式.docx
- 老年人健康管理平台,2025年数据隐私保护与用户信任构建研究报告.docx
- 老年人健康监测数据隐私保护技术规范与实施建议报告.docx
- 2025年无人机植保作业在花卉园艺中的应用效果评估.docx
- 安徽省淮南四中2026届数学高一上期末学业水平测试试题含解析.doc
- 过敏医疗领域生物工程产品市场前景报告.docx
- 老年人健康数据隐私保护:2025年行业趋势与市场分析报告.docx
文档评论(0)