- 1、本文档共88页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* * * * * * * * * * * * * * * * * * * * Content Layouts * * * * Content Layouts * * * * * * * * * * * * * * * * * * * * * * * N-gram法 N-gram(N0),是指由N个相邻字符组成的字符串序列。 对文本进行处理,可得到该文本所包含的长度为N的字符串集合。 对“数字图书馆”进行4-gram处理, 有 {数字,字图,图书,书馆} 对“information”进行4-gram处理,有{info, nfor, form, orma, rmat, mati, atio, tion} N-gram法 N-gram法是一种与语种无关的纯统计分析式的文本处理技术 这种方法通过对汉语文本中的N-gram指标的出现频率进行统计分析,无需词典和规则,可大大提高文本标引的处理速度和自动化水平 2.3 信息存储各功能模块分析 自动标引中的词频统计和加权方案 自动标引中的词语加权方案 绝对词频法 逆文档频率法 词区分值法 绝对词频法 假设:当某个作者要深入阐述或解释某一话题时,它常常会重复使用某些特定的词语 这种强调手法可以作为判断词重要性的一种标志。也就是说,把词在文档中的出现频次作为该词重要性的一种有效测度 绝对词频法 基本原理 在给定的一个由N篇文档组成的文档集合中,计算出每篇文档中每个不同的词的出现频次Freqik 把每个不同词在N篇文档中的出现频次相加,得到词k的集合频率Tfreqik 按集合频率递减次序排列这些词,并用试错法确定高频词和低频词的阈值 排除高频词和低频词,挑选余下的中频词作为标引词,并按照他们的Freqik来决定在相应文档中的权值 绝对词频法 主要特点:方法简单,容易实现,有一定的实用性。 缺点:仅使用中频词作为标引词,简单排除高频词和低频词,不仅可能会降低查全率和查准率,而且确定高频词和低频词的截止界也是很困难的。 逆文档频率法 假设:某词的重要性与它在特定文档中出现的频次成正比,与含有该词的文档数成反比, 其计算公式 IDFk=log(N/nk)+a 其中,N为文档集合中的文档总数,nk为含有词k的文档数量,a为参数,通常取1或0.5 进一步,结合词的绝对频率值Freqik可以形成词k在文献i中的权值计算公式 Weightik= Freqik *IDFk 逆文档频率法 主要特点: Weightik的计算综合考虑了词的绝对频率和逆文档频率,从局部和全局两方面计算其在特定文献中的重要性,不仅计算方法比较简单,加权效果也比较好。 词区分值法 词区分值:使用某个词做内容标识时,它所具有的区分不同内容文档的能力 假设:对一个文档集合D, 其中的每篇文档都用等长的文档向量表示,可以计算出任意两篇文档向量之间的相似度 若把集合D中的全部文档对的相似度都计算出来,就可以得到一个平均相似度AvgSim。 因此,对于某个文档集合来说,其平均相似度越大,检索效率就越低,反之,平均相似度越小,检索效率就越高 词区分值法 如果一个词作为标引词使用后,能使文档集合的AvgSim显著地减小,或者把它去掉后会使AvgSim的值明显增大,就说明该词的区分力好,是一个有效的标引词 如果一个词作为标引词会使AvgSim的值显著地增大,去掉后使AvgSim的值显著地减小,则说明该词的区分能力差,不适合做的标引词 词区分值法 词区分值的计算 DVk = AvgSimk — AvgSim 其中, DVk为词k的区分值, AvgSimk为去掉该词k之后的文档集合的平均相似度 特点:加权计算量比较大,曾在SMART系统中使用过 自动标引处理流程 2.3.3 数据库创建与维护 数据库创建与维护模块 主要任务是在“信息资源选择与采集”和“信息标引处理”模块工作的基础上,建立和维护可直接用于信息检索的数据库 主要内容包括: 数据录入或扫描 错误检查与校对 数据格式转换 文档更新维护 信息检索系统的逻辑结构 信息检索的基本原理:对信息资源集合与信息需求集合的匹配与选择 信息检索是一种有目的和组织化的信息存取活动 2.4 信息查询各功能模块分析 用户(检索)接口 人机交互模型主要基于以下两个基本假定 用户的信息需求是静态不变的 信息查询是一个对提问式不断修改并逐步获取理想检索结果的过程 用户与信息检索系统的一个交互的循环模型 2.4 信息查询各功能模块分析 一、用户(检索)接口模块的基本构成 1、用户模型 2、信息显示 3、交互语言 4
您可能关注的文档
- 琴诗飞扬作文辅导:议论文例后点题修改一技术总结.ppt
- 生物化学第7章糖类和糖生物学技术总结.ppt
- 04第四章检验项目的临床效能评价技术总结.ppt
- 生物化学第8章酶促反应动力学技术总结.ppt
- 物理八年级期末复习两周通7980技术总结.ppt
- 04第四章金属的断裂韧度技术总结.ppt
- 移动代维基础技术总结.ppt
- 生物化学第9章酶的作用机制和酶活性调节技术总结.ppt
- 生物化学第15章核酸的理化性质技术总结.ppt
- 生物化学第17章肝脏生化技术总结.ppt
- 2025年中国锻铁围栏市场调查研究报告.docx
- 2025年中国椭圆型市场调查研究报告.docx
- 2025年中国无蔗糖原味豆浆市场调查研究报告.docx
- 2025-2031年中国泛在电力物联网行业发展运行现状及投资潜力预测报告.docx
- 2025年中国制袋机零件市场调查研究报告.docx
- 2025年中国智能除垢型电子水处理仪市场调查研究报告.docx
- 2025-2031年中国甘肃省乡村旅游行业市场深度研究及投资策略研究报告.docx
- 2025-2031年中国干海产品行业市场发展监测及投资战略规划报告.docx
- 2025年中国全铝图解易拉盖市场调查研究报告.docx
- 2025年中国人造毛皮服装市场调查研究报告.docx
最近下载
- 教师家访记录内容50篇.docx VIP
- 全国辅警考试题库+答案(2025版).docx VIP
- 项目成本管理(估算、预算、控制).ppt VIP
- 2024年广东省基层住院医师线上岗位培训《针灸技术》答案-中医学专业培训课程专业课.docx VIP
- DB44T2614.2-2025 农业面源污染监测及测算技术规范 第二部分:畜禽养殖业面源污染监测.pdf VIP
- 高考被动语态专项练习.pdf VIP
- 景观常用灌木.doc VIP
- 2025年储能电池热管理系统在光伏储能电站的集成与应用报告.docx VIP
- 非ST段抬高型急性冠脉综合征诊断和治疗指南(2024) .pdf VIP
- 华为存储双活规划设计指南.pdf VIP
文档评论(0)