Web 信息处理与应用习题解答1(共2).pdf

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Web 信息处理与应用习题解答1(共2)

Web 信息处理习题解答 Chp.3 Text Processing  假设词典中包括词{的确,王公,实在,在 理,公子}以及所有单字集合,请分别给出 句子“王公子说的确实在理”的FMM和 BMM 分词结果 • FMM :从左至右尽可能查找最长的词,直到当前字 符与已经处理的字符串不构成词,输出已经 识别的词,并从识别出来的词后面接着查找 王公 子 说 的确 实在 理 • BMM :从右至左尽可能查找最长的词 王 公子 说 的确 实 在理 Chp.4 Indexing  考虑下面的文档: Doc 1 new home sales top forecasts Doc 2 home sales rise in july Doc 3 increase in home sales in july Doc 4 july new home sales rise (1)画出该文档集对应的term-document 关联矩阵 假定每个单词都作为一个索引词项 (2)画出该文档集对应的倒排索引,假定每个单词 都作为一个索引词项。要求每个词项包含 document frenquency 以及term frenquency Diagram Diagram 2 2 • 关联矩阵:关联矩阵的每一列都是0/1 向量,每个 0/1都对应一个词项 Chp.4 Indexing doc1 doc2 doc3 doc4 new 1 0 0 1 home 1 1 1 1 sales 1 1 1 1 top 1 0 0 0 forecast 1 0 0 0 rise 0 0 0 1 in 0 1 1 0 July 0 1 1 1 increase 0 0 1 0 Chp.4 Indexing • 倒排索引: new 2 1[freq.=1],4[freq.=1] home 4 1[freq.=1],2[freq.=1],3[freq.=1],4[freq.=1] sales 4 1[freq.=1],2[freq.=1],3[freq.=1],4[freq.=1] top 1

文档评论(0)

xxj1658888 + 关注
实名认证
内容提供者

教师资格证持证人

该用户很懒,什么也没介绍

领域认证该用户于2024年04月12日上传了教师资格证

1亿VIP精品文档

相关文档