信息检索-试题.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
内容安全概念模型 Jaccard 系数的缺陷, tf-idf 要考虑哪些因素 产生式与判别式的区别 索引的建立,倒排索引 检索评价指标计算 极大似然估计,使用加 1 平滑 答案: 1. 信息安全的框架包括内容安全(信息利用的安全) 、数据安全(信息自身的安全) 、 运行安全(信息系统的安全) 、物理安全(信息系统的安全) 。如图所示: 内容安全涉及的是对流动的数据进行限制, 包括可以对指定的数据进行选择性的阻 断、修改、 转发等特定的行为以及信息对抗, 即针对信息中的信息熵而进行的隐藏、掩 盖,或发现、分析的行为。它是指对信息真实内容的隐藏、发现、选择性阻断。主要的 处置手段是信息识别与挖掘技术、过滤技术、隐藏技术等。 2. Jaccard 系数的缺陷:(1 )不考虑词项频率,即词项在文档中的出现次数; ( 2)罕见词 比高频词的信息量更大, Jaccard 系数没有考虑这个信息; ( 3)没有仔细考虑文档的长 度因素。 tf-idf 要考虑的因素: (1 )词项频率,即词 t 在文档 d 中出现的次数; ( 2 )文档频率, 指出现词项 t 的文档数。( 3 )归一化向量 3. 判别式模型( discriminative model ) 产生式模型( generative model ) 寻找不同类别之间的最优分类面, 反映的 对后验概率建模, 从统计的角度表示数据 特点 是异类数据之间的差异 的分布情况, 能够反映同类数据本身的相 似度 区别 ( 假定输入 估计的 是条 件 概率分 布 (conditional 估 计 的 是 联 合 概 率 分 布 ( joint x,类别标签 y) distribution) : P(y|x) probability distribution: P(x, y), 联系 由产生式模型可以得到判别式模型,但由判别式模型得不到产生式模型。 –logistic regression –Gaussians, Naive Bayes –SVMs –Mixtures of Gaussians, Mixtures of 常见模型 –traditional neural networks experts, HMMs –Nearest neighbor –Sigmoidal belief networks, Bayesian networks –Markov random fields 1 )分类边界更灵活, 比使用纯概率方法 1 )实际上带的信息要比判别模型丰富; 或产生式模型更高级; 2 )研究单类问题比判别模型灵活性强; 2 )能清晰的分辨出多类或某一类与其他 3 )模型可以通过增量学习得到; 类之间的差异特征; 4 )能用于数据不完整 ( missing data ) 优点 3 ) 在 聚 类 、 viewpoint changes, 情况。 partial occlusion and scale variations 中的效果较好; 4 )适用于较多类别的识别; 5 )判别模型的性能比产生式模型要简 单,比较容易学习。 1 )不能反映训练数据本身的特性。 能力 1) Tend to produce a significant 有限,可以告诉你的是 1 还是 2,但没 number of false positives. This is 有办法把整个场景描述出来; particularly true for object classes 2 ) Lack elegance of generative: which share a high visual similarity 缺点 Priors, 结构 , 不确定性; such as horses and cows ; 3 ) Alternative notions of penalty 2) 学习和计算过程比较复杂。 functions, regularization, 核函数; 4 )黑盒操作 : 变量间的关系不清楚, 不可视。 较好(性能比生成模型稍好些, 因为利用 较差 性能 了训练数据的类别标识信息, 缺点是不能 反映训练数据本身的特性) Image and document classification NLP 主要应用 Biosequence analysis Medical Diagnosis Time series prediction 4. 设有两个文档 D1,D2 其文本内容分别如下: D1={abfcdgecfcdeag} D2={dacfggfcbbaafc} 对文档 D1,D2 建立倒排索引,并写出倒排索引结构。 用伪代码写出上述建立倒排索引的建立过程。给定查询

文档评论(0)

pengyou2017 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档