信息检索-试题.docxVIP

下载本文档

2
0
约2.55千字
约 4页
2021-05-24 发布于河北
举报
版权申诉

信息检索-试题.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

内容安全概念模型 Jaccard 系数的缺陷， tf-idf 要考虑哪些因素产生式与判别式的区别索引的建立，倒排索引检索评价指标计算极大似然估计，使用加 1 平滑答案： 1. 信息安全的框架包括内容安全（信息利用的安全）、数据安全（信息自身的安全）、运行安全（信息系统的安全）、物理安全（信息系统的安全）。如图所示：内容安全涉及的是对流动的数据进行限制，包括可以对指定的数据进行选择性的阻断、修改、转发等特定的行为以及信息对抗，即针对信息中的信息熵而进行的隐藏、掩盖，或发现、分析的行为。它是指对信息真实内容的隐藏、发现、选择性阻断。主要的处置手段是信息识别与挖掘技术、过滤技术、隐藏技术等。 2. Jaccard 系数的缺陷：（1 ）不考虑词项频率，即词项在文档中的出现次数；（ 2）罕见词比高频词的信息量更大， Jaccard 系数没有考虑这个信息；（ 3）没有仔细考虑文档的长度因素。 tf-idf 要考虑的因素：（1 ）词项频率，即词 t 在文档 d 中出现的次数；（ 2 ）文档频率，指出现词项 t 的文档数。（ 3 ）归一化向量 3. 判别式模型（ discriminative model ）产生式模型（ generative model ）寻找不同类别之间的最优分类面，反映的对后验概率建模，从统计的角度表示数据特点是异类数据之间的差异的分布情况，能够反映同类数据本身的相似度区别 ( 假定输入估计的是条件概率分布 (conditional 估计的是联合概率分布（ joint x,类别标签 y) distribution) : P(y|x) probability distribution: P(x, y), 联系由产生式模型可以得到判别式模型，但由判别式模型得不到产生式模型。 –logistic regression –Gaussians, Naive Bayes –SVMs –Mixtures of Gaussians, Mixtures of 常见模型 –traditional neural networks experts, HMMs –Nearest neighbor –Sigmoidal belief networks, Bayesian networks –Markov random fields 1 ）分类边界更灵活，比使用纯概率方法 1 ）实际上带的信息要比判别模型丰富；或产生式模型更高级； 2 ）研究单类问题比判别模型灵活性强； 2 ）能清晰的分辨出多类或某一类与其他 3 ）模型可以通过增量学习得到；类之间的差异特征； 4 ）能用于数据不完整（ missing data ）优点 3 ）在聚类、 viewpoint changes, 情况。 partial occlusion and scale variations 中的效果较好； 4 ）适用于较多类别的识别； 5 ）判别模型的性能比产生式模型要简单，比较容易学习。 1 ）不能反映训练数据本身的特性。能力 1) Tend to produce a significant 有限，可以告诉你的是 1 还是 2，但没 number of false positives. This is 有办法把整个场景描述出来； particularly true for object classes 2 ） Lack elegance of generative: which share a high visual similarity 缺点 Priors, 结构 , 不确定性； such as horses and cows ； 3 ） Alternative notions of penalty 2) 学习和计算过程比较复杂。 functions, regularization, 核函数； 4 ）黑盒操作 : 变量间的关系不清楚，不可视。较好（性能比生成模型稍好些，因为利用较差性能了训练数据的类别标识信息，缺点是不能反映训练数据本身的特性） Image and document classification NLP 主要应用 Biosequence analysis Medical Diagnosis Time series prediction 4. 设有两个文档 D1,D2 其文本内容分别如下： D1={abfcdgecfcdeag} D2={dacfggfcbbaafc} 对文档 D1,D2 建立倒排索引，并写出倒排索引结构。用伪代码写出上述建立倒排索引的建立过程。给定查询