- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
内容安全概念模型
Jaccard 系数的缺陷, tf-idf 要考虑哪些因素
产生式与判别式的区别
索引的建立,倒排索引
检索评价指标计算
极大似然估计,使用加 1 平滑
答案:
1. 信息安全的框架包括内容安全(信息利用的安全) 、数据安全(信息自身的安全) 、
运行安全(信息系统的安全) 、物理安全(信息系统的安全) 。如图所示:
内容安全涉及的是对流动的数据进行限制, 包括可以对指定的数据进行选择性的阻
断、修改、 转发等特定的行为以及信息对抗, 即针对信息中的信息熵而进行的隐藏、掩
盖,或发现、分析的行为。它是指对信息真实内容的隐藏、发现、选择性阻断。主要的
处置手段是信息识别与挖掘技术、过滤技术、隐藏技术等。
2.
Jaccard 系数的缺陷:(1 )不考虑词项频率,即词项在文档中的出现次数; ( 2)罕见词
比高频词的信息量更大, Jaccard 系数没有考虑这个信息; ( 3)没有仔细考虑文档的长
度因素。
tf-idf 要考虑的因素: (1 )词项频率,即词 t 在文档 d 中出现的次数; ( 2 )文档频率,
指出现词项 t 的文档数。( 3 )归一化向量
3.
判别式模型(
discriminative model
)
产生式模型(
generative model
)
寻找不同类别之间的最优分类面,
反映的
对后验概率建模, 从统计的角度表示数据
特点
是异类数据之间的差异
的分布情况, 能够反映同类数据本身的相
似度
区别 ( 假定输入
估计的 是条 件 概率分 布 (conditional
估 计 的 是 联 合 概 率 分 布 (
joint
x,类别标签 y)
distribution) :
P(y|x)
probability distribution: P(x, y),
联系
由产生式模型可以得到判别式模型,但由判别式模型得不到产生式模型。
–logistic regression
–Gaussians, Naive Bayes
–SVMs
–Mixtures
of
Gaussians, Mixtures
of
常见模型
–traditional neural networks
experts, HMMs
–Nearest neighbor
–Sigmoidal belief networks, Bayesian
networks
–Markov random fields
1
)分类边界更灵活, 比使用纯概率方法
1
)实际上带的信息要比判别模型丰富;
或产生式模型更高级;
2
)研究单类问题比判别模型灵活性强;
2
)能清晰的分辨出多类或某一类与其他
3
)模型可以通过增量学习得到;
类之间的差异特征;
4
)能用于数据不完整 ( missing data
)
优点
3
) 在 聚 类 、
viewpoint
changes,
情况。
partial occlusion and scale variations
中的效果较好;
4
)适用于较多类别的识别;
5
)判别模型的性能比产生式模型要简
单,比较容易学习。
1
)不能反映训练数据本身的特性。
能力
1)
Tend
to
produce
a significant
有限,可以告诉你的是
1 还是 2,但没
number
of
false
positives.
This
is
有办法把整个场景描述出来;
particularly
true
for
object
classes
2
) Lack
elegance
of
generative:
which share
a high
visual similarity
缺点
Priors, 结构 , 不确定性;
such as horses and cows
;
3
) Alternative
notions
of penalty
2)
学习和计算过程比较复杂。
functions, regularization,
核函数;
4
)黑盒操作
: 变量间的关系不清楚,
不可视。
较好(性能比生成模型稍好些, 因为利用
较差
性能
了训练数据的类别标识信息,
缺点是不能
反映训练数据本身的特性)
Image and document classification
NLP
主要应用
Biosequence analysis
Medical Diagnosis
Time series prediction
4.
设有两个文档 D1,D2 其文本内容分别如下:
D1={abfcdgecfcdeag}
D2={dacfggfcbbaafc}
对文档 D1,D2 建立倒排索引,并写出倒排索引结构。
用伪代码写出上述建立倒排索引的建立过程。给定查询
您可能关注的文档
最近下载
- 人教版道德与法治三年级上册第10课《公共场所的文明素养》第1课时 公共场所在哪里 教学课件.pptx VIP
- 预应力混凝土折线形屋架施工技术.pdf VIP
- 2019年新版GB T50502《建筑施工组织设计规范》.pdf VIP
- 人教版初中足球教学教案大全1.doc VIP
- 河北省专业技术职务任职资格考核认定表.doc VIP
- 新视野大学英语(第三版)读写教程BookI-Unit1-Section A-Toward a brighter future for all.ppt VIP
- 在线分析仪表专题培训课件.ppt VIP
- 任务认识布线缆线及其连接件.pptx VIP
- 投资人工智能领域核心标的:易方达中证人工智能ETF投资价值分析-20200925-国信证券-23页.pdf VIP
- 软件安装调试记录表模板.docx VIP
原创力文档


文档评论(0)