网站大量收购独家精品文档,联系QQ:2885784924

不良信息发现A组.pptxVIP

  1. 1、本文档共50页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

不良信息发现A组郑泉斌余维航柯楚雯

01不良信息的概念、分类及危害02传统方法03机器学习深度学习方法04相关应用及产品content

不良信息概念及分类/01演讲人:郑泉斌

不良信息的概念4不良信息是指对信息主体信用状况构成负面影响的行为记录。不良信息是信息主体的履约行为对其信用状况构成负面影响的信息,包括信息主体在从事各类活动中未按照相关法律法规、协议合同或公约俗成的规范和约定履行义务,由此产生的司法裁决、商事处罚、行业惩戒和行政处罚的信息和互联网负面舆情信息。

不良信息的类型5关于性的成人类信息暴露隐私类风水、占卜等迷信类违反道德02病毒木马钓鱼网站破坏信息安全0301违反法律赌博毒品虚假诈骗淫秽色情

不良信息危害6对青少年精神的毒害网上黑色(谣言)信息对青少年智能犯罪的示范网上黑客对于产权拥有者造成损失侵犯知识产权对青少年人生观、价值观、道德观的侵袭网上文化侵略对青少年身心的摧残网上黄色流毒对青少年行为的误导网上暴力文化

传统方法/02演讲人:郑泉斌

分级法8创建文档标签创建附加标签文档上传标签文档将内容与标签相连标签系统要求网站作者填写网址,以确保系统所做标签与网站一一对应;完成问卷,以便为自己的网站分级创建文档标签单一的标签无法对整个网站分级,为网站的副站点进行分级创建附加标签文档上传标签文档可以由系统来完成也可以自己来完成。通过系统完成需向系统提供建站时由ISP分发的FTP的详细说明上传标签文档由网站作者来完成。网站作者会收到一封包含一个链接标签以及一个PICS标签的电子邮件。将邮件中收到的两个标签嵌入网站中的每一个网页的HTML代码的head部分即可将网站内容与标签相连

URL地址列表法9

基于内容的文本过滤技术10关键词匹配法布尔逻辑模型和向量空间模型重复串特征提取主题提取潜在语义索引法奇异值分解

各个传统方法的不足11分级法不法分子是不会主动给其传播的不良信息内容按照PICS标准贴标签的,所以基于PICS过滤在实际应用中效果不大关键词匹配法只能根据关键词进行简单的机械匹配,系统难以理解文本的含义,对于相似文本很难区分。例如有关性文化、性保健的内容与色情文本在关键词方面非常相似,给识别和过滤带来很大的误差。URL列表法虽然精确,但相对较耗时和费成本,且主观性强仅仅将网站分为允许访问和拒绝访问两种类型,不能对图像搜索的结果进行分类。可以采取了回避某些敏感词汇的办法,将不良文本嵌入到图像文件中,从而可以轻易地逃避URL过滤。潜在语义索引法算法复杂,系统执行慢,其过滤性能也会随着新词的加入而下降,缺乏直观意义,不便理解。(黑盒)

机器学习算法深度学习算法演讲人:余维航/03

13标注的困难每天都产生大量新评论,垃圾信息所占的比重高,标注成本非常高;垃圾信息发布用户会想方设法把自己“隐藏”在其他正常评论中,只凭语义信息可能难以确定是否垃圾信息。传统过滤方法监督的,必须以存在大量标注语料作为前提条件。半监督学习方法能够在只有少量标注数据的条件下,综合利用已标注数据和未标注数据的信息,达到较好的过滤效果。UserGeneratedContentUGC垃圾信息过滤?-分类问题判断一个评论是属于正常评论类,还是属于垃圾信息类

14深度学习算法分类算法半监督学习算法NetSpamSpEagleKNNSVM分类器朴素贝叶斯FastTextCNN

分类算法15Keyword对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。朴素贝叶斯分类器Facebook于2016年开源的一个词向量计算和文本分类工具,包含三部分:模型架构、层次Softmax和N-gram特征。FastText求解能够正确划分训练数据集并且几何间隔最大的分离超平面。SVMKNN是通过测量不同特征值之间的距离进行分类。如果一个样本在特征空间中的k个最邻近样本中的大多数属于某个类别,则该样本也属于这个类别。KNN

FastText的结构模型16对多个词向量的叠加平均输入层:多个经向量表示的单词?????输出层一个特定的目标隐含层输入向量通过V*N维的权重矩阵W连接到隐含层;隐含层通过N*V维的权重矩阵W连接到输出层。因为词库V往往非常大,使用标准的softmax计算相当耗时,于是输出层采用的是分层Softmax。FastText的输入是多个单词及其n-gram特征,这些特征用来表示单个文档,输出是文档对应的类标。

文本特征提取:N-gram17N-gram是一种基于语言模型的算法,基本思想是将文本内容按照字节顺序进行大小为N的滑动窗口操作,最终形成长度为N的字节片段序列。N-gram中的gram根据粒度不同,有不同的含义,可以是字粒度,也可以是词

文档评论(0)

说明书库 + 关注
实名认证
文档贡献者

24小时提供说明书查找服务。

1亿VIP精品文档

相关文档