基于密度的职位可信度挖掘2013年6月1日.pptVIP

基于密度的职位可信度挖掘2013年6月1日.ppt

  1. 1、本文档共20页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于密度的职位可信度挖掘2013年6月1日

基于密度的职位可信度挖掘 答辩人:王辛 导师:黄穗 计算机应用专业 2013年6月1日 目录 研究背景及意义 本文主要工作 离群点挖掘概述 DBSCAN算法和LOF算法简介 实验结果分析 致谢 研究背景及意义 背景 网络招聘的兴起 艾瑞咨询统计显示,2011年中国网络招聘市场总营收规模达到21.8亿元,较2010年的17.0亿元增长了28.6%。其中雇主数达四百多万,求职者达7100万 网络招聘市场竞争激烈(前程无忧、智联招聘)。 问题 信息真实度低(企业信息、个人信息) 招聘成功率低 本文主要研究内容 主题 找出职位中的不可信职位 方法 我们可以把虚假职位当作离群点进行挖掘 目前离群点挖掘应用在多种场合(金融、电信、税收) 相关工作 目前离群点技术的发展现状 运用DBSCAN和LOF方法检测不可信职位 比较两方法的优缺点,综合两种方法进行实验 离群点挖掘概述 概念 与数据的一般形为或特征不一致的数据 步骤 确定哪些数据是不一致的数据 找到合适的模型找到这些不一致的数据 DBSCAN概述:基于密度的聚类算法 核心思想 只要“邻域”中的密度超过某个阈值,就继续聚类。也就是说,对给定簇中的每个数据点,在给定半径的邻域中必须至少包含最少数目的点 LOF概述(基于密度的局部离群点检测方法) 核心思想 该方法是将数据之间的距离和周围的数据结合起来,从而计算密度。从而可以避免整体数据分布不均匀时产生的误差。 公式 :结点p的邻居结点 :结点p和o的可达距离 两方法的优缺点对比 对比表 DBSCAN(需用户设置两个初始参数e和minPts) e:半径 minPts:最小邻域结点数 LOF和DBSCAN在职位可信度上的应用 数据 本文以南方人才网站现有数据库中的职位做实验 主要数据表企业信息、职位信息以及相关的维表信息 本文从职位信息表抽取了5000个正常职位以及500个虚假职位 结果评估方法 查准率=搜索出的实际虚假职位/搜索出的虚假职位 查全率=搜索出的实际虚假职位/总共的虚假职位 DBSCAN结果与分析 LOF结果与分析 不同k值下查准率随阈值e的变化趋势 阈值e 查准率 阈值e=1.4时查全率、查准率随k变化趋势 阈值e=1.4时查全率、查准率变化趋势 k 查准率 综合实验结果分析 双重检验是指DBSCAN和LOF方法同时认为某一职位为虚假职位时,我们就认为该职位是虚假职位。 结合检验是指DBSCAN和LOF两种方法中至少存在一种方法认为某职位是虚假职位,则我们就认为该职位是虚假职位 结合原因:两种方法之间具有一定的互补性(LOF方法能弥补DBSCAN方法全局密度参数对聚类效果的影响) 展望 改进方法 本文仅从基于密度的方向进行了实验,可以考虑采用其它模型进行实验,例如决策树模型、神经网络模型等 没考虑不同因素所占权重的问题,未来可以考虑引入特征加权,这样权重较大的因子将起到更大的作用,两对象的相似度计算将更为合理 谢谢

文档评论(0)

baoyue + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档