[计算机]Web数据挖掘及其在人才引进方面的应用.docVIP

下载本文档

0
0
约2.77千字
约 5页
2018-11-26 发布于浙江
举报
版权申诉

[计算机]Web数据挖掘及其在人才引进方面的应用.doc

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

[计算机]Web数据挖掘及其在人才引进方面的应用

Web数据挖掘及其在人才引进方面的应用摘要：随着互联网技术的发展，web已成为当今世界上信息传播的主要途径，通过对web的挖掘，可从中提取所需的知识，而高层次高素质人才是高等院校立校之本和发展之源，也是综合实力及竞争力的体现，旨在通过研究web挖掘技术，并将其应用到人才引进过程中，找到人才引进的方法，有助于开展针对性的人才引进工作。关键词：数据挖掘；web挖掘；人才引进 0 引言互联网的发展给人们提供了很多有价值的信息，能否从internet上找到适合高校发展的人才信息，web数据挖掘是从大量的web文档集合和用户浏览网站的数据中发现蕴涵的、未知的、有潜在应用价值的、非平凡的模式的过程。web数据挖掘可以在许多领域发挥作用。 1 数据挖掘相关知识点 1.1 数据挖掘。数据挖掘（data mining）即从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，发现隐含的、规律性的、人们事先未知的、但又是潜在有用的并且最终可理解的信息和知识的非平凡过程[1]。 1.2 web挖掘。web挖掘是指从与www相关的资源和行为中抽取感兴趣的、有用的模式和隐含的信息[2]。web挖掘其实就是对文档的内容、可利用资源的使用以及资源之间的关系进行分析，以实现对web存取模式、web结构和规则的分析，以及动态web内容的查找。 1.3 web挖掘分类。一般地，根据web挖掘研究的对象，可以将web挖掘分为三类：web内容挖掘、web结构挖掘和web使用记录挖掘，其中web内容挖掘和web使用记录挖掘是web挖掘的两个主要方面。 2 搜索引擎介绍 2.1 定义搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息，在对信息进行组织和处理后，为用户提供检索服务，将用户检索的信息展示给用户的系统[3]。 2.2 搜索引擎分类 1）全文索引：全文搜索引擎是名副其实的搜索引擎，国外代表有google，国内则有著名的百度搜索。它们从互联网提取各个网站的信息（以网页文字为主），建立起数据库，并能检索与用户查询条件相匹配的记录，按一定的排列顺序返回结果。2）目录索引：目录索引虽然有搜索功能，但严格意义上不能称为真正的搜索引擎，只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息，不依靠关键词进行查询。目录索引中最具代表性的莫过于大名鼎鼎的yahoo、新浪分类目录搜索。3）元搜索引擎：元搜索引擎接受用户查询请求后，同时在多个搜索引擎上搜索，并将结果返回给用户。 3 web挖掘技术在人才引进方面的应用 3.1 人才引进。人才引进即人才的招聘与录用[4]。从人力资源管理角度来说，人才招聘与录用的程序包括人才需求预测、制订人才队伍规划（短期、长期）、招聘测试与面试、岗前培训、任职考核、正式聘用上岗[5]。人才引进是一项系统的管理工作，本文人才引进指的从网络中搜索人才的相关信息。 3.2 人才引进信息挖掘流程。本文从互联网上获取相关人才的信息，首先要从成千上万的网站中找到所需要的站点，然后选择站点中的相应页面，再批量获取html文档，这些文档可能包含许多无用的东西，需要进行相应的清洗处理。html文档是半结构化的，缺乏结构性和组织性，有必要将数据放到关系数据库中集中存储，最后对数据进行分析、挖掘。流程如下所示：internet→html→清洗、处理→数据库→挖掘、分析。 3.3 人才引进相关网页数据源搜集。对baidu进行如下设定，选择和我们研究需要匹配的人才引进相关的网页： ① 关键字选择：人才引进的英文翻译有“talent introduction”、“introduction of talent”。查询试验结果分别是（查询字词位于标题，英文）：“talent introduction”——找到相关结果约900，000个，“introduction of talent”——找到相关结果约1，860，000个，最后确定查询关键字为：talent introduction。② 搜索结果：选择包含完整字句9300000条结果，包含全部字词7360000条结果，但是查询发现后者最后的查询结果实际和我们需要的主题关联度不高，而且会干扰人才引进这一核心，对排序产生一定影响，因此，选择前者：包含完整字句。③ 语言：汉语。④ 文件格式：任何格式。⑤ 日期：任何时间。⑥ 字词位置：查询字词位于网页的标题。作用在于增加搜索结果的精准率，而且试验结果的8160000项基本能表达出总体的特征。⑦ 网域：无限制。⑧ 使用权限：无限制。对搜索到的网页手动进行下载，分别基本记录了每个网页的url、文本内容、标题，并对每个国家的前10%的网页提取了源文件，作为后面分析的数据源。 3.4 人才引进相关网页数据源清理。因为web数据是异质、分布、