绘制姓氏地理分布图.PDFVIP

  • 109
  • 0
  • 约1.14万字
  • 约 15页
  • 2018-12-02 发布于天津
  • 举报
绘制姓氏地理分布图

绘制姓氏地理分布图 ——基于德国在线电话号码薄信息采集 小组成员:徐晟杰、李海洋、孙畅 指导老师:王文武 单 位:曲阜师范大学 统计学院 摘要 尽管在过去十年劳动力的流动性有所增长,但那些紧密关联于特定区域环境 的姓氏继续保持了它们在地理上的根据地,我们通过采集关于德国人姓氏的地理 分布情况的数据,将姓氏和地理信息在R 软件中实现视觉化。 关键词:R软件 可视化 正则表达式 xpath 第一章、研究目标 1.1 研究目标 本案例研究目标是采集关于德国人姓氏的地理分布情况数据,在过去十年劳 动力的流动性有所增长,但那些紧密关联于特定区域环境的姓氏继续保持了它们 在地理上的根据地,我们通过采集关于德国人姓氏的地理分布情况的数据,将姓 氏和地理信息在R软件中实现可视化。 1.2 难点问题 案例存在难点,我们要解决如下问题: (a)不完整和杂乱的数据 (b)合成一体的数据分散在HTML 树中 (c)受限制的 “每页N条数据”功能 (d)没有文档的URL参数 第二章、数据采集策略 2.1 采集策略 我们采取利用电话号码薄来获取关于姓名和住址的信息,电话号码薄每年更 新,地理识别符 (例如,街道和邮政编码)通常足够准确,能把居民的位置确定 在半径小于20km 的圆形区域,是一种较可靠的信息来源。 为了达到绘制姓氏地理分布图的目标,我们采用如下策略: (1) 找到一个提供了我们所需信息的在线电话号码薄 (2) 熟悉其网页结构并选择提取程序 (3) 应用该提取程序:检索数据、提取信息、清理数据,并在编写代码过程中 记录没有预见到的问题 (4) 对数据进行视觉化和分析 我们采用通信供应商的网站www.dasoertliche.de 作为我们主要数据源。 2.2 数据检索 R 首先,我们要在 软件中安装并加载一批研究所需要的组件,包括常用的 Rcul XML stringr 、 和 ,另外我们还加载了额外的绘图组件,它们为绘制地理分 maptools rgdal maps TeachingDemos 布图所必需的函数: 、 、 、 #安装程序包 install.packages(stringr) install.packages(RCurl) install.packages(XML) install.packages(maptools) install.packages(maps) install.packages(TeachingDemos) #加载程序包 library(stringr) library(RCurl) library(XML) library(maptools) library(rgdal) library(maps) library(TeachingDemos) 2.3 信息提取 我们选取的是一家德国的在线电话号码簿供应商,网址是 www.dasoertliche.de,在其中我们可以根据姓氏查到个人的电话和邮编。因为需要 一个样本,我们选取了一个比较有意思的姓氏“Feuerstein”作为样本对象。首 先我们在搜索框中输入“Feuerstein”,出来的结果是在德国全国含有“Feuerstein” 的全部样本,包括个人姓氏和公司名称,我们只需要个人姓氏作为样本,所以我 们选择了只看个人姓氏这个选项,在这个页面中我们可以发现,个人姓氏一共 27 页,并且每一页20个。我们所要做的就是把这27个页面进行屏幕抓取并保 存到文件夹中作为离线文件,这样做的好处是我们接下来抓取数据的操作可以直 接在离线文档中进行,不用再打扰服务器了。我们首先把第一页用getURL()这 个函数把此网页抓取下来,再把它保存到我们创建的“phonebook_feuerstein”文 件夹中。 url-https://www.dasoertliche.de/?wntHit 699atfilter 1kw Feuersteinform_name search _natcontext 11page 78action 56zvo_ok 0radius 5orderby namettforderby rel

文档评论(0)

1亿VIP精品文档

相关文档