- 1、本文档共31页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Web挖掘:我们关心什么 如何能帮助社会科学家们做研究?.ppt
Web挖掘:我们关心什么-- 如何能帮助社会科学家们做研究? 李晓明,北京大学网络实验室 2007年7月21日,SEWM’06 在2004年的SEWM会议上,我报告了 关于SEWM的进一步思考--不要低估我们现在能做的事情 其中的观点 人类所有的活动都正在被数字化、网络化 计算和存储成本的下降使得一个小规模研究群体也可做出规模较大、意义较深远的事情来 以北京大学网络实验室建设的“中国网络信息博物馆”为例,展现了利用其中的数据和SEWM技术得到多方面有社会(科学)意义成果的可能 “Web InfoMall” 我们将讨论 从事计算机专业的为什么应该关心社会科学家的事情? 社会科学家们关心五要素:时间、地点、人物、事件、状态(when, where, who, what, how) 网站行政属地的自动判别问题 人物信息的发现问题 网页出生与更新的时间估计问题 WebDigest:一个既有意义也有可能的目标? “学科”的划分随“年龄”的变化 幼儿园,小学,初中:没有学科划分,所有人都学一样的东西 高中:文科,理科 大学:人文,社科,理科,工科 当然还有农科,医科,军事科学等等 研究生:“按二级学科招生” 博士生:“各自钻到一个更窄的领域中” 博士之后的研究:跨学科,交叉学科 信息技术,自然科学,社会科学 自然科学研究的三种基本方法:理论研究,实验研究,计算机模拟 普适性,应用性,成本 社会科学研究的方法:理论研究,实证研究,?计算机模拟? 理论研究:马克思主义,凯恩斯主义,等 实证研究:基于系统的数据收集与分析,形成概念,得出结论,追求定量的刻画定性的认识 人们现在开始谈“经济运行模拟”,“政策执行模拟” 信息技术对社会科学研究的帮助 SPSS (Software Package for Social Science) 搜索引擎技术(应用举例) 法律意识与经济意识的对比 电子政务实施情况 饮用水安全问题 重大新闻事件的追踪 基本假设:网络信息反映社会运动状态 从网络信息研究社会的基本假设 社会科学家关心的五个基本要素 时间 事件发生的时间,消息发布的时间 地点 事件发生的地点,消息发布者的属地 人物(对象) 不仅是人物,还包括机构等对象 事件 预定事件,突发事件 状态 好坏,褒贬 网站行政属地的判别问题 区别:行政属地 ≠ 服务器托管所在地 定义:网页,网站,机构 page: 由一个url所代表的内容 host: 一个空目录路径url所代表的所有网页的集合 organization: 在注册机构获得的一个域名属下所有网站的集合,例如,*. 目标:给定一个网站集合,确定其每一个网站的行政属地 技术路线 通过对网站内容的分析获得其行政属地的判据,综合各种判据,形成判断 独立考察每一个网站中出现的地名、电话号码,邮编等提示信息 根据“多数指向原则”推断网站行政属地 “多数指向原则” 链接关系分析:从整个Web看每一个网站,通过网站之间的链接关系推断某些网站的行政属地 通过迭代,逐步形成对未知网站的认识 网站的互联(链接)趋向分析 基于CWT100g,一个包含500多万网页的数据集 以省为单位将1.7万个网站分组,考察网页之间的1.27亿链接,发现:当我们讲“互联网完全打破了地域观念”的时候需要小心 网站的69%出向链接是指向本网站网页的 在那些指向非本网站的出向链接中,有81%是指向本省网站的 测试集 CWT100G 从China-Web数据中抽取的100GB网页 约17000个站点 网页数量在站点中的分布差别很大 Edu-Web 2006年1月份搜集的教育网内的网页,60GB 约3400个站点 网页数量分布比较平衡 运行结果(网站内容分析) 程序可以给出判断的(置信度较高的):64% 在给出判断的结果中,人工抽查正确率:90% 于是总的判断正确率,57% 不算高,但已经不错 人物信息的发现问题 问题一:给定一个“人物”集合,分别找到关于他们所有的信息(网页) 容易:上搜索引擎,尽管不一定完整,但差不多 不容易:如何区别重名的人物? 问题二:确定网上人物的“top N” 不容易:连哪些人都不知道呀! 问题三:网上一共提到了哪些人? 不容易:不是大海捞针,也是沙里淘金 问题四:网上人物构成的社会网络? 容易与否:取决于这里“社会网络”的定义 确定网上人物的“top N” 不假思索的方法 得到一个海量网页集合(自己从网上抓取,或者获得某些流行公开的测试网页集,例如北大的CWT200g,或者2006年初得到的8亿网页) 利用自然语言处理的经典算法,扫描每一篇网页内容,将人名提取出来 做好统计,声明得到了在给定集合上的“top N” 问题(毛病) “给定集合”与“网上”差的很远 经典算法的速度大约是5秒钟处理一篇网页,(于是处理CWT20
文档评论(0)