Web挖掘：我们关心什么如何能帮助社会科学家们做研究？.ppt

下载文档

1
0
约5.78千字
约 31页
2015-08-21 发布于甘肃
举报
版权申诉
保障服务

Web挖掘：我们关心什么如何能帮助社会科学家们做研究？.ppt

1、本文档共31页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Web挖掘：我们关心什么-- 如何能帮助社会科学家们做研究？李晓明，北京大学网络实验室 2007年7月21日,SEWM’06 在2004年的SEWM会议上，我报告了关于SEWM的进一步思考--不要低估我们现在能做的事情其中的观点人类所有的活动都正在被数字化、网络化计算和存储成本的下降使得一个小规模研究群体也可做出规模较大、意义较深远的事情来以北京大学网络实验室建设的“中国网络信息博物馆”为例，展现了利用其中的数据和SEWM技术得到多方面有社会（科学）意义成果的可能 “Web InfoMall” 我们将讨论从事计算机专业的为什么应该关心社会科学家的事情？社会科学家们关心五要素：时间、地点、人物、事件、状态（when, where, who, what, how）网站行政属地的自动判别问题人物信息的发现问题网页出生与更新的时间估计问题 WebDigest：一个既有意义也有可能的目标？ “学科”的划分随“年龄”的变化幼儿园，小学，初中：没有学科划分，所有人都学一样的东西高中：文科，理科大学：人文，社科，理科，工科当然还有农科，医科，军事科学等等研究生：“按二级学科招生” 博士生：“各自钻到一个更窄的领域中” 博士之后的研究：跨学科，交叉学科信息技术，自然科学，社会科学自然科学研究的三种基本方法：理论研究，实验研究，计算机模拟普适性，应用性，成本社会科学研究的方法：理论研究，实证研究，？计算机模拟？理论研究：马克思主义，凯恩斯主义，等实证研究：基于系统的数据收集与分析，形成概念，得出结论，追求定量的刻画定性的认识人们现在开始谈“经济运行模拟”，“政策执行模拟” 信息技术对社会科学研究的帮助 SPSS (Software Package for Social Science) 搜索引擎技术（应用举例）法律意识与经济意识的对比电子政务实施情况饮用水安全问题重大新闻事件的追踪基本假设：网络信息反映社会运动状态从网络信息研究社会的基本假设社会科学家关心的五个基本要素时间事件发生的时间，消息发布的时间地点事件发生的地点，消息发布者的属地人物（对象）不仅是人物，还包括机构等对象事件预定事件，突发事件状态好坏，褒贬网站行政属地的判别问题区别：行政属地 ≠ 服务器托管所在地定义：网页，网站，机构 page: 由一个url所代表的内容 host: 一个空目录路径url所代表的所有网页的集合 organization: 在注册机构获得的一个域名属下所有网站的集合，例如，*. 目标：给定一个网站集合，确定其每一个网站的行政属地技术路线通过对网站内容的分析获得其行政属地的判据，综合各种判据，形成判断独立考察每一个网站中出现的地名、电话号码，邮编等提示信息根据“多数指向原则”推断网站行政属地 “多数指向原则” 链接关系分析：从整个Web看每一个网站，通过网站之间的链接关系推断某些网站的行政属地通过迭代，逐步形成对未知网站的认识网站的互联（链接）趋向分析基于CWT100g，一个包含500多万网页的数据集以省为单位将1.7万个网站分组，考察网页之间的1.27亿链接，发现：当我们讲“互联网完全打破了地域观念”的时候需要小心网站的69%出向链接是指向本网站网页的在那些指向非本网站的出向链接中，有81%是指向本省网站的测试集 CWT100G 从China-Web数据中抽取的100GB网页约17000个站点网页数量在站点中的分布差别很大 Edu-Web 2006年1月份搜集的教育网内的网页，60GB 约3400个站点网页数量分布比较平衡运行结果（网站内容分析）程序可以给出判断的（置信度较高的）：64% 在给出判断的结果中，人工抽查正确率：90% 于是总的判断正确率，57% 不算高，但已经不错人物信息的发现问题问题一：给定一个“人物”集合，分别找到关于他们所有的信息（网页）容易：上搜索引擎，尽管不一定完整，但差不多不容易：如何区别重名的人物？问题二：确定网上人物的“top N” 不容易：连哪些人都不知道呀！问题三：网上一共提到了哪些人？不容易：不是大海捞针，也是沙里淘金问题四：网上人物构成的社会网络？容易与否：取决于这里“社会网络”的定义确定网上人物的“top N” 不假思索的方法得到一个海量网页集合（自己从网上抓取，或者获得某些流行公开的测试网页集，例如北大的CWT200g，或者2006年初得到的8亿网页）利用自然语言处理的经典算法，扫描每一篇网页内容，将人名提取出来做好统计，声明得到了在给定集合上的“top N” 问题（毛病） “给定集合”与“网上”差的很远经典算法的速度大约是5秒钟处理一篇网页，（于是处理CWT20

您可能关注的文档

文档评论（0）

snj01 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

Web挖掘：我们关心什么如何能帮助社会科学家们做研究？.ppt