基于web的数据挖掘方法综述-北京大学网络与信息系统研究所.doc

下载文档 降价啦

0
0
约9.97万字
约 129页
2017-11-24 发布于天津
举报
版权申诉
保障服务

基于web的数据挖掘方法综述-北京大学网络与信息系统研究所.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于web的数据挖掘方法综述-北京大学网络与信息系统研究所

On the Named Entity based Relation Extraction and Event Supported Web Page Representation Dissertation Submitted to Peking University in partial fulfillment of the requirement for the degree of Doctor of Philosophy in Science Di Nan (Computer Science and Technology) Dissertation Supervisor : Professor Xiaoming Li MAY, 2010 版权声明任何收存和保管本论文各种版本的单位和个人，未经本论文作者同意，不得将本论文转借他人并复制、抄录、拍照、或以任何方式传播。否则，引起有碍作者著作权益之问题，将可能承担法律责任。摘要：命名实体是现实社会中一个具体的事物，而在Web的网页文本中有大量的有关命名实体的内容。这些内容有是描述实体的静态属性信息，例如实体的属性，实体之间的关系。描述实体静态信息的文本一般为较短包含实体的单个句子，而且其信息内容不会随时间产生明显变化。而另一些包含实体的文本内容描述的是实体的动态信息，主要是描述实体参与到新闻事件中，并且在新闻事件中的行为。包含实体信息的内容较之前一种内容要更长，一般包含若干句子构成一段内容相对统一的文本子段，而其内容信息也会随时间变化而发生明显变化。本文希望通过对网页文本中包含实体的上下文进行分析挖掘基本方法，分别解决利用实体共现文本发现实体间关系的问题和以实体为核心的事件发现的问题。本文在这两个研究问题上的主要贡献包括：? 实体关系在网页文本中的一种重要体现形式，是处于特定关系的实体对共同出现在一段描述这种关系的文本中。这里我们定义这段描述特定实体关系的文本为web实体关系实例。能否提取足够数量与较高质量的Web实体关系实例是能否有效地发现实体间关系的重要前提工作。已有的使用命名实体上下文来发现命名实体之间关系的工作，一般直接使用命名实体对的句子作为表示关系对的特征。这种做法存在两个明显的问题在海量网页文本中包含命名实体共现的句子除了描述实体间关系，还可能是描述两个实体同时参与到一个事件这样的动态特征。由于描述实体关系的句子长度传统文本分类语料的长度要小很多，即使描述相同类型实体关系的文本也可能在词汇特征上有很大差异。本文了直接使用网页文本中实体上下文作为实体关系对特征对实体关系发现带来的负面影响提出了描述实体关系的实体上下文的筛选与扩充这两个研究问题。本文出了一种有效的方法来解决两个问题。该方法首先利用对Wikipedia和百度百科中描述实体关系的文本进行分析挖掘，学习得到描述实体关系的语言，利用贝叶斯句子进行筛选；其次该方法利用搜索引擎作为媒介，通过将描述实体关系的实体共现文本作为查询投送到搜索引擎，得到在互联网中其他描述同一实体关系对的文本作为描述该实体对的文本的扩充? （二）基于图扩散的实体关系标注方法上述工作我们将每个实体关系对表示为该实体对在网页中的。为了确定每个实体关系对的关系类型，主要是一定数量的描述各类实体关系文本作为训练集，通过传统的方法例如kNN，SVM等将待标注实体对的共现文本到特定的实体关系类别，并依此来标注实体对的关系类型。我们要处理的网页文本的特点是数据量巨大，语言规范性不强，在网页文本数据上标注一个足够数量与质量的描述各类实体关系的训练集是一的工作。因此我们提出了一种利用图扩散的实体关系标注方法，所需的人工干预只是对每种关系类别标注少数几个实体对。方法以共现的实体对作为顶点，以实体对上下文之间的相似度来建立边，构建一个无向加权图边上的权重将少数几个已标注类别顶点的类别信息，通过半监督的迭代扩散法将类别信息在整个图中进行传播，在传播到达平衡的时候获得图中顶点即实体对的关系类型信息。通过该方法要好于的有监督学习的方法，结果也表明这种方法所得的关系结果并不依赖于前期标注的实体对。基于多维网页文档特征的新闻网页表示模型事件是一个可观察、非平凡的现象，一个事件包含事件时间、事件经过和参与事件的实体等重要信息事件在网页中的反映是新闻网页新闻网页较之传统的新闻媒体（报纸等）只包含正文特征具有更多特征信息，例如网页的URL、网页的时间、网页出现的命名实体等。本文的实验显示这些特征与其所在网页叙述的新闻事件都有很强的相关性，同时这些特征也可以帮助判断两篇新闻网页是否描述同一新闻事件。已经使用了上述中的一些特征信息，例如网页的时间、网页正文中的命名实体等。但这些工作只是利用这些特征为网页