- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
对象特征的抽取 评审格式: 格式2-区分正面、负面的评审 对象特征的抽取 评审格式: 格式3-自由格式 格式1中正面和负面评价的特征抽取 特征抽取基于以下的规定:每个正面和负面评价中的句子片段只包含一个特征。句子片段通过逗号、句号、分好、连字号、、and 、but分开。 例如 格式2、3中正面和负面评价的特征抽取 第一步:找到所有高频名词和名词短语,通过词性标注工具来识别。 第二步:利用意见词找到不频繁出现的特征。 第三步:观点倾向分类。 观点欺诈 观点欺诈指的是人们故意误导读者和自动观点挖掘系统的行为。 写欺诈性评审的目的主要有两个:推销某些目标对象;损害某些其他目标对象的声誉。 结构化数据抽取 Web信息抽取是从网页中抽取出目标信息。Web上的结构话数据一般是从后台数据库获取的数据记录,按照一定的模版被展现在网页上。抽取结构化的数据能够获取和整合来自多个来源(网站或者网页)的数据,以提供增值服务。 预备知识 富含数据的网页主要有两种:列表页;详情页。 列表页 每个列表页都包含有多个对象。一般从布局角度来看,可以在列表页上看到不同的数据区域(Data Region)。在每一个区域中,数据记录根据同一种模板被格式化。不同区域所采用的模板一般不同。 详情页 侧重描述一个对象。一般包括产品的所有细节,如名称、图片、价格和其他销售信息、产品描述、客户评价等。 网页格式 网页是用HTML标签写成的,其中包含纯文本、标签、指向多媒体文件及其他网页的链接。 包装器归纳的数据抽取方法 一个包装器归纳系统从一个标注好的训练样例集合中学习数据抽取规则。标注一般是手工完成,包括标记训练网页或样例中用户希望抽取的数据项。然后将学习到的规则用于从其他相同标记编码或者有相同模版的网页中抽取目标数据。 网页建模——EC树 包装器采用标注后的树形结构以便抽取规则的学习和数据的抽取。 一个网页可以看成是一个标志序列(例如文本、数字、HTML标签)。抽取是采用EC树(Embedded Catalog Tree)的结构进行。它对镶嵌在一张HTML网页中的数据进行建模。树根是包含整个网页标志序列S的文档,并且每一个孩子节点的内容都是父亲节点序列的一个子序列。 从网页中抽取节点 包装器使用网页的EC树描述和一组抽取规则从网页中抽取一个相关节点。(说明:一个抽取任务是用户指定,不是系统自发挖掘的。) 包装器识别EC树中的每一个节点,是从其父节点开始识别或者抽取,父节点包含了所有孩子的标志序列。 抽取规则包含两条规则:开始规则(The Start Rule)和结束规则(The End Rule),分别识别节点的开头和结尾。 抽取规则基于地标(Landmarks)思想。每一个地标是一个连续的标签序列,对应于一个目标项的开头和结尾。 网页的HTML编码 抽取任务——抽取饭店名 从以上的HTML文档中抽取饭店名:Good Noodles R1:SkipTo(b)//系统应该从网页的开头开始,跳过所有的标志,直到看到第一个b标签。这里b就是一个地标。 R2:SkipTo(/b)//从网页的末尾应用到网页的开头,标识饭店名的结尾。 识别整个地址列表的规则 R3:SkipTo(brbr) R4:SkipTo(/p) 识别电话区号 R5:either SkipTo(() or SkipTo(-i) R6:either SkipTo()) or SkipTo (/i) 由于电话五号格式多变,有些斜体显示,有些用括号括起来,使用“或”规则。 能生成抽取规则的包装器学习算法 基本思想:针对EC树中的一个节点生成开始规则,该节点的某个前缀标志或其通配符充当能够唯一标识该节点开头的地标;生成结束规则,则该节点的某个后缀标志或其通配符将充当地标。开始规则和结束规则生成过程基本一样,不同的是开始规则是从父节点的第一个标志开始处理,结束规则是从最后一个节点开始向第一个标志行进。 基于实例的包装器学习 基本思想:通过将目标数据项的前缀和后缀标志字符串与对应的标注好的样例进行比较,从一个新的实例或网页中识别目标数据项。一开始,用户只需要标注一个实例,它随后被用于从未标注的样例中识别目标数据项。 IDE算法 第一步:一个随机样例p被从一个未标注的训练样例集S中选出并加以标注; 第二步:由用户标注所选取的样例p中的目标数据项。系统还存储了每个标注好的数据项前的k个连续标志组成的序列(前缀字符串)以及标注好的数据项后的k歌连续标志组成的序列(后缀字符串)。所有目标数据项的前缀和后缀字符串组成一个模板。 第三步:算法开始用extract()函数从未标注的样例中抽取数据项。对每一个未标注的样例d,系统将存储下来每个目标数据项的前缀和后缀字符串与d的标志字符串进行比较,以识别相对应的数据项。 模板举例 任务
文档评论(0)