领域词义关联实验数据获取一些方法.docVIP

领域词义关联实验数据获取一些方法.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
领域词义关联实验数据获取一些方法

领域词义关联实验数据获取一些方法   摘要:领域关联处理就是处理网络信息中各领域中的词汇关联,该文将应用到维基百科上的分类来获取特征词,用这些特征词从维基百科、百度搜索和新浪微博中获得网络信息。这里的网络信息内容包含有文字、图片、声音、视频等,因此在获取信息时,需要对网页内容进行预处理,去除大量的无用信息,包括图片、声音、视频等。   关键词:特征词;语料;领域   中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2015)19-0007-04   在处理领域词义关联过程中,要获取领域的特征词库,并以其做了维基百科的词条进行爬取语料;特征还将做了百度搜索和新浪微博的关键字进行相关数据的获取。由于网络资源极其丰富,做全网测试难度较大,这里从维基百科、百度搜索和新浪微博上获取相关领域语料,涉及对不同形式的网站进行获取语料,这里就需要多模式爬虫,如今互联网上的语料数据基本都是通过“网络机器人”来实现的,本文的语料从通过三种方式自动提取语料的程序:   1维基百科信息的爬取   图1中可以看出维基百科词条的一类形式,可依据领域特征词对特定词条进行爬取,对词条内相关词条的属性形成内链接进行第二层爬取,对网页去除噪音等处理,通过爬取得到领域文本集合。由于维基百科语料中存在汉语的繁体字,因此有必要做繁体向简体转换操作。   这里“词条”都是维基百科的基本单元,“词条”由一篇文章进行解释,可能包含有图片,有些复杂的词条页面图可能还包含结构化、模板化的解释,图1是维基百科中有代表性的词条,其词为“护士”,其词为同义词为“护理人员”,词条里有对词汇解释的内链接,可以根据自己的兴趣跳转到属性解释页面;有涉及同义词的重定向,重定向就是含义相同而表述不同的词条用相同的页面来解释;而这里歧义比较大的例如在解释的时候,涉及护士工作或学习地方有“学校”,“学校”作为内链接所得到的语料内容虽然是护士工作或学习的地点,但内容应该属于教育领域;词条页面里列举图片一般是起到典型的解释作用,比如“南丁格尔”。   图2是对维基百科内链接的一个图示。   由于领域语料的丰富,需要从领域中找出领域特征词,这个数据量是少的,找出特征词的URL队列,对由Java开发的Ti-ka1.4的开源项目进行扩展来实现模块功能。本文用它来从网上抓取想要的资源,它具有良好的可扩展性,对其实现的功能进行丰富,可以实现自动爬取。首先要在开始爬取时提供特征词队列的维基的URL给种子文件,获得了初始的URL后,在爬取维基词条过程中,不断从当前词条中获取词条属性词的URL种子文件放人URL,直到满足功能模块提供参数时停止。注意在新增加的URL中,对队列原有的URL种子列表进行匹配,如果在原来队列中存在,则不进行添加,否则添加。   这里对深度优先爬虫进行修改,因对维基百科中进行爬取,往往会对词条内一层内链接进行再爬取,因其一般会对词条有解释作用,有助于深度学习算法对语料集中领域词义关联进行计算,这里词条的内链接URL会被提取,需要对链接地址进进行查复,就在爬取的队列中是否存在,如果存在则抛出,否则把链接地址追加爬取队列的底部等待爬取,也就达到了去重目的。歧义的词条页面语料出现毕竟其数据很少,所以在大量的领域语料中一般其词频的阈值不会构成干忧。   这里爬虫获取语料属于预定领域的可以被称为正领域,否则称为负领域,根据上述方法,如果用户提供的特征词越丰富爬全率越高;用户提供的特征词越准确则爬准率越高。在这种情况下,爬准率和爬全率显得更为重要,分别测试了领域语料的准确性和完整性,这里通过领域区分的混合矩阵可以得出这两个特性的评估标准,高的爬全率一般是牺牲爬准率为代价的,就是爬取语料越多,语料里跨领域的信息就越多,因此语料数量适中就好。   2百度搜索信息的爬取   因为维基百科具有两个优势:没有爬虫陷阱和没有拒绝服务攻击。相比之下百度百科API设置了频繁访问次数和时间间隔,因此适合广度搜索,并设置爬取时间间隔。   2.1百度搜索信息获取的方法   为了获取各大门户网站上关于某个领域的新闻情况时可以通过百度搜索,由于本文所做的是一段时间内的研究,因此这里对领域内每条特征词进行两百条的搜索并进行爬取,经兴趣小组人工检测,这个数量相当于一个月的新闻总数,除非在此领域有重特大事件发生。百度百科没有提供API接口并且设置了频繁访问次数和时间间隔,这大大增加了获取语料的难度。   图5中可以看出,在百度搜过中,每个搜索词对应各类型站点,网页的编码形式也不尽相同,因此对每一个网页都需要做出预处理。   这里不同于维基百科,因为每个网页可能属性不同的页面,课题的需求就是对网页的正文部分进行爬取,但这里存在的问题就是,网页i(1《i≤n)与网页i(1≤j≤n)可能在

文档评论(0)

3471161553 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档