- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Bootstrapping的领域词汇自动获取.PDF
基于Bootstrapping的领域词汇自动获取’
陈文亮朱靖波姚天顺 张宇新
自然语言处理实验室,网络学院
东北大学信息学院计算机软件与理论研究所 辽宁沈阳 110004
maiLche_n塑回majLneue.du_.cnsiteh细左wM. qjabo.cm/
摘 要:领域知识获取是文本处理技术中的一个瓶颈问题,本文提出一种领域词汇的自动获取方法。该方法
采用Bootstrapping的机器学习技术,从大规模无标注真实语料中,自动获取领域词汇知识.该方法独立于
具体领域,移植性好.文中给出了该方法的详细描述.最后,根据实脸结果,对该方法的性能进行评估.实
验结果显示,从人民日报语料中学习效果比专业领域语料好.
关键词:Bootstrapping,机器学习,主题识别
AutomaticLearningFieldWordsbyBootstrapping
ChenWenliangZhuJingboYaoTianshun
NaturalLanguageProcessingLab
InstituteofComputerSoftwareTheory,NortheasternUniversity,Shenyang110004
Abstract:Thispaperpresentsanautomaticlearningalgorithmthatacquiresfieldwords.Themethodisbasedon
bootsrtapping.Theinputtothealgorithmisahandfidofseedwordsandunannotatedtrainingtexts.Themethodis
independentoffields,anditcanbeappliedonmanyfieldsforfieldwordslemming.hithispaperwedescnptFWB
modelindetail.Accordingtotheexperiment,weevaluatetheperformanceofthemodel.Theresultspresentthatthey
aregeneratedfromcc印usofPeoplesDailybetterthancorpusofspecialfields.
Keywords:Bootsrtapping,MachineLearning,TopicIdentification
1.前言
主题分析是文本内容分析的一个基础关键技术。朱靖波等to曾应用领域知识于文本内容
主题分析中,取得了很好的效果。该主题分析方法的性能在很大程度上依赖于一个庞大的领
域知识库。1996年至今,我们己经构造了包含30多万项次的领域知识库,主要依靠人工构
建,代价十分巨大而且进展缓慢。领域知识库的完善能够大大促进主题分析的效果,但该知
识库面临如何扩大规模与增加多语种支持的问题。本文研究的出发点是利用机器学习的方法
来试图解决这些问题。
知识获取一直是自然语言处理的重要研究课题。目蒯民多著名的知识库主要依靠手工构
建,如WordNet[2l,HowNet31等。主内题的很多分析是如何文本内取知识容个的题进一大个
基础4[1516[1。关中Bootstrappinglllsl键是一技术。朱应用于知识内取的靖波分等技术,Ellen
本文揖到国家自然科学荃金和橄软联合资助项目资助
‘幻 ,
Riloilt9E)来构造信息抽取的知识库,DavidYarowskvl0用来进行语义消歧,等等。
本文提出一种自动获取领域词汇的方法。该方法采用Bootstrapping的机器学习技术,从
大规模无标注真实语料中,自动获取领域词汇知识。该方法独立于具体领域,移植性好。下
文给出该方法的形式化描述。最后,根据实验结果,对该方法的性能进行评估。
Z基本定义
在本文中,有如下重要概念:
a)领域词k是指那些经常出现在特定领域中,且能够表现该领域特征的词,如:金融领域
中的证券、股票、金融、人民币、兑付期等词就具备这种特点,是金融领域词。领域词
集F是领域词的集合,即k=-(K.
您可能关注的文档
最近下载
- 高考作文模拟写作直面青春迷茫导写(附写作指导及范文点评) 2021范文.doc VIP
- 餐厅6S制作流程.pptx
- 《现代酒店服务英语》Chapter2 客房预订部服务.ppt VIP
- 北京现代领动_汽车保养手册用户服务指南车辆维护保修说明书电子版.pdf VIP
- The Beginning-钢琴谱 原调简谱 高清正版完整版双手简谱.pdf
- 高考作文模拟写作:贫困应该带给我们的 导写(附:写作指导及范文点评).docx VIP
- 光伏发电+储能项目建议书写作模板.doc VIP
- 交通安全风险评估.pdf VIP
- 隧道注浆施工记录表.doc VIP
- 《现代酒店服务英语》Chapter1 前台服务.ppt VIP
文档评论(0)