- 2
- 0
- 约4.34万字
- 约 76页
- 2019-03-10 发布于广西
- 举报
基于CRFs的同领域和跨下品牌词抽取
PAGE
第 PAGE \* Arabic \* MERGEFORMAT 13 页第 PAGE \* Arabic \* MERGEFORMAT 13 页第 PAGE \* Arabic \* MERGEFORMAT 13 页第 PAGE \* Arabic \* MERGEFORMAT 13 页
密级: 保密期限:
硕士研究生学位论文
题目:基于CRFs的同领域和跨领域下的品牌词抽取
学 号: 095800
姓 名: 汪文豪
专 业:计算机科学与技术
导 师: 林秀琴
学 院: 计算机学院
2012年 1 月 3 日
独创性(或创新性)声明
本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。
申请学位论文与资料若有不实之处,本人承担一切相关责任。
本人签名: 日期:
关于论文使用授权的说明
学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。(保密的学位论文在解密后遵守此规定)
本人签名: 日期:
导师签名: 日期:
中文摘要
伴随着互联网的迅猛发展,网络中的数据量也成指数增长。这些网络数据很多都是以文本形式出现的。文本作为因特网中重要的信息载体,一直是相关领域的热门研究对象。在商业中,品牌扮演着举足轻重的角色。我们对品牌的研究,也日益地深入。利用网络文本,我们能够对品牌进行系统有效的分析。其中的关键步骤就是从文本中抽取品牌词。
在文本中抽取品牌词属于信息抽取的范畴。目前,大部分信息抽取的应用都利用机器学习的方法。本论文所研究的同领域和跨领域下的品牌词抽取便是基于机器学习完成的。具体地说,我们通过构建CRFs模型,利用转移学习相关算法,实现了能够在同领域和跨领域下进行品牌词抽取的系统。
我们首先对CRFs和转移学习这两种相关技术进行了全面的介绍。说明两者的概念和特定任务下的应用。之后,论文详细说明我们系统中的CRFs模块和转移学习模块。其中涵盖有特征选取,标签设置,中间训练集构造。然后,为了进行实验,我们建造出适用于品牌词抽取的语料库,和用于对比我们系统性能的基准模型。论文中对语料库和基准模型的细节也做了充分的阐述。最后,我们分别在同领域和跨领域下进行了大量的实验,并分析实验结果。
总而言之,我们基于CRFs的系统,结合转移学习相关算法,可以有效地完成在同领域和跨领域下的品牌词抽取任务。本论文还探讨了CRFs和转移学习中的若干关键点。
关键词:CRFs,转移学习,语料库,信息抽取
Abstract
With the rapid development of Internet, web data is exponentially growing. Most of the data is in the form of text. As an important information carrier, text is a popular subject in related research areas. Brand plays a significant role in business. And we have deeply dived into this issue. With the help of web text, we can systematically analyze a brand. One key step is to extract brand term from text.
Brand term extraction is a kind of task pertaining to information extraction. At present, m
原创力文档

文档评论(0)