博士学位论文-大连理工大学信息检索研究室.pdfVIP

博士学位论文-大连理工大学信息检索研究室.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
博士学位论文-大连理工大学信息检索研究室

博 士 学 位 论 文 特征耦合泛化及其在文本挖掘中的应用 Feature Coupling Generalization and Its Application in Text Mining 作 者 姓 名: 李彦鹏 学科、 专业: 计算机应用技术 学 号: 指 导 教 师: 林鸿飞 完 成 日 期: 2011-5-30 大连理工大学 Dalian University of Technology 大连理工大学学位论文独创性声明 作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究 工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外, 本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请 学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献 均已在论文中做了明确的说明并表示了谢意。 若有不实之处,本人愿意承担相关法律责任。 学位论文题目: 特征耦合泛化及其在文本挖掘中的应用 作 者 签 名 : 日期: 年 月 日 大连理工大学博士学位论文 摘 要 文本挖掘 (Text Mining )技术是利用计算机程序自动读取和理解自然语言文本,并 从中发现有价值的信息,从而提高人们的工作效率。随着信息技术的飞速发展和互联网 时代的来临,该技术拥有了很大的实际应用价值和广阔的应用前景。在处理文本挖掘问 题的方法中,基于机器学习 (Machine Learning )的方法得到了广泛的应用,在很多实 验中取得了较好的效果。特征表示(Feature Representation )是机器学习方法中至关重要 的一步,很大程度决定了系统效果的高低,然而在传统的基于局部特征的监督学习 (Supervised Learning )策略中,由于已标注训练集中的样本数量有限,存在着数据稀 疏问题,即产生了很多低频特征,由于缺少信息量这些特征在机器学习过程中往往得不 到好的利用,这种影响在文本挖掘和自然语言处理任务中更为严重。针对此问题,本文 研究如何利用未标注数据将这些被忽略的特征转化成更富有信息量的新特征,从而可以 激发出这些特征潜在的作用,达到提高系统的性能的目的。本文提出了一种新的特征构 建方法—特征耦合泛化(Feature Coupling Generalization, FCG ),该方法利用原始特征 在海量未标注数据中的共现信息以及特征间的概念层次关系生成新的特征。相比于原始 特征,新特征具有更丰富的信息量和更泛化的表示。本文讨论了该方法中各种因素对系 统性能的影响,并通过实验验证该方法在文本挖掘任务中的效果。 本文将FCG 方法应用于三个经典的文本挖掘任务:命名实体识别 (Named Entity Recognition )、关系抽取(Relation Extraction )、文本分类(Text Classification ),对每 个任务进行了详细的研究,从不同角度比较了经典特征与FCG 方法的效果、检验了FCG 方法所带来的贡献,并通过观测低频特征在不同方法中的效果分析了FCG 方法有效的 原因以及对数据稀疏问题的解决情况。实验结果显示,FCG 可以将传统方法中被忽略的 低频特征转化为有效的特征,在传统方法的基础上有显著的提高,而且FCG 方法可以 很容易的应用于海量的未标注数据,这是相比于其他半监督学习方法 (Semi-supervised Learning )的优势。更有趣的现象是,仅仅使用FCG 方法所生成的新特征的效果普遍好 于经典的特征,这说明该方法有可能在普遍的机器学习问题中取代经典特征表示方法, 为特征生成的研究开辟了新的思

文档评论(0)

zhuwo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档