条件随机场标引模型的性能影响因素分析.pdfVIP

条件随机场标引模型的性能影响因素分析.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
维普资讯 条件随机场标引模型的性能影响因素分析 章成敏 许 鑫 章成志 ’’ 南京大学信息管理系 南京 210093 中国药科大学图书馆 南京 210009 华东师范大学信息学系 上海 200241 南京理工大学信息管理系 南京 210094 中国科学技术信息研究所 北京 100038 【摘要】利用条件随机场模型进行 自动标引研究,对文本分词性能、训练集的规模、特征的个数、模型本身的参数 设置等影响模型标引性能的因素进行实验和分析。 【关键词】自动标引 关键词提取 条件随机场 机器学习 【分类号】TP391 G252 AnalysisoftheFactorsAffectingthePerformanceofCRF——based KeywordsExtractionM odel ZhangChengmin XuXin ZhangChengzhi’ DepartmentofInformationManagement,NanjingUniversity,Nanjing210093,China LibrauofChinaPharmaceuticalUniversity,Nanjing210009,China DepartmentofInformatics,EastChinaNormalUniversity,Shanghai200241,China DepartmentofInformationManagement,NanjingUniversityofScienceTechnology,Nanjing210094,China InstituteofScientificTechnicalInformationofChina,Beijing100038,China 【Abstract】TheCRFmodelcanusethefeaturesofdocumentsmoresufficientlyandeffectively.Keywordsextraction basedon CRF isproposedandimplemented.ThefactorsaffectingtheperformanceoftheCRF—basedkeywordextraction modelareanalyzed.Thefactorsinclude:theperformanceoftextsegmentation,thescaleoftrainingcorpus,thenumberof figureandtheparameterssettingoftheCRFmode1. 【Keywords】Automaticindexing Keywordsextraction Conditionalrandomfields Machinelearning 1 引 言 目前大多文档都不具有关键同,同时手T标引费时费力且主观性较强,因此关键词 自动提取是一项值得研 究的技术。关键词 自动提取方法可 以分为4类,即:基于统计的方法 、基于语言学的方法 、基于机器学习的方 法 ’、其他方法,即上述方法的综合运用或集成一些启发式知识 。 一 般的关键词 自动提取方法,大多数不能有效利用文本中包含的多个特征,要真正实用化还有一定距离。为 了有效利用标引对象的特征,并考虑到关键词提取可以转换为序列标注的特点,本文利用条件随机场模型进行关 键词的自动提取研究。对文本分词性能、训练集的规模、特征的个数、模型本身的参数设置等影响模型标引性能 收稿 日期 :2008一Ol一31 收修改稿 日期:2008—03—06 圜 现代图书情报技术 维普资讯 总第 165期 2008年 第6期 的因素,进行实验和分析。

文档评论(0)

kuailexingkong + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档