- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
维普资讯
条件随机场标引模型的性能影响因素分析
章成敏 许 鑫 章成志 ’’
南京大学信息管理系 南京 210093
中国药科大学图书馆 南京 210009
华东师范大学信息学系 上海 200241
南京理工大学信息管理系 南京 210094
中国科学技术信息研究所 北京 100038
【摘要】利用条件随机场模型进行 自动标引研究,对文本分词性能、训练集的规模、特征的个数、模型本身的参数
设置等影响模型标引性能的因素进行实验和分析。
【关键词】自动标引 关键词提取 条件随机场 机器学习
【分类号】TP391 G252
AnalysisoftheFactorsAffectingthePerformanceofCRF——based
KeywordsExtractionM odel
ZhangChengmin XuXin ZhangChengzhi’
DepartmentofInformationManagement,NanjingUniversity,Nanjing210093,China
LibrauofChinaPharmaceuticalUniversity,Nanjing210009,China
DepartmentofInformatics,EastChinaNormalUniversity,Shanghai200241,China
DepartmentofInformationManagement,NanjingUniversityofScienceTechnology,Nanjing210094,China
InstituteofScientificTechnicalInformationofChina,Beijing100038,China
【Abstract】TheCRFmodelcanusethefeaturesofdocumentsmoresufficientlyandeffectively.Keywordsextraction
basedon CRF isproposedandimplemented.ThefactorsaffectingtheperformanceoftheCRF—basedkeywordextraction
modelareanalyzed.Thefactorsinclude:theperformanceoftextsegmentation,thescaleoftrainingcorpus,thenumberof
figureandtheparameterssettingoftheCRFmode1.
【Keywords】Automaticindexing Keywordsextraction Conditionalrandomfields Machinelearning
1 引 言
目前大多文档都不具有关键同,同时手T标引费时费力且主观性较强,因此关键词 自动提取是一项值得研
究的技术。关键词 自动提取方法可 以分为4类,即:基于统计的方法 、基于语言学的方法 、基于机器学习的方
法 ’、其他方法,即上述方法的综合运用或集成一些启发式知识 。
一 般的关键词 自动提取方法,大多数不能有效利用文本中包含的多个特征,要真正实用化还有一定距离。为
了有效利用标引对象的特征,并考虑到关键词提取可以转换为序列标注的特点,本文利用条件随机场模型进行关
键词的自动提取研究。对文本分词性能、训练集的规模、特征的个数、模型本身的参数设置等影响模型标引性能
收稿 日期 :2008一Ol一31
收修改稿 日期:2008—03—06
圜 现代图书情报技术
维普资讯
总第 165期 2008年 第6期
的因素,进行实验和分析。
文档评论(0)