基于TFIDF的专业领域词汇获取地研究.pdfVIP

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
●————————————————————————————————————一 卉 基于TFIDF的专业领域i.司fE获取的研究 刘桐菊于浩杨沐昀 (哈尔滨工业大学计算机系,哈尔滨15001) Bmail:埘,yu铆码吨撇衄。du∞ 摘要: 针对目前专业词典的建设中如何获取专业词汇这一问题,本文采用了TFIDF算法求加 权词频,按词频高低确定专业领域词汇的方法,并针对这一思路给出了在体育领域内研究的样 例,同时对这一设想作了预期评估和展望. 关键词:TFIDF;词频:前景语料;背景语料 引言 词典是乔姆斯基模型中!断1询!I≯的—部分,是我们进行自然语言处理的—块基石,因此它的建设对 自然语言处理有重大的意义。随着机器翻译的实用化进程,专业词典的建设也提E日程。为了有效的获 取专业锈喊的词汇作为专业词典的收录词条,本文题提出了基于耐求加权词频来获取专业领b啪汉 语基懒的方法,并醐奉i驹嗍撒了相应的实验证卿僦白勺=自强性。我1f五拥的是辅甸嘲啪文章 作为前景语料,首先将生语料进行加工,用分闻程序分词.然后生J护元组和多元组,求得IF值;把背 景语料分词,生成_珂目和多元组,求出IDF值然后以前景语料为基础球每个元组的自嗽闻频并排序, 默认词频高的为体育领域的专有词汇。 l算法的选择与介绍 我们很容易可以理解体育{霓域内的专业词汇应该是体育领域文章中的高频词“,所以,首先应该对 生语料进行分词,然后生成—玩组和多元组,求这些元组的频率即可。可是。这样做有—州替在的问题, 就是在各个{霓哦内都是高频词的词(如的,了,个等等)将淹没体育镢域内的词汇(实验证明结论就是 t是此消彼长 如此,参考表1)。很自然想到应该求加权词频,让f也_们按照不同的幅度增长,在相对意::c 的,从而使体育领域内的词汇频率增高。在这里我们选择了ITIDF算法l“””来求加权词频。 TFII)F算法介绍 F∞=f(T)籼 F(”—一用仰F方法求得的加权词频: R蝴——体育领域内的词频; 忖——背景文本数:(远远大于体育领域语料的文本数); r—■亥词在背景文本中出现的文本数; 车文聃兜受霸国寨黼j计期瓷啦项目培号:】001/uMl4101). 一 一 她一一一~~一一一一一 2.体育领域词汇获取的实验 一一一一一~一~一一一一 2.1语料的来源 体育网页上常用的汉语体育词汇,选用的前景语料为新浪网的体育信息,共计5,1985个文本:背 景语料也选自新浪网,小背景语料为新闻和军事{贡域,共计II,2632个文本,犬削刺为健康、汽车、 文化、科技、金融、住房、生活、娱乐、新闻和军事领域,共计42,1560个文本。 体育生语料卜一+ ———■ —’ 叫计I Ⅱrl 出 蓑 彗 暴 成 非 ———■ Z 成 j|霎 兀 词 背景生语料卜_斗 ——+ 组 斗 雾 叫计算Drr 蓁 2.3实验及数据 试验一:验证TF/IDF有效性实验 提取过程如(图1)所示,从中我们共得到9,8494个一元组,以~元组为例,列举出部分结果来证 明TFIDF算法的效果: 表1绝对词频和TF/IDF加权词频对比 次序 绝对词频高的词 加权词频高的词

文档评论(0)

youyang99 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档