用于聊天词汇的权重计算方法CDTF*IDF.pdfVIP

  • 10
  • 0
  • 约1.35万字
  • 约 4页
  • 2017-06-30 发布于北京
  • 举报

用于聊天词汇的权重计算方法CDTF*IDF.pdf

用于聊天词汇的权重计算方法CDTF*IDF.pdf

第24卷 第12期 计 算 机 仿 真 2007年12月 文章编号:1006—9348(2007)12—0332一o4 用于聊天词汇的权重计算方法CDTF术IDF 高鹏 r,曹先彬 (1.中国科学技术大学计算机科学技术系,安徽 合肥230027 2.安徽省计算机通讯软件重点实验室,安徽 合肥230027) 摘要:随着聊天室的广泛使用,对聊天内容监控也变成亟待解决的问题。在聊天室监控中,为衡量聊天数据中词汇对聊天内 容的描述能力,现在一般直接采用文本词汇的权重计算方法;然而,这种方法忽视了聊天数据与静态文本结构上的差异,导 致计算出的权重并不能准确反应词汇描述聊天内容的能力。针对聊天数据的固有特点,提出了一种专门针对聊天数据的词 汇权重计算方法CDTF IDF。该方法通过分别计算词汇在不同数据源中的权值并汇总、并对重点词汇提高权重等方式来计 算聊天数据的词汇权重。基于IRC聊天室内容监控的实验表明:该方法能较好地衡量聊天词汇的权重,同时基于该方法的监 控系统能够准确地识别出聊天数据中的话题。 关键词:聊天室监控;词汇权重;话题识别 中图分类号:TP3o1.6 文献标识码:A ’ A CDTF:l:IDF Algorithm for Calculating Term Weight of Chat Data GAO Peng .CAO Xian—bin (1.Department of Computer Science and Technology, University of Science and Technology of China,Hefei Anhui 230037,China; 2.Anhui Key Lab of Software in Computing and Communication,Hefei Anhui 230037。China) ABSTRACT:Chat room monitoring becomes an urgent task with its wide use.In the process of chat room monitoring,in order to scale the ability of terms describing the contents of chat data,chat room monitoring systems at present generally use the text term s weight calculating method.However,this method neglects the difference between chat data and text in structure aspect;hence the weight calculated can not response the feature of chat data accurately.The paper presents a new method to calculate the term weight for chat data named CDTF}IDF.CDTF}IDF considers the special features of chat data.It calculates each term weight in different resources,and then gets the final weight by increasing the weight of key term s and some other means. Experiments based on IRC show that this met

文档评论(0)

1亿VIP精品文档

相关文档