基于向量空间模型de中文网页主题特征项抽取.pdfVIP

  • 11
  • 0
  • 约 7页
  • 2017-09-03 发布于湖北
  • 举报

基于向量空间模型de中文网页主题特征项抽取.pdf

第32卷 第 1期 吉 林 大学 学报 (信 息科 学 版) Vol_32 No.1 2014年 1月 JournalofJilinUniversity(InformationScienceEdition) Jan.2014 文章编号:1671—5896(2014)01-0088-07 基于向量空间模型的中文网页主题特征项抽取 代 宽 ,赵 辉 ,韩 冬 ,宋天勇 (长春工业大学a.计算机科学与工程学院;b.软件职业技术学院,长春 130012) 摘要:为解决中文网页主题特征项抽取不精确的问题 ,对中文网页的主题特征项抽取算法进行了研究。网页的 主题特征项抽取是主题网络爬虫进行网页相关度计算的基础 ,结合主题网页的二分类情况对 目前常用的文本 特征项加权方法TF-IDF(TermFrequency—InverseDocumentFrequency)进行了改进,在此基础上结合网页的半结 构化特征 ,综合考虑特征项的位置信息及其包含的信息量 ,提出了一种线性特征项加权计算方法。经实验验 证 ,该方法可

文档评论(0)

1亿VIP精品文档

相关文档