我的备考于中华文本挖掘.pdfVIP

  • 2
  • 0
  • 约1.2万字
  • 约 10页
  • 2021-11-12 发布于四川
  • 举报
六 ——文本挖掘 考点一:分类 文本的表示及其特征项的选取是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出 的特征词进行量化来表示文本信息。将它们从一个无结构的原始文本转化为结构化的计算机 可以识别处理的信息,即对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本。 使计算机能够通过对这种模型的计算和操作来实现对文本的识别。由于文本是非结构化的数 据,要想从大量的文本中挖掘有用的信息就必须首先将文本转化为可处理的结构化形式。目 前人们通常采用向量空间模型来描述文本向量. 但是如果直接用分词算法和词频统计方法得到的特征项来表示文本向量中的各个维

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档