搜索引擎关键的技术文本处理.pptVIP

  • 2
  • 0
  • 约1.58千字
  • 约 30页
  • 2017-04-20 发布于四川
  • 举报
搜索引擎关键的技术文本处理

网络搜索引擎关键技术 ——文本处理 ;主要内容;一.搜索引擎的关键技术;2.信息预处理技术 信息预处理系统的主要工作是从抓取的网页中提取能够代表网页的属性,并将这些属性组成网页的对象,然后根据一定的相关度算法进行计算,得到每一个网页针对页面内容及链接每一个关键词的相关度,并用这些信息建立索引数据库。 关键词的提取 重复或转载网页的消除 链接分析 网页重要程度的计算;3.信息索引技术 信息索引就是创建文档信息的特征记录,以便用户能够快速地检索到所需信息。 信息语词切分和语词词法分析 进行词性标注及相关的自然语言处理 建立检索项索引 检索结果处理技术 ;二.文本处理;文本处理的过程包括如下5个步骤: 文本的词法分析 无用词汇的删除 词干提取 索引词条/词干的选择 构造词条的分类结构 ;1.词法分析; 在对英文进行分词的过程中,除了空格分隔符,还有几种特殊的情况要处理:数字、连字符、标点符号和字母的大小写。 数字 数字一般不作为索引词,因为如果没有上下文的联系,它们的含义是模糊不清的。 现在常用的做法是保留一些专门指出的(通过与正规表达式的匹配)数字,而将其他数字过滤掉。;连字符 对连字符来说,也有两难情况。 一种方法是将连字符都忽略掉,例如state-of-the-art等同于st

文档评论(0)

1亿VIP精品文档

相关文档