基于字典的中文切词系统在北京市精品课程平台中的设计与实现.pdfVIP

  • 4
  • 0
  • 约9.43千字
  • 约 3页
  • 2018-05-09 发布于福建
  • 举报

基于字典的中文切词系统在北京市精品课程平台中的设计与实现.pdf

簇装备。前沿 周恕义 徐晓亮:基于字典的中文切词系统在北京市精品课程平台中的设计与实现 基于1671-字489X典.20lO的.09.0中03文切词系统在北京市精品课程 平台中的设计与实现 周恕义 徐晓亮 北京工业大学现代教育技术中心 北京 100022 摘 要 随着信息量的不断增长,搜索引擎在网站中所起到的作用显得越来越重要,如何通过搜索引擎获得丰富的 信息,成为用户关心的重要问题。通过设计实现基于字典的中文切词系统,并对不同格式的文件进行数据挖掘, 改进北京市精品课程平台的搜索引擎。 关键词 Lucene;中文切词;搜索;数据挖掘;SEO 中图分类号:TP391 文献标识码 :A 文章编号:1671—489X(2010)09—000303 Design and ImpIementatioR of Ohinese Tokenize System in Beijing QuaIity Oourse PIatform//Zhou Shuyi, Xu Xiaoliang AbstractWith the growing amount of information,Search engine isplayinga moreandmore important role in a web Site.How to get rich information through the search engine hasbecome a significant factof the siteusers.Thisarticle discussedmining different format date and implementsa search engine, including a Chinese tokenize system based on dict. It has improved the search engine of BeijingOualityCoursePlatform. KeywordsLuoene:Chinese tokenize:search;datemining:SEO Author’saddressModernTechnologicalCenterinEducationofBJUT,BeiJing,China100022 一 般的教学与课程网站 内的搜索条 目,都是基于关键字 Lucene可以对任何数据做索引和搜索。不管数据源是什 的搜索 。例如,输入课程名,返回结果是网站所包含此课程 么格式,只要它能被转化为文字的形式,就可以被Lucene所 的信息;输入学校名,返回的结果是网站所包含此学校的课 分析利用 。 程信息。无论是课程名还是学校名,等等,都是基于关键字 12 API 的搜索。 1)ApachePOI。Microsoft的Office格式非常复杂,往 正在建设中的北京市精品课程网站 由于规模较大,网 往包含各种文档属性信息、文档 内的格式信息,有时候甚至 上资源也越来越丰富,大量的课件信息不断增加到网站中。 包含复合文档。文档属性信息主要包括文档的标题、主题 、 如果用户想获取包含某一条关键字的课件 ,在现有的搜索条 摘要、类别、关键词等;文档内部的格式信息包括文档的字 件下,需要通过输入关键字,找到相应的课程,然后在课程 体、字号、表格、图表 、其他OLE2的正文元素等 。 网页下获取课件。过程既费时,获取的信息又不全面。如何 POI就是通过OLE2模式访 问Office文档,读取和修改 能够直接通过网站内容的搜索,就可以获取所有包括 内容关 Office的复杂文档格式。针对不同的Office文档类型,PO1 键字的课件信息?笔者在分析搜索引擎架构的基础上,设计 分别有针对性地提供访 问接 口,包括解析Word接 口的HWPF、 并实现一个基于 内容的搜索引擎,包括对 中文进行处理分析 ExCe1的HSSF、PPT的HSLF,读取OffiCe文档标准属性

文档评论(0)

1亿VIP精品文档

相关文档