读取文档并分词.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信息检索实验 (一) 读取文档并分词 信息检索实验课程 一、实验目的 本实验目的为读取文档并进行自动分词。 要求:给定一篇.txt英文文档,计算机读入并统计该篇文章由哪些词组成,按字母顺序输出出现过的词,以及每个词的出现频率。 二、实验要求 本实验计算机语言任选,在Windows环境下完成。 要求能按照计算机保存的路径或输入路径读入相应文件,并将结果按照字母顺序输出在控制台。 要求能对数字及标点符号进行基本的处理。 三、实验数据来源 本实验数据要求为有一定长度的任意英文文段,要求为真实有意义的文段,由代码实验者自行给定。 四、核心代码提示 本实验建议用Lucene进行完成,其核心代码如下: * 对文本进行分词 public void splitWords() { // 分词所用的正则表达式 String regex = ([\\w]+(\\|\\-)*[\\w]+)|[\\w]+; Pattern pattern = Ppile(regex); Matcher matcher = pattern.matcher(article); while (matcher.find()) { //调用之后的countFreq(String key)方法,将所得分词进行词频统计 countFreq(matcher.group()); } } * 统计词频 */ public void countFreq(String key) { int freq = 0; //将所得分词和词频存储在wordmap中,如果wordmap中不存在该词则存储进去并将词频设为1,如果存在了,则将词频数加1 if (wordmap.containsKey(key)) { freq = wordmap.get(key) + 1; wordmap.put(key, freq); } else { wordmap.put(key, 1); } } 五、参考资料 Apache Lucene: / Lucene 使用教程:/tianlincao/article/details/6867127 Lucene 创建索引: /yangxy81118/article/details第一个Lucene实例:/w_l_j/article/details/7532858 五、参考资料 Java Input and Output (I/O) /~hasti/cs368/JavaTutorial/NOTES/JavaIO_Scanner.html Programming in Java /java/home/ code:/java/code/ Algorithms /home/ code:/code/ 五、参考资料 Lucene:基于Java的全文检索引擎简介 /tech/lucene.html 中文分词词频统计 /2013/06/zhong-wen-fen-ci/#.Uw6oOkKSzsg 使用JAVA进行词频统计 /zhaoxinfan/article/detailsJava正则表达式入门 /kdnuggets/article/details/2526588 没有完全匹配的代码,但基本上述都可能会用到和借鉴。在此后的实验中将可能一直使用 六、其他参考资料 1. 李晓明. 搜索引擎--原理、技术与系统. 科学出版社,2012 2. 罗刚. 解密搜索引擎技术实战 : Lucene Java精华版 电子工业出版社, 2011 3. 王学松. LUCENE+NUTCH搜索引擎开发. 人民邮电出版社, 2008 4. 邱哲,符滔滔. 开发自己的搜索引擎--LUCENE+HERITRIX. 人民邮电出版社, 2010 5. 布切尔. 信息检索 : 实现和评价搜索引擎: implementing and evaluating search engines. 机械工业出版社, 2012 * * * * * * * * * * * * * * * *

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档