- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
自然语言理解课程
实验报告
姓 名 赵子所在学院
专业年级
报告提交时间
联系电话
电子信箱
实验一、中文分词
实验内容
用最大匹配算法设计分词程序实现对文档分词,并计算该程序分词的正确率、召回率及F-测度。
实验数据:
(1)wordlist.txt 词表文件
(2)pku_test.txt 未经过分词的文档文件
(3)pku_test_gold.txt 经过分词的文档文件
实验所采用的开发平台及语言工具
开发平台:Eclipse软件
语言工具:Java语言
实验的核心思想和算法描述
核心思想:正向最大匹配算法 (Forward MM, FMM)
算法描述: 正向最大匹配法算法如下所示:逆向匹配法思想与正向一样,只是从右向左切分,这里举一个例子:
输入例句:S1=计算语言学课程有意思 ;
定义:最大词长MaxLen = 5;S2= ;分隔符 = “/”;
假设存在词表:…,计算语言学,课程,意思,…;
最大逆向匹配分词算法过程如下:
(1)S2=;S1不为空,从S1右边取出候选子串W=课程有意思;
(2)查词表,W不在词表中,将W最左边一个字去掉,得到W=程有意思;
(3)查词表,W不在词表中,将W最左边一个字去掉,得到W=有意思;
(4)查词表,W不在词表中,将W最左边一个字去掉,得到W=意思
(5)查词表,“意思”在词表中,将W加入到S2中,S2= 意思/,并将W从S1中去掉,此时S1=计算语言学课程有;
(6)S1不为空,于是从S1左边取出候选子串W=言学课程有;
(7)查词表,W不在词表中,将W最左边一个字去掉,得到W=学课程有;
(8)查词表,W不在词表中,将W最左边一个字去掉,得到W=课程有;
(9)查词表,W不在词表中,将W最左边一个字去掉,得到W=程有;
(10)查词表,W不在词表中,将W最左边一个字去掉,得到W=有,这W是单字,将W加入到S2中,S2=“ /有 /意思”,并将W从S1中去掉,此时S1=计算语言学课程;
(11)S1不为空,于是从S1左边取出候选子串W=语言学课程;
(12)查词表,W不在词表中,将W最左边一个字去掉,得到W=言学课程;
(13)查词表,W不在词表中,将W最左边一个字去掉,得到W=学课程;
(14)查词表,W不在词表中,将W最左边一个字去掉,得到W=课程;
(15)查词表,“意思”在词表中,将W加入到S2中,S2=“ 课程/ 有/ 意思/”,并将W从S1中去掉,此时S1=计算语言学;
(16)S1不为空,于是从S1左边取出候选子串W=计算语言学;
(17)查词表,“计算语言学”在词表中,将W加入到S2中,S2=“计算语言学/ 课程/ 有/ 意思/”,并将W从S1中去掉,此时S1=;
(18)S1为空,输出S2作为分词结果,分词过程结束。
系统主要模块流程、源代码
/*
2013.11.28
中文分词
赵子豪
*/
import java.io.*;
import java.util.Vector;
public class WordSequence{
public static void main(String args[]){
try{
FileInputStream fis=new FileInputStream(f:\\pku_test.txt);
InputStreamReader SR=new InputStreamReader(fis);
BufferedReader BR=new BufferedReader(SR);
String pku=;
while( (pku=BR.readLine())!=null){
Sequence pku_test=new Sequence(pku) ;
System.out.println( );
}
}catch(IOException e){
System.out.print(e);
}
}
}
class Sequence{
static final int WORD_MAX_LENGTH = 9;
static Vector ve=new Vector();
FileWriter FW=new FileWriter(f:\\mypuk_test.txt,true);
String seq=null;
public Sequence(String str) throws IOException{
class LoadDictionary{
public LoadDictionary(F
您可能关注的文档
最近下载
- 管材安装合同范本(12篇).docx VIP
- 滇人版 七年级 第九册 第10课 文件合并与超链接课件.pptx VIP
- 古镇商业运营与旅游开发思路.pptx VIP
- 02S515排水检查井图集.pdf VIP
- 标准图集-23S519-小型排水构筑物.pdf VIP
- 形考作业(五)配置DNS服务实训.docx VIP
- 高钾血症应急演练脚本.docx VIP
- xx河防洪治理工程施工组织设计.doc VIP
- 新解读《GB_T 17934.3-2021印刷技术 网目调分色版、样张和生产印刷品的加工过程控制 第3部分:新闻纸冷固型平版胶印》最新解读.pptx VIP
- 简式数控车床使用说明书(中英文).pdf VIP
原创力文档


文档评论(0)