工作汇报09.29.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
工作汇报 汇报人:陈泽锋 2010-9-29 主要内容 学习情况 项目进展 存在问题及工作安排 学习情况 关联规则挖掘算法:apriori。在网上找到了java实现的代码,弄明白了其中的输入跟输出。接下来就是按照项目的需要做相关的修改整合到系统中去。 Web社区项目前期准备:学习中文分词最大匹配算法、了解HMM算法,文本关键特征词提取、新词提取的现状。 项目进展 找到了造成compass在服务器上运行出错的原因:同时两次建索引。因为第一次建索引会首先给索引文件加上锁,这将会导致第二次建索引时,试图对加上锁的索引文件进行更新、替换等操作都会出错。因此我们需要在通过一种有效的方法来阻止它们同时建索引。方法一:因为在建索引的时候,程序首先会索引文件加锁,故通过判断文件是否加锁,如果加锁则跳过建立索引的过程,可以有效的阻止同一时间内多次建立索引。方法二:通过延迟判断索引文件的大小是否有改变,从而判断文件正在被操作。 开始着手web社区项目的前期准备。思路:通过提取web社区中出现的新词,作为一个判断是否有新事件出现的指标之一。 谢谢! 输入例句:S1=”计算语言学课程有意思” ; 定义:最大词长MaxLen = 5;S2= ” “;分隔符 = “/”; 假设存在词表:…,计算语言学,课程,意思,…;  (1)S2=”;S1不为空,从S1右边取出候选子串W=”课程有意思”;  (2)查词表,W不在词表中,将W最左边一个字去掉,得到W=”程有意思”;  (3)查词表,W不在词表中,将W最左边一个字去掉,得到W=”有意思”;  (4)查词表,W不在词表中,将W最左边一个字去掉,得到W=”意思”  (5)查词表,“意思”在词表中,将W加入到S2中,S2=” 意思/”,并将W从S1中去掉,此时S1=”计算语言学课程有”;  (6)S1不为空,于是从S1左边取出候选子串W=”言学课程有”;  (7)查词表,W不在词表中,将W最左边一个字去掉,得到W=”学课程有”;  (8)查词表,W不在词表中,将W最左边一个字去掉,得到W=”课程有”;  (9)查词表,W不在词表中,将W最左边一个字去掉,得到W=”程有”;    (10)查词表,W不在词表中,将W最左边一个字去掉,得到W=”有”,这W是单字,将W加入到S2中,S2=“ /有 /意思”,并将W从S1中去掉,此时S1=”计算语言学课程”;  (11)S1不为空,于是从S1左边取出候选子串W=”语言学课程”;  (12)查词表,W不在词表中,将W最左边一个字去掉,得到W=”言学课程”;  (13)查词表,W不在词表中,将W最左边一个字去掉,得到W=”学课程”;  (14)查词表,W不在词表中,将W最左边一个字去掉,得到W=”课程”;  (15)查词表,“意思”在词表中,将W加入到S2中,S2=“ 课程/ 有/ 意思/”,并将W从S1中去掉,此时S1=”计算语言学”;  (16)S1不为空,于是从S1左边取出候选子串W=”计算语言学”;  (17)查词表,“计算语言学”在词表中,将W加入到S2中,S2=“计算语言学/ 课程/ 有/ 意思/”,并将W从S1中去掉,此时S1=”;  (18)S1为空,输出S2作为分词结果,分词过程结束。 * * 存在问题 存在问题及工作安排 1、由于配置不正确,导致Compass提供的索引增量功能无法正常运行。 2、解决同时重复建索引的两个方法效果不好,运行不稳定。 3、由于配置不正确,导致Compass提供的索引增量功能无法正常运行。 4、采用数据库表格存储记录用户的操作记录,随着系统的运行会使表格记录日益膨胀,导致apriori性能下降。 1、把apriori算法整合到系统中去,完成展品推荐功能。 2、解决索引增量配置问题。 3、继续做好web社区项目的基础知识准备。 工作安排

文档评论(0)

82393aa + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档