44-工作汇总与有-工作总结.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
工作总结 ---黄玉兰 提纲 工作汇总 有意义串研究 工作汇总 搜索日志分析系统smark 拼音汉字系统调研 有意义串相关工作 词聚类调研 工作汇总--搜索日志分析系统smark(1) 任务: 根据所给的搜索日志进行数据分析,提供有用信息。 提供数据中所能反映的商机 以网页的形式提供服务。 工作汇总--搜索日志分析系统smark(2) 已完成的工作: 重复串的TopN排序。 搜索词的TopN排序。 查询词的统计信息,如时间分布,地域分布等。 查询词分类,用户分类。 加入检索功能。 网页展示界面。 工作汇总--搜索日志分析系统smark(3) 工作汇总--拼音汉字转换系统调研(1) 任务: 调研拼音到汉字的转换方法 对快速输入法提出自己的设计想法 工作汇总--拼音汉字系统调研(2) 工作进展: 对音字转化的现状有了基本了解 整理了音字转换系统的组成 提出改进之处 工作汇总--有意义串相关工作 熟悉师姐的程序,处理不同数据 商业网页数据、专利数据等 根据不同数据改进程序 写有意义串方面的专利 面向互联网的有意串挖掘 专利文献的领域术语抽取方法以及专利搜索辅助系统 改进发现有意义串的方法 基于伪相关反馈的领域词典生成算法 基于窗口的有意义串挖掘方法 有意义串挖掘软件GoldMiner 重写有意义串挖掘程序 加入检索功能以及界面展示功能 工作汇总--词聚类调研 目标: 给定一个新出现的有意义串,可以找跟它相近的词,通过这些词推测这个有意义串的意思和用法。 完成情况: 整理10多篇关于聚类的文章 实验效果不是很好,有待改进 提纲 工作汇总 有意义串研究 有意义串研究 背景 改进方法 工作计划 背景--有意义串定义 定义: 包含具体语义,并且能够做为一个灵活独立的语言单元在不同语境中使用的字符串 特点: 结构上:结构较稳定,具有一定的凝固性。 语义上:表意完整单一、所指明确。 语用上:使用环境灵活多样。 统计上:在大规模真实文本中有一定流通度。 背景--有意义串应用 索引词优化 社会热点挖掘 文本表示 语料建设 专业术语提取 背景--现有的方法 切分方法 组合是利用词汇的共同属性,如MI、MI和RIDF、MI和Context Dependence等。 组合方法 基于压缩的切分方法等。 背景--邻接类别(1) 左邻接类别:在串左边出现的字或词的种类数量。 右邻接类别:在串右边出现的字或词的种类数量。 邻接类别:左邻接类别和右邻接类别的较小值。 背景--邻接类别(2) 招聘版主 申请版主须知 各位版主请看 请教版主一个启动的问题 请教版主关于还原卡的问题 左邻接类别 = 4 右邻接类别 = 5 邻接类别 = min{4,5} = 4 背景--位置成词概率 位置成词概率(Position-Word Probability): 汉字c的位置成词概率PWP(c,pos)计算如下: 背景—提取流程 有意义串研究 背景 改进方法 工作计划 改进方法 基于伪相关反馈的领域词典生成算法 基于窗口的有意义串挖掘方法 基于伪相关反馈的领域词典生成算法(1) 主要思想: 把领域词典生成的过程视为一个信息检索的过程 假设初始检索出来的前若干个结果与领域相关,将结果加到词典中,重新检索 。 基于窗口的有意义串挖掘方法 方法 1. 从整个语料集上查找有意义串。 2. 把整个语料集分成若干个子语料(如小说语料按 章节份),从子语料中查找有意义串。 3. 把上两步的结果合并起来。 效果 1. 提高精度 ,找到只在局部出现而全局信息不够高 的重复串。(小说语料实验效果并不是特别明显) 2. 提高速度 有意义串研究 背景 改进方法 工作计划 工作计划 提高有意义串挖掘算法的效率 将有意义串加入到不同应用中 有意义串分析、展示系统 工作计划(1) -- 提高有意义串挖掘算法的效率 精度 前N个词的准确应经很高。 (BBS标题10M语料的前500个词的准确率为95%) 后面的词的准确率越来越低。希望用统计的方法提高这部分的准确率。 速度 现处理有意义串的速度还不高。 处理速度主要跟生成的重复串的数目有关。 工作计划(2) --将有意义串加入到不同应用中 领域词典 如专利领域,开发专利词典。在专利检索过程中,辅助专利分析师或普通的专利检索者。 文本分类 将有意义串挖掘应用到文本分类

文档评论(0)

小玉儿 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档