- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2007年度总结.ppt
2007年度总结 陈翀2008 01 13 主要内容 课题进展 资源自动分类方案 资源命名 毕业论文框架 投稿 项目进展 DIMCID(数字媒体内容集成与分发平台) SEWM2008数字资源分类评测 课题进展 概括:经历了前期调研,确定资源有序化几个关键研究点和论文框架。 寻找适于资源分类的方案,进行大量实验评价可行性 自顶向下,通过目录节点的语义匹配,合并不同的子树,达到同类资源的整合 用户有太多组织资源的角度,即便关于同类资源,其上层目录的语义也可能是正交的,无法判断整合点 整合点可能距离真正的资源边界很远,这种合并仅能粗略地“聚拢”资源,不能保证被整合内容是比较规范和纯净的。 目录名(包括路径上提供的上下文)信息太欠缺,尝试词汇相似度的字面和语义匹配是困难的。 自底向上,通过寻找目录树底层成员的相似性,逐级向上合并 最大的问题是——无法保证资源边界的完整或原子性 折中:假定资源边界已知,目光投向资源内部 课题进展 资源特征抽象,用名字片段、扩展名、文件大小这些共有特征刻画多种媒体格式、无穷组成结构的复杂数据对象 借用文本分类的方式完成复杂数据对象的分类(这里面有很多文章可作) Naive Bayes SVM 其他实验分析 完成基于Naive Bayes的资源自动分类工具 模拟人工标注CDAL的工作过程 对ftp或maze资源提取目录树所有路径、文件的名称、大小 按照上述信息,人工确定资源粒度 自动收集被确定的资源,判定其类别 课题进展 围绕课题写了3份技术报告,分别关于CDAL资源统计、探讨资源分类的可能途径、资源分类具体方案及性能对比 形成一篇关于数字资源分类的英文论文,评审中 数字资源命名规律调查的相关实验,进行中 资源命名切分方法的研究 撰写毕业论文,进行中 4月中旬完成开题 体会: 李老师的思维很特别,提出一个问题的角度引发我一年的工作 越做发现越多可做的点,手脑不够用了 资源分类从思考到实验,尽力去画一个圆,这个过程对我锻炼很大。我觉得它还不太圆。。。 项目进展 “数字媒体集成与分发平台” 通过中期检查 每个月汇报进度,按时提交所要求的内容,保持所承担子任务的正常状态 和其他参与单位协作,提供内容管理平台所需要的资源元数据 启动SEWM2008提供数字资源分类评测,发动大家的智慧。 制作数据集 制定参赛规则 为SEWM的评测活动注入新的内容 项目进展 体会 学习到多单位共同完成一件比较大而庞杂的事时,在协调、计划、进度控制等方面的一些做法。 在闫宏飞老师的帮助下完成新的评测任务启动 其他感受 发现WBIA的内容组织越来越吸引人了,使用了新的教材IIR,平常看看很有收获 参加了一次难忘的素质拓展,感谢实验室 08年的计划 按时完成毕业论文 顺利答辩 * *
文档评论(0)