973计划项目数字内容理解的理论与方法.doc

下载文档 降价啦

118
0
约5.2万字
约 75页
2019-07-15 发布于江西
举报
版权申诉
保障服务

973计划项目数字内容理解的理论与方法.doc

1、本文档共75页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

PAGE 70 - 973计划项目“数字内容理解的理论与方法” 年度总结报告（2007年度）年度计划执行情况（一）年度计划完成情况 2007年度是本项目承前启后的一年。本项目在认真总结过去两年工作的基础上，对后三年的工作进行了认真的谋划。在这一年，通过项目全体成员的精诚合作，共同努力，项目顺利进入了一个新的时期。现将一年来本项目的年度计划完成情况概述如下： 1．视觉注意基本表达及脑功能成像研究本年度，在视觉注意基本表达及脑功能成像方面的研究围绕“知觉物体”这个核心概念开展实验研究，特别是脑成像实验研究，同时进一步抓紧对前期实验结果的整理成文：已有一篇论文被PNAS杂志接受，另有一项工作发表在Nature Neuroscience上。总体上，各项年度计划已基本完成，达到或超过预期目标。 2．文本内容理解的数据基础本年度是执行三年调整计划的第一年。课题组充分理解古训“一年之计在于春，一日之计在于晨”的启迪意义，努力完成了本年度的任务，为三年调整方案的按期完成奠定了坚实的基础。按照调整方案，本年度该方向的研究把建设综合型语言知识库置于工作的重心，带动各子任务都有可喜的进展，同时努力探索文本内容理解的理论和新思路。相关成果占主体的综合型语言知识库已取得重要进展，于2月份通过教育部组织的技术鉴定，并向教育部申报科技进步一等奖。在此基础上，又提出了“面向文本内容理解的语言与知识基础平台”的规划，并取得阶段性成果。应用研究探索也取得进展，4个实用系统向实用化方向前进，特别是人机互动的百科知识工程，提出了基于知识元的知识描述体系、文本知识自动分析和重构方案，实现了一个知识服务应用示范系统——心血管疾病知识咨询系统。配合“国家知识资源数据库”大型工程的立项，作了有益的探索。 3．机器学习与数据描述在应用需求的推动下，机器学习正在面临新一轮的研究，因此，本年度该方向的部分研究是为以后两年的研究做准备，包括，对基于凸上界损失函数的学习理论与算法的研究和结构化数据的结构学习理论和算法的研究。另外，部分研究是以本课题前两年的研究为基础，包括，基于reduct理论特征选择方法与Rashomon特征选择理论框架和规则+例外学习的研究。在上述理论研究的基础上，开始情报分析的研究。 4．自然语言理解的交互引擎研究该方向后三年的研究工作重点集中在突破句群处理上，以语境单元萃取为基础使计算机具有篇章处理能力。同时，首先选择在一个局部形成比较完善的处理模式，以展示本研究的理解特征。研究重点凝聚在对“体育比赛”这一专业领域的句群处理研究方面。根据这一目标，2007年度课题计划任务书预计完成的研究工作包括：体育比赛领域内所涉及的子领域的范畴及其概念延伸结构；探索体育比赛领域内各个子领域之间的概念联想关系，以及这些子领域与其他概念树和延伸概念的关系；进行领域句类知识的表述研究；探索语境单元萃取方法；探索HNC理解度方面在语群层面的理解度量化方法。 5．音频场景分析本年度的研究工作主要集中在单麦克风条件下底层信号处理与高层知识的结合研究、音频场景分析在语音识别中的应用以及麦克风阵列的设计和研究三个方面。首先，在单麦克风条件下底层信号处理与高层知识的结合研究方面，课题组在第一阶段研究工作的基础上，加强了与相关课题之间的联系和沟通，重点从基音线索的提取和利用、多基音跟踪与听觉场景分析的结合、基于时域包络的语音客观感知质量评估与听觉场景分析的结合以及借助机器学习获取特定说话人语音分布规律的高层知识以指导混合语音清、浊音的分离等方面，进行了系统而深入的研究和探索。这些新的研究和探索不仅是对课题前一阶段研究成果的有益补充和整合，还与之前的研究成果一起，共同构建了一整套既涵盖了底层分离线索（基音/多基音、共同的开始和结束等）的提取和使用，又涵盖了高层语音语言知识（语音分布规律性和感知质量等）的学习和引入；既包括了自下而上的数据驱动模式，又包括了自上而下的图式驱动模式；既采用了同步组织的方式，又采用了序贯组织方式；既能够实现语音与噪声混合信号的分离，又能够实现多说话人混合语音分离；既可以分离混合语音中的浊音信号，又可以同时分离语音中的清音信号的相对比较系统和完整的单麦克风音频场景分析理论。其次，在音频场景分析在语音识别中的应用方面，课题组在前两年工作的基础上，围绕音频场景分析中单声道混合语音分离这一关键问题，选择了实际应用中经常遇到的两说话人混合语音分离作为切入点，重点研究和探索了这种情况下音频场景分析预处理与语音识别的结合问题。通过在计算听觉场景分析框架下采用实值掩蔽替代二值掩蔽对混合语音进行分离，并将分离语音作为输入直接应用于后端的语音识别系统，显著地改善了语音识别系统的性能，提高了语音识别系统的鲁棒性。再次，在麦克风阵列设计、研究方面，课题组研究设计