智能信息处实验室研究生论文预开题报告 - 哈尔滨工.docVIP

下载本文档

2
0
约4.13千字
约 6页
2016-12-06 发布于贵州
举报
版权申诉

智能信息处实验室研究生论文预开题报告 - 哈尔滨工.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

智能信息处实验室研究生论文预开题报告 - 哈尔滨工

智能信息处理实验室研究生论文开题准备报告研究生时间指导老师研究方向论文题目问题的提出和研究目标注：介绍论文所研究问题的背景，现有工作存在不足之处，特别是自己工作所针对的部分。问题的描述注：要求对所研究的问题不仅要用文字给出详细准确的描述，而且要给出以符号为主的形式化描述。解决方案步骤1：要解决的关键问题1 解决问题的方法1：解决问题的方法2： …… 解决问题的方法k：要解决的关键问题2 解决问题的方法1：解决问题的方法2： …… 解决问题的方法m：要解决的关键问题2 …… 步骤2： …… 注：解决方案如果包含多个步骤的话，需要将每个步骤的描述，以及每个步骤所遇到的问题都分析清楚，进而对每个问题给出可能的解决方法（需要注意的是，这里的解决方法可以是目前已有的工作，无需所有的解决方法都是自己提出的，要求对每种解决方法都有一个清楚的分析，为最终选择何种方法提供依据）。实验设计实验目标注：明确实验的目标和目的，有时不仅是要证明我们自己方法比别人的好，更要关注各个对比方法之间的差别和适用情况，还要考虑验证自己方法的缺点。实验数据准备注：实验数据的来源，以及目前准备的情况。如果是自己抓取或生成的，那么要详细说明抓取的过程或生成的原则，以及当前的数据量和质量如何；如果是采用现有的公共数据集，则要说明数据的来源，以及获取的手段。度量标准描述注：对实验中所采用的度量要给出介绍，如果是自己提出的新度量，则要给出详细的介绍；如果是采用通用的度量手段，原则上可简单描述即可，当然也可给出详细说明。实验方案介绍步骤1： …… 步骤2： …… 注：主要是描述论文拟采用的实验方案，不能只是简单的说一下，而是要对实验的各个步骤和环节，以及可能遇到的问题和可能采用的解决方案都要给出详细的说明。补充说明：该报告不是要求大家一次性就填写的很完整，可以按照这个提纲来逐步的补充和完善起来。先将整个工作的大概框架确定下来，然后逐步针对每项进行细化，然后补充到报告中，最后得到完整详细的报告。这个报告可以作为开题报告的核心部分，同时也是指导下面工作的重要依据。样例研究生刘春双时间 2009.1.22 指导老师张志强研究方向信息检索论文题目检索结果集选取算法研究问题的提出和研究目标本课题主要针对如何从候选结果集合中选取相关度高且信息含量大，冗余度小且新颖性大的结果组合返回给用户查看，这里不仅考虑了查询词和返回结果之间的相关性，同时也考虑了结果与结果之间所含相关信息的冗余关系，将结果间的新颖性也作为一个考虑因素，那么我们把将冗余小新颖性大的结果组合排序靠前，这样用户不用点击大量冗余信息就能尽量在靠前位置快速得到有用的信息，节省了时间。故本论文主要对如何进行新颖性判断和如何进行结果组合进行讨论。如何从候选结果集合中选取相关度高且信息含量大，冗余度小且新颖性大的结果组合返回给用户。既保证了满足用户的查询需求，又能给用户尽量提供比较大的信息量。问题的描述设Q(q1,q2,….qi)为查询向量，Si(s1,s2,…..si)为结果向量，Ci(c1,c2,….ci)为组合向量，Sim为Ci与Q相关度,Cont为并集度，Nov为每个组合的新颖度，Weight为最后结果组合的权值。我们计算Weight=a*Sim+b*Cont+c*Nov,其中，a b c为线性因子。a+b+c=1.然后我们按照每个组合的Weight从大到小进行排序，实际上就是我们把每个组合Ci按照权值由大到小返回给用户。这样保证了：在每个Ci内，S1∩S2∩…∩Si尽量最小（冗余度最小，也就是新颖性最大），每个Ci与Q相关度Sim尽量最大，同时Cont=S1∪S2∪…∪Si(组合内结果的并集度)也尽量最大。解决方案步骤1：找出相关结果。与传统查找相关结果相同，如果使用trec测试集，此项已经给出。这里关于相关结果的选择问题，可以直接利用现有的信息检索系统或方法来得到，例如直接利用搜索引擎的前100条返回结果等。步骤2：将结果进行组合。按照C(m,n)进行组合，m为总结果数，n为组合内的结果数。一般情况下，为保证复杂度不至于太大，又能找到最大并集，m,n选择要进行尝试，但也不能太大。当然，如何选择n也是一个可以研究的问题。但是这里暂且不用考虑，先可以用2或3做做实验看看。步骤3：新颖性的计算。（3.1）将查询词提交后，我们将查询词进行扩展，即把查询词扩展为查询描述。再从查询描述中提取关键词，此关键词与初始查询词一起组成新的扩展后的查询词，然后我们或以向量形式表示查询词，或以其他方式表示。在这里，我们拟采用向量方式表示查询词。问题3