样例报告-智能信息处理研究中心.docVIP

下载本文档

1
0
约2.67千字
约 6页
2016-01-19 发布于天津
举报
版权申诉

样例报告-智能信息处理研究中心.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

样例报告-智能信息处理研究中心

智能信息处理实验室研究生论文开题准备报告研究生时间指导老师研究方向论文题目问题的提出问题的描述解决方案步骤1：要解决的关键问题1 解决问题的方法1：解决问题的方法2： ……解决问题的方法k：要解决的关键问题2 解决问题的方法1：解决问题的方法2： ……解决问题的方法m：要解决的关键问题2 ……步骤： ………… 步骤2： …… 注：主要是描述论文拟采用的实验方案，不能只是简单的说一下，而是要对实验的各个步骤和环节，以及可能遇到的问题和可能采用的解决方案都要给出详细的说明。补充说明：该报告不是要求大家一次性就填写的很完整，可以按照这个提纲来逐步的补充和完善起来。先将整个工作的大概框架确定下来，然后逐步针对每项进行细化，然后补充到报告中，最后得到完整详细的报告。这个报告可以作为开题报告的核心部分，同时也是指导下面工作的重要依据。样例研究生时间指导老师研究方向论文题目问题的提出本课题如何从候选结果集合中选取相关度高且信息含量大，冗余度小且新颖性大的结果组合不仅考虑了查询词和返回结果之间的相关性，同时也考虑了结果与结果之间所含相关信息的冗余关系，将结果间的新颖性也作为一个考虑因素，那么我们把将冗余小新颖性大的结果合排序靠前，这样用户不用点击大量冗余信息就能尽量在靠前位置快速得到有用的信息，节省了时间。故本论文主要对和结果组合进行讨论。问题的描述设Q(q1,q2,….qi)为查询向量，Si(s1,s2,…..si)为结果向量，Ci(c1,c2,….ci)为组合向量，Sim为Ci与Q相关度,Cont为并集度，Nov为每个组合的新颖度，Weight为最后结果组合的权值。我们计算Weight=a*Sim+b*Cont+c*Nov,其中，a b c为线性因子。a+b+c=1.然后我们按照每个组合的Weight从大到小进行排序，实际上就是我们把每个组合Ci按照权值由大到小返回给用户。这样保证了：在每个Ci内，S1∩S2∩…∩Si尽量最小（冗余度最小，也就是新颖性最大），每个Ci与Q相关度Sim尽量最大，同时Cont=S1∪S2∪…∪Si(组合内结果的并集度)也尽量最大。解决方案 1：找出相关结果与传统查找相关结果相同，如果使用trec测试集，此项已经给出。这里关于相关结果的选择问题，可以直接利用现有的信息检索系统或方法来得到，例如直接利用搜索引擎的前100条返回结果等。将结果进行组合按照C(m,n)进行组合，m为总结果数，n为组合内的结果数。一般情况下，为保证复杂度不至于太大，又能找到最大并集，m,n选择要进行尝试，但也不能太大。当然，如何选择n也是一个可以研究的问题。但是这里暂且不用考虑，先可以用2或3做做实验看看。新颖性的计算（1）将查询词提交后，我们将查询词进行扩展，即把查询词扩展为查询描述。再从查询描述中提取关键词，此关键词与初始查询词一起组成新的扩展后的查询词，然后我们或以向量形式表示查询词，或以其他方式表示。在这里，我们拟采用向量方式表示查询词。问题1：如何把查询词扩展如果用trec测试集，可以得到查询描述，进而得到扩展的查询词。如果在搜索引擎中，得到查询描述可能有点困难，可能需要打标记，来记载用户的查询需求和描述。问题2：如何以向量方式表示查询词这个问题可以采用普通方法，即很多研究都使用的方法，就是用查询词在所有语句中出现的次数并把次数进行标准化之后作为权值，这里最好与结果的向量描述一致，有利于计算他们之间的相似度。（2）计算组合内语句间的新颖性，每个组合的并集度，以及组合和查询的相关度。以下分别以提出问题的形式来说明实现步骤。问题1：计算组合内两个语句之间的新颖性，相似度越小，新颖性越大。进而计算整个组合的新颖性。解决方法1：新词数量度量（New Word Count Measure）[14]。解决方法2：新信息度度量（New Information Degree (NID)）[15]。解决方法3：基于重叠度的冗余方法[16]。这三种方法虽然对于两个语句之间的新颖性计算很好，因为可以不用将语句进行向量化，就能进行新颖性度量，但是不利于后续计算。解决方法4：使用相似度函数计算新颖性[17-19]。常用的就是cosine相似度函数。这里就涉及如何将语句向量化。解决方法可以为：解决方法（1）：简单的用词出现的次数作为向量值，或者把次数进行标准化之后作为向量值。解决方法（2）：每个向量值为文档里的每个word 的词频点积TF*IDF，然后，用下面五个参数减少向量里的词的数量①DECAY THRESHOLD 使用它来减少文档向量里的词，保证是50-200个②IDF _THRESHOLD 文档里IDF少于这个界值的词都忽略，