SEWM2010文献检索评测报告第八届全国搜索引擎和网上信息挖掘.PPTVIP

  • 1
  • 0
  • 约2.73千字
  • 约 18页
  • 2018-07-05 发布于天津
  • 举报

SEWM2010文献检索评测报告第八届全国搜索引擎和网上信息挖掘.PPT

SEWM2010文献检索评测报告第八届全国搜索引擎和网上信息挖掘

SEWM 2010 文献检索评测报告 内容提纲(Outline) 评测目标 系统流程 系统模块 任务实现 总结与展望 一: 评测目标 文献检索 提高检索的质量,与Web Search追求精度不同,此处更注重于召回率 找到相关领域的最主要论文,以及一些较权威的作者,帮助读者了解相关知识 二: 系统流程 三: 系统模块 预处理模块 解析天网格式数据: TWReader PDF文件解析: xpdf,pdfBox等 读取DBLP数据: DOM,SAX等 读取acm Portal数据: htmlParser 预处理: 词干化,去停用词等 文献数据DTD ?xml version=1.0 encoding=utf-8 ? !DOCTYPE paper[ !ELEMENT paper (mdate,key,author*,year,ee,url,oriSouce,downRecord_6,downRecord_12,indexTerm*,generalTerm*,keyword*,abstractInfo,introductionInfo,mainBody,conclusion,reference*,citeby*) !ELEMENT key (#PCDATA) !ELEMENT author (#PCDATA) !ATTLIST author organ

文档评论(0)

1亿VIP精品文档

相关文档