TUSK校园搜索.PDF

TUSK校园搜索.PDF

TUSK 校园搜索 搜索引擎技术基础 实验报告 章彦恺 计 22 班 宋佳铭 计 22 班 一、 摘要 我们的项目 TUSK ,是 Tsinghua University Search Kit 的简称 ,它实现了以下的 内容 : 1. 基于清华新闻和人人网数据的搜索 2. 基于网络学堂数据的文档搜索 3. 基于计算机系教职工信息的人物搜索 4. 其他形式的搜索,例如清华大学校历 5. 准确,实时,高效的语音搜索 6. 准确,可扩展的搜索词 自动补全 7. 不同搜索内容的整合 8. 用机器学习方法确定搜索参数 9. 简洁美观的界面和搜索结果的显示 下面 ,我们会对这些功能的实现进行详细的说明 。 二、 实验目的 1. 以清华新闻网为基础,抓取作为搜索源的网络数据 2. 开发一个用户友好界面整洁优美的网页前端 3. 设计合理的索引和搜索方式,设计后端模式可以针对不同类型的请求可 以获得到相应类型的搜索结果 4. 用合适的方法设计搜索参数 ,优化搜索结果 5. 为搜索引擎添加文档 、图片 、人物等信息咨询搜索支持 6. 尝试添加其他用户交互模式,如语音搜索 三、 实验架构 实验由分离的前后端实现。前端由 html 静态网页组成 ,使用 Ajax 技术和后 端服务器连接 ,接收来自后端的Json 数据。 开发环境如下表所示 : 项目 环境 后端 Jsp +Servlet 运行环境 Apaceh Tomcat 7.0.55 数据库 MySQL 5.6.20 Community(GPL) 开发环境 Eclipse Luna 4.4.0 操作系统 Microsof Windows 8 Enterprise Eng 后端提供的 API 及相应参数如下表所示 : API 参数 类型 用途 tusk/PageSearch search String 搜索的关键字 page Int(optional) 搜索的页号 tusk/DocSearch search String 搜索的关键字 page Int(optional) 搜索的页号 tusk/AutoComp autocomp String 需要进行自动补全的查询内容 清华新闻 heritrix 历史搜索 人人网 人人开放API2 数据源 清华教职工 Java爬虫 网络学堂文档 Apache pdfbox Apache POI 数据库 机器学习 SmartChinese分词 索引数据 参数选择 Lucene索引 Servlet后端 前端网页 语音识别模块 用户

文档评论(0)

1亿VIP精品文档

相关文档