TUSK校园搜索.PDF

下载文档 降价啦

1
0
约1.47万字
约 21页
2018-12-20 发布于天津
举报
保障服务

TUSK校园搜索.PDF

TUSK 校园搜索搜索引擎技术基础实验报告章彦恺计 22 班宋佳铭计 22 班一、摘要我们的项目 TUSK ，是 Tsinghua University Search Kit 的简称，它实现了以下的内容： 1. 基于清华新闻和人人网数据的搜索 2. 基于网络学堂数据的文档搜索 3. 基于计算机系教职工信息的人物搜索 4. 其他形式的搜索，例如清华大学校历 5. 准确，实时，高效的语音搜索 6. 准确，可扩展的搜索词自动补全 7. 不同搜索内容的整合 8. 用机器学习方法确定搜索参数 9. 简洁美观的界面和搜索结果的显示下面，我们会对这些功能的实现进行详细的说明。二、实验目的 1. 以清华新闻网为基础，抓取作为搜索源的网络数据 2. 开发一个用户友好界面整洁优美的网页前端 3. 设计合理的索引和搜索方式，设计后端模式可以针对不同类型的请求可以获得到相应类型的搜索结果 4. 用合适的方法设计搜索参数，优化搜索结果 5. 为搜索引擎添加文档、图片、人物等信息咨询搜索支持 6. 尝试添加其他用户交互模式，如语音搜索三、实验架构实验由分离的前后端实现。前端由 html 静态网页组成，使用 Ajax 技术和后端服务器连接，接收来自后端的Json 数据。开发环境如下表所示：项目环境后端 Jsp +Servlet 运行环境 Apaceh Tomcat 7.0.55 数据库 MySQL 5.6.20 Community(GPL) 开发环境 Eclipse Luna 4.4.0 操作系统 Microsof Windows 8 Enterprise Eng 后端提供的 API 及相应参数如下表所示： API 参数类型用途 tusk/PageSearch search String 搜索的关键字 page Int(optional) 搜索的页号 tusk/DocSearch search String 搜索的关键字 page Int(optional) 搜索的页号 tusk/AutoComp autocomp String 需要进行自动补全的查询内容清华新闻 heritrix 历史搜索人人网人人开放API2 数据源清华教职工 Java爬虫网络学堂文档 Apache pdfbox Apache POI 数据库机器学习 SmartChinese分词索引数据参数选择 Lucene索引 Servlet后端前端网页语音识别模块用户

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

TUSK校园搜索.PDF