TUSK校园搜索.PDF
TUSK 校园搜索
搜索引擎技术基础 实验报告
章彦恺 计 22 班
宋佳铭 计 22 班
一、 摘要
我们的项目 TUSK ,是 Tsinghua University Search Kit 的简称 ,它实现了以下的
内容 :
1. 基于清华新闻和人人网数据的搜索
2. 基于网络学堂数据的文档搜索
3. 基于计算机系教职工信息的人物搜索
4. 其他形式的搜索,例如清华大学校历
5. 准确,实时,高效的语音搜索
6. 准确,可扩展的搜索词 自动补全
7. 不同搜索内容的整合
8. 用机器学习方法确定搜索参数
9. 简洁美观的界面和搜索结果的显示
下面 ,我们会对这些功能的实现进行详细的说明 。
二、 实验目的
1. 以清华新闻网为基础,抓取作为搜索源的网络数据
2. 开发一个用户友好界面整洁优美的网页前端
3. 设计合理的索引和搜索方式,设计后端模式可以针对不同类型的请求可
以获得到相应类型的搜索结果
4. 用合适的方法设计搜索参数 ,优化搜索结果
5. 为搜索引擎添加文档 、图片 、人物等信息咨询搜索支持
6. 尝试添加其他用户交互模式,如语音搜索
三、 实验架构
实验由分离的前后端实现。前端由 html 静态网页组成 ,使用 Ajax 技术和后
端服务器连接 ,接收来自后端的Json 数据。
开发环境如下表所示 :
项目 环境
后端 Jsp +Servlet
运行环境 Apaceh Tomcat 7.0.55
数据库 MySQL 5.6.20 Community(GPL)
开发环境 Eclipse Luna 4.4.0
操作系统 Microsof Windows 8 Enterprise Eng
后端提供的 API 及相应参数如下表所示 :
API 参数 类型 用途
tusk/PageSearch search String 搜索的关键字
page Int(optional) 搜索的页号
tusk/DocSearch search String 搜索的关键字
page Int(optional) 搜索的页号
tusk/AutoComp autocomp String 需要进行自动补全的查询内容
清华新闻 heritrix
历史搜索
人人网 人人开放API2
数据源
清华教职工 Java爬虫
网络学堂文档 Apache pdfbox
Apache POI
数据库
机器学习 SmartChinese分词
索引数据
参数选择 Lucene索引
Servlet后端
前端网页 语音识别模块
用户
您可能关注的文档
最近下载
- 6.1《东北地区的地理位置与自然特征》导学案_ __2025-2026学年湘教版地理八年级下册.docx VIP
- 【地 理】第七章第一节 自然特征与农业课件-2025-2026学年人教版八年级下册地理.pptx VIP
- 6.1《东北地区的地理位置与自然特征》课件__2025-2026学年湘教版地理八年级下册.pptx VIP
- 浙人美版美术八年级上册《第一单元 上下五千年》大单元教学设计.docx VIP
- 以解题反思为翼,翱翔高中数学思维天空.docx VIP
- 基于思维可视化的高中数学解题教学研究.pdf
- 贵州省锦屏县八克金矿成矿流体地球化学的分析.pdf VIP
- 基于PLC的饮料灌装生产流水线控制系统的设计论文.docx VIP
- 6.1 东北地区的地理位置与自然环境八年级地理下册 集备课件(湘教版).pptx VIP
- 6.1+东北地区的地理位置与自然环境(课件)-2023-2024学年八年级地理下学期同步课件(湘教版).pptx VIP
原创力文档

文档评论(0)