- 0
- 0
- 约1.44万字
- 约 5页
- 2026-01-22 发布于浙江
- 举报
;;嘲l;辫圈}曩慧;舔{簸臻l强l濑ll{i黼};霸搭
城市轨道交通线网全文检索系统的设计与实现*
刘建委赵驰唐忠诚刘琼
(1.广州地铁集团有限公司建设事业总部,510030,广州
2.华南理工大学计算机科学与工程学院,510006,广州∥第一作者,工程师)
摘要已有的企业级全文检索系统不宜直接应用于城市arecompared;secondly,theretrievaltimeofasamesearch
轨道交通行业,因为其不仅有自身的专业术语,而且数据量taskworkingindifferentthreadnumbersarecompared,in
较大,所以对中文分词的准确性、切分速度和全文检索查询ordertoverifytherationalityofthemulti--processtechnol-·
效率具有特殊需求。中文分词方面,针对字典分词方案,添ogy;andfinally,thefunctionsofthewholesystemare
加适合城市轨道交通行业的中文术语词库,采用MMseg中tested.Thetestingresultsshowthattheproposedmethod
文分词算法;城市轨道交通线网数据量大,查询业务相对集hasbetterretrievalperformanceandretrievalefficiency.
中,所涉及的分布式全文检索系统采用结合主索引和增量索Keywordsurbanrailtransit;full-textretrievalsystem;
引的方案,在业务空闲时,执行主机采用多进程方式对检索Chinesewordsegmentation
任务进行处理,实现索引的合并。试验分三部分完成。其First-authorSaddressTheConstructionDivisionofGuan—
一,比较基于字典和字标注的两种中文分词方案,以论证选gzhouMetroGroupCo.,Ltd.,510030,Guangzhou,China
择字典分词方案的合理性;其二,针对于同一检索任务,在单
机上比较不同进程数对检索时间的影响,以说明多进程处理
技术的合理性;最后,测试整个系统的性能。试验结果表明,据统计,在企业联机存储的信息中,80%以上的
此方案和方法有助于改善检索性能和检索效率。信息是以文本的形式存在I1]。传统的关系数据管理
关键词城市轨道交通;全文检索系统;中文分词系统(RDBMs)擅长结构化数据的管理,其索引是
中图分类号TP391.3:U231关键字索引,在处理文本类非结构化数据时,效率非
DOI:10.16037/j.1OO7—869x.2015.12.031常低下,所以如何快捷、有效地管理和检索文本类非
结构化数据已成为企业亟待解决的核心问题之一。
DesignandImplementationoftheFull-textRetrievalSystem全文检索是指以文本为检索对象,允许用户以
forUrbanRailTrartsitNetwork
自然语言的方式根据资料内容而不仅是外在特征
LiuJianewei,ZhaoChi,TangZhongcheng,LiuQiong
(诸如标题、作者、摘要、附录等)来实现信息检索
原创力文档

文档评论(0)