- 2
- 0
- 约1.54千字
- 约 8页
- 2018-06-21 发布于上海
- 举报
中国8月17日周末沙龙ppt
案例背景行业信息采集,加工,检索案例使用Lucene完成加工数据的部分查询业务问题Lucene里前置*模糊带来的查询速度慢的问题解决方案反转字段,避免前置*模糊检索本案例是对已有的千万级英文文献数据的一个加工处理的业务,对处理完的文献数据提供给其他兄弟组使用solr部署检索方案。在加工处理的流程中,因业务需要根据MetaMap相似度匹配算法,提取最有效的短语片段,故需要频繁使用Lucene中的通配符匹配来与词典库,语料库进行交互。系统拓扑流程简析对于任意从文献中提取出来长度大于等于2的短语片段,使用模糊匹配规则例子: 对于短语片段 a b c都要处理成如下10种形式进行匹配 * a b c , a * b c , a b * c, a b c * ,* b c,a * c,a b *, b c,a c,a b 对于短语片段 a b都要处理成如下6种形式进行匹配 * a b , a * b , a b * ,* b ,a * , a, b不同短语长度的片段个数不一样,但每条短语都有2个前置*模糊查询模糊匹配使用的词典库数据量很小只有320多万。每篇文献抽取出来的需要进行模糊匹配短语片段平均约15个,每个短语片段按如上的规则形式进行匹配前加工处理,这样每篇文献能得到约30个最耗时前置*的模糊匹配,相当于在很短时间内要进行大量的模糊匹配方案探索(1), 最早使用的方式,是采用关系型
原创力文档

文档评论(0)