- 1、本文档共31页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Dictionary Based Annotation at
scale with Spark, SolrTextTagger
and OpenNLP
Sujit Pal, Elsevier Labs
Introduction
• About Me
– Work at Elsevier Labs.
– Interested in Search, NLP and Distributed Processing.
– URL:
– Email: sujit.pal@
– Twitter: @palsujit
• About Elsevier
– World’s largest publisher of STM Books and Journals.
– Uses Data to inform and enable consumers of STM info.
– And like everybody else, we are hiring!
Agenda
• Overview and Background
• Features and API
• Scaling out
• QA
Overview/Background
Problem Definition
• What is the problem?
– Annotate millions of documents from different corpora.
• 14M docs from Science Direct alone.
• More from other corpora, dependency parsing, etc.
– Critical step for Machine Reading and Knowledge Graph applications.
• Why is this such a big deal?
– Takes advantage of existing linked data.
– No model training for multiple complex STM domains.
– However, simple until done at scale.
Annotation Pipeline
Dictionary Based NE Annotator (SoDA)
• Part of Document Annotation Pipeline.
• Annotates text with Named Entities from external Dictionaries.
• Built with Open Source Components
– Apache Solr – Highly reliable, scalable and fault-tolerant search index.
– SolrTextTagger – Solr component for text tagging, uses Lucene FST technology.
– Apache OpenNLP – Machine Learning based toolkit for processing Natural Language Text.
– Apache Spark – Lightning fast, large scale data processing.
• Uses ideas from other Open Source libraries
– FuzzyWuzzy – Fuzzy String Matching like a boss.
• Contributed back to Open Source
– /els
您可能关注的文档
- [FHR-2002]Learning-based Cursive Handwriting Synthesis英文版本.pdf
- [HiC2011]A Large-Scale Highly-Efficient Index (梁斌)英文版本.pdf
- [PCCGA-2002]An Efficient Brush Model for Physically-Based 3D英文版本.pdf
- 4.Probability Densities in Data Mining英文版本.pdf
- 7.Learning Gaussia Bayes Classifiers英文版本.pdf
- 9.Regression and Classification with Neural Network英文版本.pdf
- 10.Instance-Based Learning英文版本.pdf
- 14.Bayesian Networks_independencies and inference英文版本.pdf
- 15.Bayes Net Structure Learning英文版本.pdf
- 16.4.van-der-leeuw0英文版本.pdf
- 2024年05月陕西西安医学院专职辅导员招考聘用笔试历年典型题及考点剖析附带答案含详解.docx
- 2024年04月中国国家话剧院应届生招考聘用考试历年典型例题及考点详判附带答案含详解.docx
- 2024年闽西职业技术学院高职单招教育类考试2018-2023年高频考点试题含答案解析.docx
- 2024年重庆幼儿师范高等专科学校高职单招计算机类考试2018-2023年高频考点试题含答案解析.docx
- 2024年黄河水利职业技术学院高职单招交通运输类考试2018-2023年高频考点试题含答案解析.docx
- 2024年青海卫生职业技术学院高职单招语文2018-2023年考试题摘选含答案解析.docx
- 2024年金华职业技术学院高职单招教育类考试2018-2023年高频考点试题含答案解析.docx
- 2024年04月安徽六安裕安区罗集乡比选村级后备干部人选4人考试历年典型例题及考点详判附带答案含详解.docx
- 2024年04月云南红河泸西县急需紧缺人才招考聘用5人考试历年典型例题及考点详判附带答案含详解.docx
- 2024年04月北京小汤山医院面向应届生招考聘用考试历年典型例题及考点详判附带答案含详解.docx
最近下载
- 供电线路运维及检修工程质量保证措施.docx
- 《户外混龄自主游戏中师幼有效互动的实践研究》结题报告.docx VIP
- 高考必备英语词汇表格排版3500词.docx
- 语文中考复习之谋篇布局-记叙文公开课全省一等奖PPT课件.pptx
- 2024年入党积极分子试题库及答案(通用版).pptx VIP
- 泛函分析讲义张恭庆_泛函分析张恭义,泛函分析讲义张恭庆.pdf
- XX有限公司安全生产治本攻坚三年行动实施方案.doc
- 日本留考(EJU)日本语真题平成30年第2回.pdf
- 2022-2023年药学考试-医院药学(副高)考试全真模考卷1(附答案).docx VIP
- 2020年江苏省镇江中考数学试卷.pdf VIP
文档评论(0)