- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
LCS算法在术语抽取中的应用研究
LCS算法在术语抽取中的应用研究
[摘要] 本文介绍了一种基于最大公共子串(LCS,Longest Common Substring)算法的术语抽取方法:按标点符号对领域文档进行切分;抽取切分后的语句片断的所有最大公共子串作为候选术语集;通过停用词过滤、对照领域词筛选和术语嵌套子串筛选等规则进行判别,得到最终的术语集。通过学前教育领域术语抽取的实验,验证了该算法可以有效地抽取中文领域术语:术语抽取平均准确率达84.2%;4-6字符双词术语抽取的效果尤佳,准确率接近100%。
[关键词] 最大公共子串算法 术语抽取
Application of LCS-Based Algorithm in Chinese Term Extraction
[Abstract] This paper proposes a Chinese term extraction solution based on the Longest Common Substring(LCS) algorithm. First, each document in the corpus is segmented by punctuation, then the longest common substrings of these segments are extracted to compose the candidate terms. Finally,the author uses stopwords filter,common words filter and nested strings filter to pick out the terms from the candidates. Experiment in preschool education field illustrates that the proposed scheme performs well in Chinese term extraction. Precision of the extraction achieves 84.2% in full-scale statistic, near 100% in 4 or 6 Chinese character terms.
[Keyword] Longest Common Substring (LCS) Algorithm Term Extraction
1 前言
术语是一个专业领域核心知识的集中体现和负载。高效的术语抽取技术有助于领域术语词典的快速、有效构建,由此可以大幅度提高领域知识发现、分类、检索的准确率和性能。同时,术语抽取还在机器翻译、文本摘要、信息检索及领域概念体系建立等方面有着广泛的应用。
信息时代的到来使得传统的人工术语获取方式难以应付术语快速增长与动态变化的现状,自动抽取技术成为术语抽取发展的必然趋势。国内外许多研究者在术语抽取方面已经做了大量的工作,文献[1]在总结这些工作的基础上,将现有的术语抽取方法归纳为以下几种:(1)基于统计的术语识别方法,如频率筛选,假设检验,似然比和互信息等;(2)语言学方法,如C-Value方法、GM参数方法等;(3)统计学和语言学相结合的方法。本文则是在统计学的基础之上,提出一种基于最大公共子串(Longest Common SubString)算法的术语抽取方法,并使用该方法对学前教育领域的术语进行自动抽取,验证了该方法的有效性。
2 基于LCS的术语抽取
2.1 两点假设
在一个专业领域中,与领域主题相关的术语往往会分布在多篇文档中。以学前教育领域为例,许多学术论文、网页文档中都包含诸如“学前教育”,“学前儿童”,“混龄教育”,“亲子游戏”等术语,并且与主题相关度越高的术语出现越频繁。由此,我们提出以下两点假设,这两点假设也是本研究的前提和基础。
假设1:在某一专业领域中,若某一字符串作为整体出现的频率较高,则该字符串很有可能为该领域的术语;
假设2:术语出现的频率可以标识该术语的领域流通度[2],也可在一定程度上反应领域的关注热点。
2.2 LCS 算法[3][4][5]
最大公共子串(LCS)算法是文本处理的基本算法之一。最大公共子串求解问题可以定义为:给定两个字符串s和t,找出s和t的所有公共后缀中长度最大的后缀。解决最长公共子串问题的经典算法有动态规划和后缀树两种算法[3][4]。我们选用动态规划算法抽取候选术语,其求解最大公共子串的核心算法是查找任意前缀子串对的最长公共后缀的算法。可采用以下的递推关系式表示该求解过程:
例如,字符串s=“混龄教育能培养幼儿的情感”,t=“为幼儿混龄教提供了理论基础”,根据上面的递推关系可以构造出如下的矩阵:
图1 最大公共
您可能关注的文档
最近下载
- 2023会计年终工作述职报告7篇.docx VIP
- 法语语法总结ppt课件.pdf VIP
- 6《除法》单元整体设计 北师大四年级数学上册 .pdf VIP
- 小学生竞选大队干部演讲稿优秀.pptx VIP
- FSSC22000V6.0体系文件清单.docx VIP
- 情绪觉察水平量表.pdf VIP
- 20210916-IBM商业价值研究院-人工智能:应对AI数据困境:恰当的数据集成方法、治理和工具.pdf VIP
- DBJ50-T-185-2019_增强型改性发泡水泥保温板建筑保温系统应用技术标准.docx VIP
- SOP-QR-141MSA测量系统分析作业办法.doc VIP
- 几种常见医院感染.docx VIP
文档评论(0)