基于正则表达式的大规模网页术语对抽取研究.pdfVIP

下载本文档

11
0
约1.63万字
约 4页
2017-08-10 发布于北京
举报

基于正则表达式的大规模网页术语对抽取研究.pdf

攀 l l ；基于正则表达式的大规模网页术语对抽取研究* TheStudyofLarge——scaleW ebTerm ——pairsExtractionbasedonRegularExpressions 程岚岚 (天津科技大学计算机科学与信息工程学院天津 300222) 摘要多语术语对的收集对于跨语言信息检索、机器翻译和语言学习等具有重要应用价值，但传统的手工方式或基于平行语料的术语收集方法均有各自的局限性。针对web上存在的大规模术语网页，基于web挖掘技术，提出了一种采用正则表达式的术语对抽取方法。首先是获取网页源文件，接着依据已定义的正则表迭式从中抽取出正确的术语对，并存储到本地术语库中。实验结果表明，该方法可实现66．7％的术语网页的抽取，并且对于可抽取网页，抽取出的术语对准确率接近 100％。关键词术语对抽取正则表达式 web挖掘中图分类号 TP391．3

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于正则表达式的大规模网页术语对抽取研究.pdfVIP

基于正则表达式的大规模网页术语对抽取研究.pdf

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档