基于正则表达式的大规模网页术语对抽取研究.pdfVIP

  • 11
  • 0
  • 约1.63万字
  • 约 4页
  • 2017-08-10 发布于北京
  • 举报

基于正则表达式的大规模网页术语对抽取研究.pdf

攀 l l ; 基于正则表达式的大规模网页术语对抽取研究* TheStudyofLarge——scaleW ebTerm ——pairsExtractionbasedonRegularExpressions 程 岚 岚 (天津科技大学计算机科学与信息工程学院 天津 300222) 摘 要 多语术语对的收集对于跨语言信息检索、机器翻译和语言学习等具有重要应用价值,但传统的手工方式或基 于平行语料 的术语收集方法均有各 自的局限性。针对web上存在的大规模术语 网页,基于web挖掘技术,提 出了一 种采用正则表达式的术语对抽取方法。首先是获取网页源文件 ,接着依据 已定义的正则表迭式从 中抽取 出正确的术 语对 ,并存储到本地术语库中。实验结果表明,该方法可实现66.7%的术语 网页的抽取,并且对于可抽取网页,抽取 出的术语对准确率接近 100%。 关键词 术语对抽取 正则表达式 web挖掘 中图分类号 TP391.3

文档评论(0)

1亿VIP精品文档

相关文档