- 11
- 0
- 约1.63万字
- 约 4页
- 2017-08-10 发布于北京
- 举报
攀 l l ;
基于正则表达式的大规模网页术语对抽取研究*
TheStudyofLarge——scaleW ebTerm ——pairsExtractionbasedonRegularExpressions
程 岚 岚
(天津科技大学计算机科学与信息工程学院 天津 300222)
摘 要 多语术语对的收集对于跨语言信息检索、机器翻译和语言学习等具有重要应用价值,但传统的手工方式或基
于平行语料 的术语收集方法均有各 自的局限性。针对web上存在的大规模术语 网页,基于web挖掘技术,提 出了一
种采用正则表达式的术语对抽取方法。首先是获取网页源文件 ,接着依据 已定义的正则表迭式从 中抽取 出正确的术
语对 ,并存储到本地术语库中。实验结果表明,该方法可实现66.7%的术语 网页的抽取,并且对于可抽取网页,抽取
出的术语对准确率接近 100%。
关键词 术语对抽取 正则表达式 web挖掘
中图分类号 TP391.3
您可能关注的文档
最近下载
- 2025年甘肃省武威市招聘专业化管理村党组织书记101人备考题库含答案.docx VIP
- 访谈提纲半结构化设计.pptx
- 流产诊断证明书模板.docx VIP
- 2025张掖市专业化管理的村党组织书记招聘考试笔试试卷【附答案】.docx VIP
- 2026甘肃兰州市专业化管理村党组织书记招聘56人备考题库附答案.docx VIP
- 2026甘肃张掖市专业化管理村党组织书记招聘49人备考题库附答案.docx VIP
- 统编版四年级下册语文第二单元--快乐读书吧《十万个为什么》--导读课-公开课一等奖创新教案.docx VIP
- 2025年武威市招聘专业化管理的村党组织书记考试笔试试卷【附答案】.docx VIP
- 2025年武威市招聘专业化管理的村党组织书记笔试真题(含答案).docx VIP
- 2024年武威市招聘专业化管理的村党组织书记真题.docx VIP
原创力文档

文档评论(0)