基于功能结构元组的技术文档的特征提取研究.PDFVIP

  • 3
  • 0
  • 约2.14万字
  • 约 5页
  • 2019-12-29 发布于天津
  • 举报

基于功能结构元组的技术文档的特征提取研究.PDF

第29卷 第5期 计 算机 技 术 与发 展 Vol.29 No.5 2019年5月 COMPUTERTECHNOLOGY AND DEVELOPMENT May 2019 基于功能结构元组的技术文档的特征提取研究 1 2 孙 龙 ,李 彦 (1.四川大学计算机学院,四川 成都 610065; 2.四川大学制造学院,四川 成都 610065) 摘 要:词汇模型在表征工程技术知识文档特征时,将文档切分为一个个相互不关联的词,较难提取出文档的语义特征。 如果考虑到一条语句中词之间的关联性,根据工程技术知识文档的语义结构信息,提取出功能结构元组作为文档特征,则 可以进一步提高分类效果。 文中从工程技术知识文档的特点出发,在归纳总结现有提取文本功能结构元组方法的基础 上,探索将基于统计的方法和基于规则的方法相结合。 首先通过统计方法提取文档特征词来过滤掉文档中的噪声和无意 义的语句,再从过滤后的语句中按照语法分析树的层次,以递归方式提取文档中的功能结构元组。 为更有效地提取语句 中的功能结构元组,对语句的词法分析树中规律性的规则进行了总结。 经验证,该方法可有效提升工程技术知识文档的 特征提取效果。 关键词:功能元组;文本分类;特征抽取;算法设计 中图分类号:TP393 文献标识码:A 文章编号:1673-629X(2019)05-0012-05 doi:10.3969/j.issn.1673-629X.2019.05.003 Research on Feature Extraction of Technology Document Based on Functional Structure Tuple 1 2 SUN Long ,LI Yan (1.School of Computer Science,Sichuan University,Chengdu610065,China; 2.School of Manufacturing Science and Engineering,Sichuan University,Chengdu610065,China) Abstract:When thevocabularymodelrepresentsthefeaturesofengineeringtechnology documents,thedocumentsaredividedintowords that are notrelatedtoeachother,whichisdifficulttoextractthesemanticfeaturesofthedocument. Iftherelationshipbetweenwordsina sentence istaken into consideration,the functional structure tuples,which extracted as feature of the engineering technology documents, can further improve the classification effect. Starting with the characteristics of engineering technology documents,on th

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档