一种健康体检大数据文本资料不合法词清洗的方法.pdfVIP

  • 1
  • 0
  • 约1.22万字
  • 约 10页
  • 2023-06-06 发布于四川
  • 举报

一种健康体检大数据文本资料不合法词清洗的方法.pdf

本发明公开了一种健康体检大数据文本资料不合法词清洗的方法,该方法包括以下步骤:步骤1、通过收集原始的体检数据,通过人工标注及机器训练与挖掘,得到不同体检项目的不合法数据,建立文本资料不合法词库;步骤2、按照指定的数据结构输入待清洗的健康体检文本数据;步骤3、利用文本资料不合法词库对健康体检文本数据进行算法匹配,并判断是否为不合法形态;步骤4、利用算法将匹配的不合法词删除;步骤5、检查输出的健康体检文本数据是否正确;步骤6、对输出健康体检文本数据进行结果检查,并对文本资料不合法词库进行补充;步骤7

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 112765964 A (43)申请公布日 2021.05.07 (21)申请号 202110087779.5 (22)申请日 2021.01.22 (71)申请人 武汉大学 地址 43

文档评论(0)

1亿VIP精品文档

相关文档