火车采集器教程-Ocr识别.docVIP

  • 18
  • 0
  • 约小于1千字
  • 约 3页
  • 2018-04-26 发布于广东
  • 举报
火车头采集器,教程,学习资料,技术资料,参考文件。

Orc识别功能,是可以把一些简单的图片信息识别成文字信息的, 常见的网站上面的电话号码是图片格式的识别成文字。 /tel/52650234566157315535536b513f006051650f3e5231_4.png 我们通过对这个图片上的号码进行识别为例来说明下此功能。 第一步:配置Ocr信息 按照上图点击Ocr识别图标,打开识别界面 加载图片 通过从本地或者直接输入图片的网络地址,然后点击“加载”按钮 预处理 这个点击“添加”按钮,自己看下这些操作,其实这里一般是没有用的,没有什么方法就随便点点 走运也许就把图片识别了 图片预览 通过1,3,步操作 看到图片的变化 字符过滤 白名单字符:要识别的字符,数字字母汉字都可以 黑名单字符:不需要识别的字符 设置好了以后,点击“识别测试” 会弹出识别的结果,对照下如果识别是正确的点击右下角“保存配置”。如果识别不了,亲,你就放弃吧 找我们技术部开发插件识别。 这样就把识别的配置信息保存成文件了,就可以在采集器里面使用了 第二步,采集规则使用识别配置 打开需要进行ocr识别的标签,在数据处理那里 添加===》OCR图片识别 然后右侧 “点击这里选择配置文件” 就是在第一步那里保存的文件,设置好了点击“保存”按钮。 绿色字体那里注意看下,标签是采集到单个图片地址,这里注意下。 很遗憾这个功能可能对很多网站的识别都不行,如果你遇到识

文档评论(0)

1亿VIP精品文档

相关文档