- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PythonOpencv图⽚识别表格:线条信息计算(投影算法)
Python Opencv图⽚识别表格:线条信息计算(投影算法)
通过OpenCV算法识别出图⽚中的框线后,⾯临⼏个问题:
线条变换为绝对⽔平和垂直
线条并⾮绝对的⽔平或垂直,需要变换为绝对的⽔平线或垂直线。简单的算法是可以选择线条的起点或终点作为坐标,但最好是可以选择线
条的中⼼的坐标。这⾥设计了⼀种轴⼼投影法,通过线条在垂直轴上的投影得到中⼼点的坐标。以横线条为例,将线条的cv矩阵传⼊,计算
在数据i轴上的投影,得到中⼼的i位置,即为绝对⽔平线的y轴坐标。这⾥⼀定要注意数据矩阵中的i、j分别对应着cv坐标轴的y和x。
通过投影算法,可以得到线条垂直坐标轴的轴⼼,同理,将线条在j轴上进⾏投影就可以得到线条的绝对⽔平或垂直的长度。
仔细分析后我们会发现,在i轴上进⾏投影算法能得到绝对横线的宽度,在j轴上投影可以得到绝对横线的长度。那我们是否需要写⼀个i轴投
影算法和⼀个j轴投影算法呢?其实投影原理都⼀样,只是投影的轴不同。如果将横线转置,向i轴投影,是不是就得到了绝对横线的长度
呢?这样我们就可以复⽤同⼀套投影算法了。
如果是竖线怎么办呢?竖线刚好相反,向j轴投影得到宽度,向i轴投影得到长度。如何复⽤同⼀套线段信息计算代码呢?没错,将竖线转置
后就变成横线了,算法⼀致了!
完成了以上思路的梳理,我们就可以写出对应的投影算法了。
线条的断裂
另⼀个问题是线条的断裂,由于⼲扰因素导致⼀根线条中间出现了断裂,为了应对这种问题,我们在投影计算时⽀持了break,即允许在投
影截⾯上出现⼏个像素的断裂。
线条被分割为多条线段
不是所有的表格框线都是⼀直连续的,看下⾯这个例⼦,红框中的表格框线被两个合并单元格分割成了三段。在线条信息计算时,需要精确
的计算出每条线段起⽌坐标信息。为什么呢?这是因为稍后我们进⾏单元格重建算法的时候,需要知道表格中每⼀个横纵交叉点的完整情
况,来决定每个单元格到底有⼏⾏⼏列。这个问题在表格结构分析算法会详细谈到的。
完整算法
根据以上的分析,我们写出了下⾯完整的算法,实现了线条的投影计算、宽度计算、长度计算、线条中的线段信息的计算,⽀持了⼲扰造成
的断裂等情况。
计算线条的完整信息,包括线条的轴⼼位置、线条起⽌pos、内部线段的信息
原理:通过坐标轴投影算法,获取垂直于该坐标轴的线段在该轴上的中⼼位置
前提:输⼊的lines_matrix必须是i,j⼆维数组,且i为要投影的坐标轴 (相当于cv图像的y轴,若要投影x轴请先转置后传⼊)
输⼊:lines_matrix-线段的⼆值变反矩阵;max_break-最⼤⽀持线段中间出现的断裂 (像素数量)
输出:线段信息list
line_info = {
axis: 0, # 线条轴⼼
wide: 0, # 线条粗细
len: 0, # 线条总长度 (线段长度之和)
segment: [], # 线条内部的线段信息 [[线段长度, 线段start, 线段end],...] ⽀持⼀根线条被分割为多条线段 (中间跨域⼀个或多个合并单元格)
segment: [], # 线条内部的线段信息 [[线段长度, 线段start, 线段end],...] ⽀持⼀根线条被分割为多条线段(中间跨域⼀个或多个合并单元格)
}
输⼊⽰例:lines_matrix
i0 j
i1 j
i2 j
i3 j
def calc_line_info(lines_matrix, max_break, debug=False):
计算轴每个位置的投影是否有像素值
# i
对每个对应的 进⾏ 操作,求出轴上该位置是否出现像素点
project_i = [any(x) for x in lines_matrix] # i list any i
取出有像素值的轴
# i pos
pos_i = [i for i,x in enumerate(project_i) if x==True]
# 异常检测:若只检测到⼀条线或没有线则返回空
if len(pos_i)=1:
return []
将连续的 分组(⽀持连续 出现 个像素的断裂)
您可能关注的文档
最近下载
- 耕地质量等级+(GBT+33469-2016).docx VIP
- 人教版高中物理必修一课件.pptx VIP
- 新生儿高胆红素血症诊治指南(2025)解读 (1)PPT课件.pptx VIP
- 《新生儿高胆红素血症诊治指南(2025)》解读(1)PPT课件.pptx VIP
- SGT756国电南自保护培训全解.ppt VIP
- 建设工程工程量清单计价办法(市政工程定额章节说明).pdf VIP
- 盘扣模板支撑体系技术交底(二级).docx VIP
- 精创温控器EK-3010说明书用户手册.pdf
- 外墙涂料施工安全技术交底.doc VIP
- 在线网课学习课堂《舰艇操纵与避碰》单元测试考核答案.docx VIP
文档评论(0)