[英]article extraction from newspaper image in python and opencv
我嘗試從報紙圖像中提取文章,但是標題被 rlsa 算法在第一張圖像中的某些像素值的水平和垂直分開。 如果我嘗試使用更多像素值,文章正在合並,顯示在第二張圖片中。 任何人都可以建議將文章與python和opencv中的圖像分開的最佳方法嗎?
for i in range(1,a):
c = 1
for j in range(1, b):
if im_bw[i, j] == 0:
if (j-c) <= 10:
im_bw[i, c:j] = 0
c = j
if (b - c) <= 10:
im_bw[i, c:b] = 0
for i in range(1, b):
c = 1
for j in range(1, a):
if im_bw[j, i] == 0:
if (j-c) <= 9:
im_bw[c:j, i] = 0
c = j
if (b - c) <= 9:
im_bw[c:b, i] = 0
a 是行數 b 是二值圖像的列數
算法如何處理二值圖像和紅色標記顯示文章的合並
我有一種適用於大多數圖像的方法。
刪除行有幫助,因為一些電子論文保留行作為文章分隔符。 我們可以通過對圖像進行更多處理來獲得更好的結果。 應用上述步驟后,可以在圖像上留下的輪廓上實施平均寬度、平均高度、平均面積等啟發式方法,以獲得更好的效果。
談到上述問題,文章總是以白色背景。 沒有白色背景的顯然是“廣告”或“圖片”或“雜項”。 從上述 4 個步驟中刪除圖片清除解決了這個問題。
PS:為RLSA水平和垂直選擇一個值始終是個謎。 由於文章的差距因版本而異。
編輯:
上面的問題基本上是應用啟發式的。 通讀這個
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.