將手寫筆記的圖像轉換為文本 [暫停]

Question

我有數百張手寫筆記的圖像。 它們是由不同的人寫的，但它們是按順序寫的，所以你知道例如person1寫了img1.jpg -> img100.jpg 。 筆跡風格因人而異，但筆記的某些部分始終是固定的，我想這可以幫助算法（它對我有幫助。）。

我嘗試了tesseract ，但它在識別文本方面非常失敗。 我在想，因為每個人都有大約 100 張圖像，我是否可以通過提供少量示例（例如 5 個或更少）來訓練算法，並且可以從中學習？ 還是數據不夠？ 從四處搜索看來我需要實現一個CNN （例如本文）。

雖然我對ai的了解有限，我仍然可以通過圖書館和一些學習來做到這一點嗎？ 如果是這樣，我應該怎么做？

Answer 1

這被稱為OCR ，並且已經取得了進展。 實際上，這是一個使用tesseract將圖像文件解析為文本的簡單示例：

try:
    from PIL import Image
except ImportError:
    import Image
import pytesseract


def ocr_core(file):
    text = pytesseract.image_to_string(file)
    return text


print(ocr_core('sample.png'))

但

我不太確定它是否可以識別不同類型的筆跡。 您可以自己嘗試一下以找出答案。 如果您想嘗試python示例，您需要導入tesseract但首先要在您的操作系統上安裝tesseract並將其添加到您的PATH 。

Answer 2

市面上有很多 OCR，其中一些的性能比其他的好。 然而，這是一個最近隨着深度神經網絡而得到很大改進的領域。 我會考慮使用雲提供商，例如 Azure、Google Cloud 或 Amazon。 您上傳圖片，他們會返回元數據。

例如： https://azure.microsoft.com/en-us/services/cognitive-services/computer-vision/

如果您出於任何原因不想使用雲服務，我會考慮使用 TensorFlow... 但需要一些知識：

Tensorflow model 用於 OCR

將手寫筆記的圖像轉換為文本 [暫停]

問題描述

2 個解決方案

解決方案1
1 2019-10-15 12:54:54

但

解決方案2
1 2019-10-15 13:08:34

將手寫筆記的圖像轉換為文本 [暫停]

問題描述

2 個解決方案

解決方案1 1 2019-10-15 12:54:54

但

解決方案2 1 2019-10-15 13:08:34

解決方案1
1 2019-10-15 12:54:54

解決方案2
1 2019-10-15 13:08:34