簡體   English   中英

從發票中提取產品和價格

[英]Extract products and prices from invoice

我想從pdf中提取信息。

以下是策略的摘錄,其中使用https://github.com/yob/pdf-reader/將pdf轉換為txt文檔。

Vehicle Description          2007, PORSCHE, CAYMAN 3.2

Registration Number          USD-2394                   Vin Number            FSDFKJL23123KFAS


MY COVER DETAILS

Cover                                                                                 USD37.45

我想提取例如車輛描述和保險費用:

vehicle.description => "2007, PORSCHE, CAYMAN 3.2"
vehicle.registration => "USD-2394"
vehicle.cost_of_cover => "37.45"

任何人都可以建議適當的方法。 問題在於策略的布局可能會更改,但數據大部分相同,只是值不同。

如果要使用正則表達式,任何人都可以提供示例代碼。

查找說明

/Vehicle Description((?!Registration$).*)Registration/m

查找注冊號

/Registration Number((?!Vin$).*)Vin/m

尋找保險費用

/Cover(.*)/m

這些都是相當懶惰的正則表達式匹配。 但是,您沒有提供很多不同的示例。 但是這些應該可以幫助您入門。

用法示例:

match = /Vehicle Description((?!Registration$).*)Registration/m.match(PDFTEXT)

http://www.ruby-doc.org/core-2.0/Regexp.html

您可以使用正則表達式(regexp)輕松完成此操作。 假設您的pdf文本存儲在變量text

description = text.scan(/Vehicle Description(.*)Registration/m).flatten[0].strip
registration = text.scan(/Registration Number(.*)Vin/m).flatten[0].strip
cover = text.scan(/Cover(.*)/m).flatten[0].strip

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM