[英]How to convert and organize different dimensioned rgb images into CSV file?
我的數據集中有大約30萬張格式為.jpg的圖像。 但是圖像的尺寸不同。 我想將所有圖像的rgb通道轉換為.csv文件,但是我應該寫什么到空單元格? 可以將其放置為“ N”字符,但我想使用numpy和DataFrame來組織.csv文件。 任何想法? (數據集用於創建深度學習模型)
這開始只是評論,但時間太長。 我認為答案足夠取決於缺少值時您希望代碼執行的操作。
例如,如果像素為空,則對於深度學習模型而言,設置白色(255,255,255)或黑色(0,0,0)可能是侵入性最小的(您需要研究其工作方式)。 我發現拉伸/縮放圖像實際上是最好的方法。
就在CSV編寫空記錄(空字符串或逗號之間的差距)是一個選項,看到這個答案。 如果您使用numpy.genfromtxt
讀取數據,則可以根據需要設置missing_values
和filling_values
。 您還可以補充一個精確的值,該值絕對不會對空記錄(例如99999
或DEADBEEF
自然發生,以識別這些記錄並根據需要編寫代碼以進行解析。
需要考慮的一個問題是,讀取后需要將數據重塑為相同的圖像尺寸,因此請確保選擇的任何格式保持相同的行數。
另外,您需要一個大CSV文件還是很多較小的CSV文件? 如果存儲大量的文件,你可以考慮加入頭數據來指定數據的實際大小,所以你只需要存儲的圖像,然后skip_header
在genfromtxt和墊需要。
最后,您最好使用二進制文件,因為您有大量數據,請考慮這樣做,因為它將占用較少的空間,並且讀/寫速度更快。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.