簡體   English   中英

識別txt文件特征

[英]Recognise txt file characteristics

我正在嘗試開發一種軟​​件,其中用戶將打開一個填充有數據的txt文件。
我想讀取數據,但不知道txt文件是定界的還是固定的,如果定界了,什么是字段定界符(或;或/ etc)或行定界符(CR + LF或CR或CF等等)。
如果我所有這些都知道,我知道如何讀取文件,但是我可以自動找到這些特征嗎? 謝謝

您可以做出一個很好的猜測:查看文件以獲取靈感。

例如:

  1. 讀取大塊數據(選擇足夠大的大小,應包含整行)
  2. 掃描CR,LF,可能的分隔符和空格
  3. 它有CR + LF嗎? 他們總是在一起嗎?
  4. 您找到任何定界符了嗎? 如果發現多個,可以看到任何模式嗎?
  5. 您是否發現空白行總是在連續行的同一列處結束?

等等等

您可以閱讀文件並進行一些有根據的猜測。

是否有CR / LF?

如果不是,則很可能是固定長度,他將指定另一個行定界符。

如果是這樣,請閱讀所有行並分別計算所有字符的數量。

每行上是否出現相同次數的字符? 如果是這樣,則很可能是字段分隔符。 如果不是,則可能是固定長度的字段。

如果是固定長度字段,請使用統計信息構建一行。 對於每個字符,它在所有行中有多少百分比的空白以及在所有行中有多少百分比的非空白? 查找索引從非常高的空白百分比跳到非常低的空白百分比的點,這很可能是字段邊界(最后一個字段以空白結尾,因為它不是“滿”,下一個以a開頭非空白,因為已填充。)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM