UNIX-自动确定字段分隔符和记录（EOL）分隔符？

Question

假设您有20个文件，而您不会看每个文件，而是有一个脚本来确定文件的格式。

即bash findFileFormat direcName

然后循环遍历目录中的每个文件，并打印出文件名以及是否有定界符（在这种情况下，它是逗号，管道还是其他符号）或用for字段分隔符固定，然后是记录分隔符固定。 即CR，LF，Ctrl + Z字符等

我当时在想，因为某些文件的数据中可能包含很多竖线和逗号，所以它可以使用每行每个字符的计数来确定分隔符是什么->如果此过程不能在每个字符中产生一致的字符数可以肯定地说，该文件使用了固定宽度的字段分隔符。

是否有命令或脚本可用于确定每个文件的这两位信息？

Answer 1

这是一个小的python脚本，它将作为您所需的起点：

import sys

separators = [',', '|']
file_name = sys.argv[1]

def sep_cnt(line):
  return {sep:line.count(sep) for sep in separators}

with open(file_name, 'r') as inf:
  lines = inf.readlines()

cnts = [sep_cnt(line) for line in lines]
print(cnts)

def cnts_red(a, b):
  c = {}
  for k, v in a.iteritems():
    if v > 0 and v == b[k]:
      c[k] = v
  return c

final = reduce(cnts_red, cnts[1:], cnts[0])

if len(final) == 0:
  ftype = 'fixed'
else:
  ftype = 'sep by ' + str(final.iteritems().next()[0])

print(ftype)

命名上面的heur_sep.py并在安全的地方运行它（例如/ tmp）：

# Prepare
rm *.txt

# Commas
cat >f1.txt <<e
a,a,a,a
b,b,b,b
c,c,c,c
e

# Pipes
cat >f2.txt <<e
a|a|a|a
b|b|b|b
c|c|c|c
e

# Fixed width
cat >f3.txt <<e
1  2  3
1  2  3
1  2  3
e

# Fixed width with commas
cat >f4.txt <<e
1, 2  3
1  2, 3
1  2, 3,
e

for i in *.txt; do
  echo --- $i
  python heur_sep.py $i
done

您将需要做更多的工作才能使它能够抵抗各种错误，但这应该是一个很好的起点。 希望这可以帮助。

UNIX-自动确定字段分隔符和记录（EOL）分隔符？

问题描述

1 个解决方案

解决方案1
2 2012-02-25 03:00:50

UNIX-自动确定字段分隔符和记录（EOL）分隔符？

问题描述

1 个解决方案

解决方案1 2 2012-02-25 03:00:50

解决方案1
2 2012-02-25 03:00:50