如何使用python具有相同的列和行标题？

Question

我想从文本文件中读取行，并基于单词之间的Wu-Palmer距离构建距离矩阵。 例如：

           House    Grass   Boat   Cat
House       x        y       ..    ..
Grass       x1       y1      ..    ..
Boat        x2       y2      ..    ..
Cat         x3       y3      ..    ..

我想知道是否可以在python中使用任何现有功能来从文本文件中读取行并将行输出为距离矩阵的行和列？

Answer 1

如果您的输入只是用空格分隔的单词，则可以像下面这样轻松地遍历它们：

words = set()
with open("input.txt", "r") as fd:
    for line in fd:
        words.update(line.split())

set的使用可确保每个单词仅记录一次-听起来就是您所追求的。

如果您的输入使用的是英文文本，则事情会变得有些困难，因为您想抓住“我愿意”之类的东西-您还应决定是否将连字符的单词（例如“兼职”）归为一个单词-我的示例可以，但是很容易更改。 尽管我不喜欢它们，但在这里正则表达式实际上非常有用：

import re
import string

non_word_re = re.compile(r"[^-\w']+")
words = set()
with open("input.txt", "r") as fd:
    for line in fd:
        words.update(i for i in non_word_re.split(line) if i[0] in string.letters)

这将创建一set单词，其中一组字符是由集合[a-zA-Z0-9_-']的一个或多个组成的任何字符，并且第一个字符是字母。

之后，您可以轻松计算出每对单词之间的距离：

all_distances = {}
for word in words:
    all_distances[word] = dict((i, calculate_distance(word, i)) for i in words)

这里的数据结构可能比嵌套的字典更整洁，但是我认为足够简单了。

最后，您可以输出制表符分隔的矩阵，如下所示：

with open("output.txt", "w") as fd:
    fd.write("\t" + "\t".join(sorted(all_distances.keys())) + "\n")
    for word1, distances in sorted(all_distances.iteritems()):
        fd.write(word1 + "\t" + "\t".join(i[1] for i in sorted(distances.iteritems())))

如果yuo想要更接近于漂亮格式的输出矩阵（即，根据其内容自动调整每一列的大小）的东西，那么这本身并不难，但是有点儿麻烦，需要更多代码。

顺便说一句，如果您想读取或写入CSV格式的文件，然后看看Python csv模块，它会处理一些繁琐的事情，例如为您报价。

那是你所追求的吗？

如何使用python具有相同的列和行标题？

问题描述

1 个解决方案

解决方案1
1 已采纳 2013-01-19 13:33:13

如何使用python具有相同的列和行标题？

问题描述

1 个解决方案

解决方案1 1 已采纳 2013-01-19 13:33:13

解决方案1
1 已采纳 2013-01-19 13:33:13