仅选择低于特定阈值的值

Question

说我有很多值：（左列只是值计数：1、2、3等；右边是实际值）

我想做的是将值从减小到增大（从上到下）重新排序，然后我想让python遍历这些值并继续选择这些值（以后用作输出），直到遇到一个等于或高于某个阈值的值。 例如：

说，我的阈值是5.0，所以在这里我希望程序放弃1和4（高值），并给出5、2和3及其对应的值作为输出。 我希望这是有道理的。 同样，如果（出于某种原因）我的阈值仅允许2个值，我想让它忽略所有内容并给出类似“未找到值”的信息，这也是一个棘手的技巧。

他们将要从中找到它们的文件（值和计数）大致如下所示：

  ID  some: value  another: value another: value another: value another: value another: value 1: 5.2

等等，每个上述值对应文件中的新行。 因此，我感兴趣的东西分别位于第x行第14列和第15列。

实际的行如下所示：

Mod# 2 11494    Chi^2:  1.19608371367   Scale:  0.567691651772  Tin:    1499    Teff:   3400    Luminosity:     568.0   L   M-dot: 4.3497e-08   Tau: 2.44E-01   Dust composition: Fe    IRx1:   0.540471121182

我对IRx1及其后的值感兴趣。

Answer 1

假设文件每行有一个数字：

threshold = 5
with open('path/to/file') as infile:
    numbers = [float(line.strip()) for line in infile]
numbers.sort(reverse=True)
bigger = list(itertools.takewhile(lambda n: n<threshold, numbers))

如果您的文件如下所示：

并且您希望将输出set([2,3,5]) ，然后：

with open('path/to/file') as infile:
    numbers = dict([float(i) for i in line.strip()] for line in infile)
lines = sorted(numbers, key=numbers.__getitem__, reverse=True)
answer = list(itertools.takewhile(lambda n: numbers[n]<threshold, lines))

给定一个看起来像这样的文件：

Mod# 2 11494    Chi^2:  1.19608371367   Scale:  0.567691651772  Tin:    1499    Teff:   3400    Luminosity:     568.0   L   M-dot: 4.3497e-08   Tau: 2.44E-01   Dust composition: Fe    IRx1:   0.540471121182

如果有一个制表符（ \\t ）分隔11494和Chi^2 ，则以下脚本应该起作用：

def takeUntil(fpath, colname, threshold):
    lines = []
    with open(fpath) as infile:
        for line in infile:
            ldict = {}
            firsts = line.split('\t', 2)
            ldict[firsts[0] = float(firsts[1])
            splits = firsts[2].split('\t')
            ldict.update(dict(zip(firsts, itertools.islice(firsts, 1, len(firsts)))))
            lines.append(ldict)
    lines.sort(reverse=True, key=operator.itemgetter(colname))
    return [row['Mod#'] for row in itertools.takewhile(lambda row: row[colname]<threshold, lines)]

使用该功能，您应该能够指定要检查的列值是否在阈值以下。 尽管此算法确实具有较高的空间复杂度（使用的RAM超出绝对必要的数量），但是您应该能够在读取文件后编组/戳lines ，然后从那里继续进行后续运行。 如果您有一个庞大的输入文件需要花费一些时间来处理（我怀疑您可能已经拥有），则此功能特别有用

Answer 2

以下解决方案假定将数据作为元组列表读入。

例如：

[(1,5.2),
(2,1.43),
(3,3.54),
(4,887),
(5,0.35)]

将是问题中示例数据的列表。

def cutoff(threshold, data):
    sortedData = sorted(data, key=lambda x: x[1])
    finalList = filter(lambda x: x[1] < threshold, sortedData)
    return finalList if len(finalList) > 2 else 'No values found'

函数的第一行按元组第二个位置的值对列表进行排序。

然后，函数的第二行将过滤结果列表，以便仅保留值低于阈值的元素。

如果它包含两个以上元素，则第三行返回结果排序列表，否则返回“找不到值”，这应该可以完成您要尝试的操作，但要减少文件输入。

仅选择低于特定阈值的值

问题描述

2 个解决方案

解决方案1
3 2013-07-10 03:22:14

解决方案2
3 已采纳 2013-07-10 03:28:05

仅选择低于特定阈值的值

问题描述

2 个解决方案

解决方案1 3 2013-07-10 03:22:14

解决方案2 3 已采纳 2013-07-10 03:28:05

解决方案1
3 2013-07-10 03:22:14

解决方案2
3 已采纳 2013-07-10 03:28:05