如何根據單詞列表標記字符串

Question

我想根據 Python 3.6 中的已知單詞列表將變量名稱轉換為業務友好名稱。

我的已知單詞列表如下所示，即第一個元素是已知單詞，第二個元素是它的友好名稱：

Acct,Account
Account,Account
Num,Number
Number,Number
Payee,Payee
Pymt,Payment
Type,Type

我的變量如下所示：

ACCOUNTNUM
ACCT_NUM
ACCTNUM
PAYEETYPE
PAYEE_TYP
PYMT_DT

我希望上述變量列表的輸出是這樣的：

Account Number
Account Number
Account Number
Payee Type
Payee Typ
Payment Dt

我怎樣才能做到這一點？ 要轉換的變量名列表大約有 10,000 個。 已知單詞列表是 400,000。 兩者都在文件中可用。

Answer 1

您可以創建已知單詞的翻譯映射，然后使用re.split將變量名稱與已知單詞分開，用映射單詞替換匹配項，並使用另一個正則表達式替換合並空格：

import re
known_words = '''Acct,Account
Account,Account
Num,Number
Number,Number
Payee,Payee
Pymt,Payment
Type,Type'''
variables = '''ACCOUNTNUM
ACCT_NUM
ACCTNUM
PAYEETYPE
PAYEE_TYP
PYMT_DT'''
m = {k.upper(): v for line in known_words.splitlines() for k, v in (line.split(','),)}
print([re.sub(' +', ' ', ' '.join(m.get(t, t).replace('_', '').title() for t in re.split('(%s)' % '|'.join(map(re.escape, m)), v, flags=re.IGNORECASE) if t)) for v in variables.splitlines()])

這輸出：

['Account Number', 'Account Number', 'Account Number', 'Payee Type', 'Payee Typ', 'Payment Dt']

如何根據單詞列表標記字符串

問題描述

1 個解決方案

解決方案1
1 已采納 2018-10-30 18:38:11

如何根據單詞列表標記字符串

問題描述

1 個解決方案

解決方案1 1 已采納 2018-10-30 18:38:11

解決方案1
1 已采納 2018-10-30 18:38:11