從字符串中提取特定范圍內的unicode字符

Question

我有一個帶有很多垃圾字符的文本文件。

https://raw.githubusercontent.com/shantanuo/marathi_spell_check/master/dicts/sample.txt

我只需要保留天神角色。 預期的干凈輸出看起來像這樣...

भूमी
भूमी
भूमीला
भैय्यासाहेब
भैरवनाथ
भैरवी
भैरव
गावापासून
गा

按照此頁面，我需要提取U + 090到U + 097的Unicode范圍之間的所有字符https://en.wikipedia.org/wiki/Devanagari_(Unicode_block）

我嘗試了這段代碼，但是返回了一些外來字符。

def remove_junk(word):
    mylist=list()
    for i in word:
        if b'9' in (i.encode('ascii', 'backslashreplace')):
            mylist.append(i)
    return (''.join(mylist))

with open('sample2a.txt', 'w') as nf:
    with open('sample.txt') as f:
        for i in f:
            nf.write(remove_junk(i) + '\n')

Answer 1

您可以使用正則表達式刪除不在Unicode范圍U + 0900-U + 097F內的所有字符。

import re

p = re.compile(r'[^\u0900-\u097F\n]')   # preserve the trailing newline
with open('sample.txt') as f, open('sample2a.txt', 'w') as nf:
    for line in f:
        cleaned = p.sub('', line)
        if cleaned.strip():
            nf.write(cleaned)

最少的代碼樣本

import re

text = '''
‘भूमी
‘भूमी’
‘भूमी’ला
‘भैय्यासाहेब
‘भैरवनाथ
‘भैरवी
‘भैरव’
ﻇﻬﻴﺮ
（ページを閲覧しているビジターの使用言語）。
（缺少文字）
गावापासून
गा
'''

p = re.compile(r'[^\u0900-\u097F\n]')
for line in text.splitlines():
    cleaned = p.sub('', line)
    if cleaned.strip():
        print(cleaned)

# भूमी
# भूमी
# भूमीला
# भैय्यासाहेब
# भैरवनाथ
# भैरवी
# भैरव
# गावापासून 
# गा

Answer 2

我不了解Python，但是我想可以像在JavaScript中一樣在正則表達式中使用Unicode屬性，因此可以使用Devanagari腳本屬性以某種方式修改以下腳本：

var text =
`‘भूमी
‘भूमी’
‘भूमी’ला
‘भैय्यासाहेब
‘भैरवनाथ
‘भैरवी
‘भैरव’
ﻇﻬﻴﺮ
（ページを閲覧しているビジターの使用言語）。
（缺少文字）
गावापासून
�गा`;
console.log (text.replace (/[^\r\n\p{Script=Devanagari}]/gu, ""));

產生：

भूमी
भूमी
भूमीला
भैय्यासाहेब
भैरवनाथ
भैरवी
भैरव



गावापासून
गा

從字符串中提取特定范圍內的unicode字符

問題描述

2 個解決方案

解決方案1
3 已采納 2019-06-22 05:42:42

解決方案2
2 2019-06-22 08:10:24

從字符串中提取特定范圍內的unicode字符

問題描述

2 個解決方案

解決方案1 3 已采納 2019-06-22 05:42:42

解決方案2 2 2019-06-22 08:10:24

解決方案1
3 已采納 2019-06-22 05:42:42

解決方案2
2 2019-06-22 08:10:24