[英]Python: chardet.detect with a big binary object
我從網頁上得到了一些大文件。 它們是二進制的。 我需要掃描它們以檢測它們的編碼,因為 chardet.detect 讓我的腳本太慢了。 我想使用 readline 但我不能,因為我只有二進制文件。 可以在二進制對象上執行類似 readline 的操作嗎? ...
[英]Python: chardet.detect with a big binary object
我從網頁上得到了一些大文件。 它們是二進制的。 我需要掃描它們以檢測它們的編碼,因為 chardet.detect 讓我的腳本太慢了。 我想使用 readline 但我不能,因為我只有二進制文件。 可以在二進制對象上執行類似 readline 的操作嗎? ...
[英]chardet on simple UTF-16-LE text file
我嘗試使用 chardet package 檢測 Python 3 中簡單 UTF-16-LE 文本文件的編碼,使用以下代碼: rawdata (文件內容)如下: 上面代碼的結果如下: 為什么chardet 100% 確定文本文件是 ascii,而它顯然是 UTF-16? ...
[英]chardet.detect return empty language
我正在使用 chardet.detect 來檢測字符串的語言,就像這里建議的解決方案之一一樣我的代碼如下所示:import chardet print(chardet.detect('test'.encode())) print(chardet.detect('בדיקה'.encode())) ...
[英]Decode unknown string
我有一個數據源,我無法控制,並且發送具有不同編碼的字符串,我無法提前知道編碼! 我需要知道格式才能正確解碼並以我理解和控制的格式正確存儲,例如 UTF-8。 例如: “J'ai déjÃ\\xa0 unproblème, après... je ne sais pas” 應該讀 ...
[英]How to detect encoding of a file format
我在 s3 存儲桶中有文件,我正在將它們作為流讀取。 我想檢測不同文件的編碼。 我使用了 chardet 庫,出現此錯誤: 我的代碼是: 在打開文件之前是否還有其他方法可以檢測編碼 ...
[英]I use chardet to test encode , but i got error
類型錯誤:字節或字節數組類型的預期對象,得到:< class 'str'> 我只是輸入教程中的代碼。 我真的無法弄清楚發生了什么錯誤。 ...
[英]Python (pip) - RequestsDependencyWarning: urllib3 (1.9.1) or chardet (2.3.0) doesn't match a supported version
我找到了幾個關於這個問題的頁面,但沒有一個解決了我的問題。 即使我做了一個: 我得到: 我做了什么 : 但作為解釋,它給了我同樣的錯誤。 所以我做了 : 並解除他所有的依賴。 在我重新安裝它之后-> 相同:'( 我對python-pip做了同樣的事情。 重新安裝后 -&g ...
[英]Cannot uninstall chardet
我一直在嘗試使用pip卸載chardet,但是我收到以下錯誤: “無法卸載'chardet'。這是一個安裝了distutils的項目,因此我們無法准確確定哪些文件屬於它,這只會導致部分卸載。” 我的pip版本是10.0.0,python 2.7.14,Ubuntu 14.04。 ...
[英]Package is installed but not recognized
我試圖在Visual Studio 2017 15.6.2上的python中使用chardet包 即使安裝了chardet軟件包,也無法識別。 有什么可能是錯的嗎? 這是一個屏幕截圖 https://i.imgur.com/AFaiaH7.png 如果我嘗試運行,則 ...
[英]Using Chardet to find encoding of very large file
我正在嘗試使用Chardet以制表符分隔格式推斷出一個非常大的文件(> 400 萬行)的編碼。 目前,我的腳本可能由於文件的大小而掙扎。 我想將其縮小到加載文件的前 x 行,可能,但是當我嘗試使用readline()時遇到了困難。 目前的腳本是: 它有效,但它只讀取文件的第一行。 我嘗 ...
[英]UTF-8 encoded file is picked by chardetect as ASCII
我正在編寫一個包含文件夾中所有文件的文件,我希望文本文件采用UTF-8編碼,我的代碼如下 當我使用chardetect查找編碼時,它顯示為ASCII,置信度為1.0 請解決問題。 謝謝 ...
[英]Runtime Error when trying to launch Jupyter Notebook (Python)
在編程 Python 時,我通常使用 Jupyter Notebook 接口,但最近我通過 pip (Bioservices)安裝了 bioservices,當我嘗試打開 Jupyter Notebook 時,出現以下運行時錯誤: ~$ jupyter 筆記本 回溯(最近一次調用最后一次) ...
[英]Pandas cannot load data, csv encoding mystery
我正在嘗試將數據集加載到pandas中並且似乎無法通過步驟1.我是新的所以請原諒如果這很明顯,我已經搜索了以前的主題而沒有找到答案。 數據主要是中文字符,這可能是問題所在。 .csv非常大,可以在這里找到: http : //weiboscope.jmsc.hku.hk/datazip/ ...
[英]namelist() from ZipFile returns strings with an invalid encoding
問題是,對於一些上傳到python應用程序的檔案或文件, ZipFile的namelist()返回錯誤解碼的字符串。 如何修復該代碼,以便我總是解碼unicode中的文件名(所以支持Chineeze,俄語和其他語言)? 我已經看到了Python 2的一些示例,但由於字符串的性質在p ...
[英]Trying to guess the encoding of a file using chardet
我正在編寫一個適用於CSV文件的程序。 這些文件可以具有特定的編碼。 我正在嘗試合並一個過程來嘗試猜測用戶想要使用chardet打開的文件的編碼。 我正在嘗試使用以下代碼: 但我得到以下的例外: 我也嘗試過: 但得到: 這是我要打開的文件的一部分: ...
[英]Java chardet that detects iso-8859-2
是否有Java版本的python chardet可檢測iso-8859-2? 我嘗試了Mozilla Universalchardet和jchardet都沒有用,他們都猜到了Windows-1252,但是Linux附帶的python chardet很好地檢測到了它。 ...
[英]juniversalchardet is defective on www.wikipedia.org
我正在嘗試使用juniversalchardet自動檢測已保存網頁的編碼,我的第一個測試使用www.wikipedia.org,它根據HTTP響應標頭使用UTF-8編碼(此信息在保存到磁盤后會丟失) 這是我這樣做的scala代碼: 但是,無論我加載什么,字符集結果始終為“ null ...
[英]rchardet gem support for ISO-8859-1, and Windows-1252
我想知道rchardet是否支持ISO-8859-1和Windows-1252的編碼。 我已經看過文檔,但是沒有得到適當的信息。 ...
[英]In Python, how to begin with chardet module?
我想嘗試一些使用chardet模塊的代碼。 這是我在網上找到的代碼: 但是要嘗試這個代碼,我必須得到chardet模塊:但是,我有兩個選擇: https : //pypi.python.org/pypi/chardet#downloads chardet-2.2.1-py2. ...
[英]Error while parsing a page with BeautifulSoup4, Chardet and Python 3.3 in Windows
當我嘗試調用BeautifulSoup(page)時出現以下錯誤 我在Windows 7中運行Python 3.3,我通過下載.tar.gz從setup.py安裝了bs4。 我已經安裝了pip,然后通過執行pip.exe install chardet來安裝了chardet。 我的c ...