cost 279 ms
Python:帶有大二進制對象的 chardet.detect

[英]Python: chardet.detect with a big binary object

我從網頁上得到了一些大文件。 它們是二進制的。 我需要掃描它們以檢測它們的編碼,因為 chardet.detect 讓我的腳本太慢了。 我想使用 readline 但我不能,因為我只有二進制文件。 可以在二進制對象上執行類似 readline 的操作嗎? ...

簡單的 UTF-16-LE 文本文件上的 chardet

[英]chardet on simple UTF-16-LE text file

我嘗試使用 chardet package 檢測 Python 3 中簡單 UTF-16-LE 文本文件的編碼,使用以下代碼: rawdata (文件內容)如下: 上面代碼的結果如下: 為什么chardet 100% 確定文本文件是 ascii,而它顯然是 UTF-16? ...

chardet.detect 返回空語言

[英]chardet.detect return empty language

我正在使用 chardet.detect 來檢測字符串的語言,就像這里建議的解決方案之一一樣我的代碼如下所示:import chardet print(chardet.detect('test'.encode())) print(chardet.detect('בדיקה'.encode())) ...

解碼未知字符串

[英]Decode unknown string

我有一個數據源,我無法控制,並且發送具有不同編碼的字符串,我無法提前知道編碼! 我需要知道格式才能正確解碼並以我理解和控制的格式正確存儲,例如 UTF-8。 例如: “J'ai déjÃ\\xa0 unproblème, après... je ne sais pas” 應該讀 ...

如何檢測文件格式的編碼

[英]How to detect encoding of a file format

我在 s3 存儲桶中有文件,我正在將它們作為流讀取。 我想檢測不同文件的編碼。 我使用了 chardet 庫,出現此錯誤: 我的代碼是: 在打開文件之前是否還有其他方法可以檢測編碼 ...

Python (pip) - RequestsDependencyWarning: urllib3 (1.9.1) 或 chardet (2.3.0) 與支持的版本不匹配

[英]Python (pip) - RequestsDependencyWarning: urllib3 (1.9.1) or chardet (2.3.0) doesn't match a supported version

我找到了幾個關於這個問題的頁面,但沒有一個解決了我的問題。 即使我做了一個: 我得到: 我做了什么 : 但作為解釋,它給了我同樣的錯誤。 所以我做了 : 並解除他所有的依賴。 在我重新安裝它之后-> 相同:'( 我對python-pip做了同樣的事情。 重新安裝后 -&g ...

無法卸載chardet

[英]Cannot uninstall chardet

我一直在嘗試使用pip卸載chardet,但是我收到以下錯誤: “無法卸載'chardet'。這是一個安裝了distutils的項目,因此我們無法准確確定哪些文件屬於它,這只會導致部分卸載。” 我的pip版本是10.0.0,python 2.7.14,Ubuntu 14.04。 ...

2018-04-19 08:11:46   1   8520    pip / chardet  
軟件包已安裝但無法識別

[英]Package is installed but not recognized

我試圖在Visual Studio 2017 15.6.2上的python中使用chardet包 即使安裝了chardet軟件包,也無法識別。 有什么可能是錯的嗎? 這是一個屏幕截圖 https://i.imgur.com/AFaiaH7.png 如果我嘗試運行,則 ...

使用 Chardet 查找超大文件的編碼

[英]Using Chardet to find encoding of very large file

我正在嘗試使用Chardet以制表符分隔格式推斷出一個非常大的文件(> 400 萬行)的編碼。 目前,我的腳本可能由於文件的大小而掙扎。 我想將其縮小到加載文件的前 x 行,可能,但是當我嘗試使用readline()時遇到了困難。 目前的腳本是: 它有效,但它只讀取文件的第一行。 我嘗 ...

chardetect將UTF-8編碼的文件選擇為ASCII

[英]UTF-8 encoded file is picked by chardetect as ASCII

我正在編寫一個包含文件夾中所有文件的文件,我希望文本文件采用UTF-8編碼,我的代碼如下 當我使用chardetect查找編碼時,它顯示為ASCII,置信度為1.0 請解決問題。 謝謝 ...

嘗試啟動 Jupyter Notebook (Python) 時出現運行時錯誤

[英]Runtime Error when trying to launch Jupyter Notebook (Python)

在編程 Python 時,我通常使用 Jupyter Notebook 接口,但最近我通過 pip (Bioservices)安裝了 bioservices,當我嘗試打開 Jupyter Notebook 時,出現以下運行時錯誤: ~$ jupyter 筆記本 回溯(最近一次調用最后一次) ...

熊貓無法加載​​數據,csv編碼之謎

[英]Pandas cannot load data, csv encoding mystery

我正在嘗試將數據集加載到pandas中並且似乎無法通過步驟1.我是新的所以請原諒如果這很明顯,我已經搜索了以前的主題而沒有找到答案。 數據主要是中文字符,這可能是問題所在。 .csv非常大,可以在這里找到: http : //weiboscope.jmsc.hku.hk/datazip/ ...

ZipFile中的namelist()返回帶有無效編碼的字符串

[英]namelist() from ZipFile returns strings with an invalid encoding

問題是,對於一些上傳到python應用程序的檔案或文件, ZipFile的namelist()返回錯誤解碼的字符串。 如何修復該代碼,以便我總是解碼unicode中的文件名(所以支持Chineeze,俄語和其他語言)? 我已經看到了Python 2的一些示例,但由於字符串的性質在p ...

嘗試使用chardet猜測文件的編碼

[英]Trying to guess the encoding of a file using chardet

我正在編寫一個適用於CSV文件的程序。 這些文件可以具有特定的編碼。 我正在嘗試合並一個過程來嘗試猜測用戶想要使用chardet打開的文件的編碼。 我正在嘗試使用以下代碼: 但我得到以下的例外: 我也嘗試過: 但得到: 這是我要打開的文件的一部分: ...

檢測iso-8859-2的Java chardet

[英]Java chardet that detects iso-8859-2

是否有Java版本的python chardet可檢測iso-8859-2? 我嘗試了Mozilla Universalchardet和jchardet都沒有用,他們都猜到了Windows-1252,但是Linux附帶的python chardet很好地檢測到了它。 ...

juniversalchardet在www.wikipedia.org上有缺陷

[英]juniversalchardet is defective on www.wikipedia.org

我正在嘗試使用juniversalchardet自動檢測已保存網頁的編碼,我的第一個測試使用www.wikipedia.org,它根據HTTP響應標頭使用UTF-8編碼(此信息在保存到磁盤后會丟失) 這是我這樣做的scala代碼: 但是,無論我加載什么,字符集結果始終為“ null ...

在Windows中使用BeautifulSoup4,Chardet和Python 3.3解析頁面時出錯

[英]Error while parsing a page with BeautifulSoup4, Chardet and Python 3.3 in Windows

當我嘗試調用BeautifulSoup(page)時出現以下錯誤 我在Windows 7中運行Python 3.3,我通過下載.tar.gz從setup.py安裝了bs4。 我已經安裝了pip,然后通過執行pip.exe install chardet來安裝了chardet。 我的c ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM