[英]Keeping Turkish characters with the text mining package for R
首先,我要說我仍然是R的初學者。目前,我正在嘗試使用tm包嘗試土耳其文本的基本文本挖掘技術。 但是,我在R中顯示土耳其語字符時遇到了問題。
這是我所做的:
docs <- VCorpus(DirSource("DIRECTORY", encoding = "UTF-8"), readerControl = list(language = "tur"))
writeLines(as.character(docs), con="documents.txt")
我的想法是,將語言設置為土耳其語並將編碼設置為UTF-8(這是文本文件的原始編碼)應該可以顯示土耳其語字符İ,ı,ğ,Ğ,ş和characters。 取而代之的是,輸出將這些字符分別轉換為I,i,g,G,s和S,並將其保存到無法顯示這些字符的ANSI編碼中。
writeLines(as.character(docs), con="documents.txt", Encoding("UTF-8"))
也將不包含字符的文件保存為ANSI編碼。
這似乎不僅是輸出文件的問題。
writeLines(as.character(docs[[1]])
例如,產生的行應顯示為“ Okul ve camiaçılışlarıumutlarıartırdı”,但改為“ Okul ve camiaçilislariumutlari artirdi”
讀完以下內容: R中的UTF-8文件輸出后,我還嘗試了以下代碼:
writeLines(as.character(docs), con="documents.txt", Encoding("UTF-8"), useBytes=T)
並沒有改變結果。
所有這些都在Windows 7上,具有最新版本的R和RStudio。
有沒有辦法解決這個問題? 我可能缺少明顯的東西,但是任何幫助將不勝感激。
這是保持土耳其語字符完整的方法:
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.