使用R的文本挖掘程序包保留土耳其語字符

Question

首先，我要說我仍然是R的初學者。目前，我正在嘗試使用tm包嘗試土耳其文本的基本文本挖掘技術。 但是，我在R中顯示土耳其語字符時遇到了問題。

這是我所做的：

docs <- VCorpus(DirSource("DIRECTORY", encoding = "UTF-8"), readerControl = list(language = "tur"))
writeLines(as.character(docs), con="documents.txt")

我的想法是，將語言設置為土耳其語並將編碼設置為UTF-8（這是文本文件的原始編碼）應該可以顯示土耳其語字符İ，ı，ğ，Ğ，ş和characters。 取而代之的是，輸出將這些字符分別轉換為I，i，g，G，s和S，並將其保存到無法顯示這些字符的ANSI編碼中。

writeLines(as.character(docs), con="documents.txt", Encoding("UTF-8"))

也將不包含字符的文件保存為ANSI編碼。

這似乎不僅是輸出文件的問題。

writeLines(as.character(docs[[1]])

例如，產生的行應顯示為“ Okul ve camiaçılışlarıumutlarıartırdı”，但改為“ Okul ve camiaçilislariumutlari artirdi”

讀完以下內容： R中的UTF-8文件輸出后，我還嘗試了以下代碼：

writeLines(as.character(docs), con="documents.txt", Encoding("UTF-8"), useBytes=T)

並沒有改變結果。

所有這些都在Windows 7上，具有最新版本的R和RStudio。

有沒有辦法解決這個問題？ 我可能缺少明顯的東西，但是任何幫助將不勝感激。

Answer 1

這是保持土耳其語字符完整的方法：

在RStudio中打開一個新的.Rmd文件。 （RStudio->文件->新文件-> R Markdown）
復制並粘貼包含土耳其語字符的文本。
使用編碼保存.Rmd文件。 （RStudio->文件-> 編碼保存 。-> UTF-8）
yourdocument <-readLines（“ yourdocument.Rmd”， encoding =“ UTF-8” ）
yourdocument <-paste（yourdocument，折疊=“”）
完成此步驟后，您可以創建您的語料庫
例如從tm包中的VectorSource（）開始。
土耳其語字符將按原樣顯示。

使用R的文本挖掘程序包保留土耳其語字符

問題描述

1 個解決方案

解決方案1
0 2019-09-06 13:45:41

使用R的文本挖掘程序包保留土耳其語字符

問題描述

1 個解決方案

解決方案1 0 2019-09-06 13:45:41

解決方案1
0 2019-09-06 13:45:41