簡體   English   中英

使用R的文本挖掘程序包保留土耳其語字符

[英]Keeping Turkish characters with the text mining package for R

首先,我要說我仍然是R的初學者。目前,我正在嘗試使用tm包嘗試土耳其文本的基本文本挖掘技術。 但是,我在R中顯示土耳其語字符時遇到了問題。

這是我所做的:

docs <- VCorpus(DirSource("DIRECTORY", encoding = "UTF-8"), readerControl = list(language = "tur"))
writeLines(as.character(docs), con="documents.txt")

我的想法是,將語言設置為土耳其語並將編碼設置為UTF-8(這是文本文件的原始編碼)應該可以顯示土耳其語字符İ,ı,ğ,Ğ,ş和characters。 取而代之的是,輸出將這些字符分別轉換為I,i,g,G,s和S,並將其保存到無法顯示這些字符的ANSI編碼中。

writeLines(as.character(docs), con="documents.txt", Encoding("UTF-8"))

也將不包含字符的文件保存為ANSI編碼。

這似乎不僅是輸出文件的問題。

writeLines(as.character(docs[[1]])

例如,產生的行應顯示為“ Okul ve camiaçılışlarıumutlarıartırdı”,但改為“ Okul ve camiaçilislariumutlari artirdi”

讀完以下內容: R中的UTF-8文件輸出后,我還嘗試了以下代碼:

writeLines(as.character(docs), con="documents.txt", Encoding("UTF-8"), useBytes=T)

並沒有改變結果。

所有這些都在Windows 7上,具有最新版本的R和RStudio。

有沒有辦法解決這個問題? 我可能缺少明顯的東西,但是任何幫助將不勝感激。

這是保持土耳其語字符完整的方法:

  1. 在RStudio中打開一個新的.Rmd文件。 (RStudio->文件->新文件-> R Markdown)
  2. 復制並粘貼包含土耳其語字符的文本。
  3. 使用編碼保存.Rmd文件。 (RStudio->文件-> 編碼保存 。-> UTF-8)
  4. yourdocument <-readLines(“ yourdocument.Rmd”, encoding =“ UTF-8”
  5. yourdocument <-paste(yourdocument,折疊=“”)
  6. 完成此步驟后,您可以創建您的語料庫
  7. 例如從tm包中的VectorSource()開始。
  8. 土耳其語字符將按原樣顯示。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM