繁体   English   中英

在气密环境中安装nltk数据

[英]Install nltk data in airgapped environment

我想通过Pyspark将NLTK用于hadoop集群上的NLP任务。 我们使用Anaconda发行版。 群集处于空白环境中,因此我无法运行nltk.download()

我想我需要在可访问互联网的辅助计算机上下载数据。 我从哪里下载? 以及如何在hadoop集群上安装它? 我只复制文件吗? 还是nltk需要知道数据在哪里? 是否需要在所有节点上复制数据?

我从哪里下载?

您可以在计算机上执行nltk.download() ,数据将下载到文件夹nltk_data下的主目录中。

以及如何在hadoop集群上安装它? 我只复制文件吗? 还是nltk需要知道数据在哪里?

如果将nltk_data复制到执行进程的用户下的计算机上的home文件夹中,就足够了。 如果不可能,则可以使用NLTK_DATA环境变量来设置位置。 请参阅如何从代码配置nltk数据目录? 有关此的更多讨论

是否需要在所有节点上复制数据?

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM