我是 Pyspark 的初学者,我正在尝试将成批的流式 JSON 字符串预处理为可以输入机器学习模型的格式,唯一的限制是模型必须逐步学习,因为无法存储流式数据. 以下是我目前进展的解释: 我有 twitter-sentiment 数据集,我已将其清理并作为 .csv 文件存储在我的本地系统中。 每 ...
提示:本站收集StackOverFlow近2千万问答,支持中英文搜索,鼠标放在语句上弹窗显示对应的参考中文或英文, 本站还提供 中文繁体 英文版本 中英对照 版本,有任何建议请联系yoyou2525@163.com。
我正在编写一个带有一组函数的软件包,这些函数采用适合模型的对象(例如,来自“ lmt”,“ lavaan”或“ mirt”软件包的输出),并根据这些模型计算相关的索引。
此套件中每个函数的第一件事就是将输入转换为标准化形式,因此我所有的函数如下所示:
fooIndex <- function(x) {
x <- standardizerFunction(x)
# Now, compute the fooIndex
}
在这里,standardizerFunction是S3泛型函数,具有用于所有受支持输入类的方法。
有比在每个计算索引的函数内部调用standardizerFunction更好的方法来实现此功能吗?
编辑:我只是想指定我的“问题”是将同一行代码复制并粘贴到大约20个不同的函数中,这看起来像是一种不良的编程风格,我希望有一个更好的解决方案。
根据iod和Gregor编写的内容,两种解决方法是:
(1)要求用户在运行任何主要功能之前应用standardizerFunction。 如果输入的类错误,则函数将引发错误。
(2)由于我们的函数将一直检查输入以确保它是正确的类,因此只需使用以下方法将standardizerFunction折叠到输入检查部分:
if(!inherits(x, what="YourClass")) standardizerFunction(x)
在我的特定设置中,由于我的大多数用户对R都不满意,因此要求他们预先应用standardizerFunction不是最佳选择,因此我将选择选项2。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.