[英]Right format of Timestamp for filtering pyspark dataframe for Cassandra
我在 Cassandra 中将时间戳存储为 YYYY-mm-dd HH:MM:SSZ,并且我能够过滤数据以在 cql shell 中获得一定的时间范围,但是当我在 pyspark 数据帧上尝试相同的操作时,我不这样做'在过滤后的数据框中没有得到任何值。
谁能帮我在 pyspark 中找到正确的日期时间格式?
谢谢你。
这种时间戳格式工作得很好。 我认为您的 Spark SQL 类型有问题,因此您可能需要对时间戳字符串执行显式转换,以便 Spark 可以执行正确的比较。
例如,此 Scala 代码可以正常工作(您可能需要将其调整为 Python):
import org.apache.spark.sql.cassandra._
val data = spark.read.cassandraFormat("sdtest", "test").load()
val filtered = data.filter("ts >= cast('2019-07-17 14:41:34.373Z' as timestamp) AND ts <= cast('2019-07-19 19:01:56Z' as timestamp)")
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.