![](/img/trans.png)
[英]How to delete rows of pyspark dataframe where any column has value less that 1%le or more than 99%le?
[英]Display rows where any value in a particular column occurs more than once
我想顯示列中任何值的所有行 - “網站”不止一次出現。 例如 - 如果某個網站“xyz.com”出現不止一次,那么我想顯示所有這些行。 我使用以下代碼 -
df[df.website.isin(df.groupby('website').website.count() > 1)]
上面的代碼返回零行。 但我實際上可以看到有這么多網站通過運行以下代碼不止一次出現 -
df.website.value_counts()
我應該如何修改我的第一行代碼以顯示所有這些行?
使用duplicated
with subset='website'
並keep=False
:
df[df.duplicated(subset='website', keep=False)]
樣本輸入:
col1 website
0 A abc.com
1 B abc.com
2 C abc.com
3 D abc.net
4 E xyz.com
5 F foo.bar
6 G xyz.com
7 H foo.baz
樣本輸出:
col1 website
0 A abc.com
1 B abc.com
2 C abc.com
4 E xyz.com
6 G xyz.com
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.