SparkSQL 中的引用“column_name”不明確

Question

我是 Spark 和 SQL 的新手。 我正在嘗試使用 Spark Scala 執行 sql 查詢。 這是 SQL 查詢：

SELECT 
        a.*
    FROM
    (   SELECT 
                a1.id_bu,
                a1.nama,
                a1.id_Bentuk_bu,
                a1.id_bentuk_usaha,
                a1.id_Jenis_bu,
                a1.id_Jenis_bu_kbli,
                a1.alamat,
                a1.kodepos,
                a1.telepon,
                a1.fax,
                a1.email,
                a1.website,
                a1.id_kabupaten,
                a1.id_propinsi,
                a1.npwp,
                a1.no_spt as modal_dasar,
                a1.log,
                a2.bu_nomor
            FROM 
                bu a1,
                bu_nomor a2
            where
                    a1.id_bu = a2.id_bu
                AND a1.id_propinsi = a2.id_propinsi 
    ) as a,
    
    ( SELECT 
            b.id_bu,
            b.id_sub_klasifikasi_kbli,
            b.kualifikasi_kbli,
            b.id_asosiasi_bu,
            b.propinsi,
            b.tgl_permohonan,
            c.tgl_habis
        FROM
            ( SELECT 
                    b1.id_bu,
                    b1.id_sub_klasifikasi_kbli,
                    b1.kualifikasi_kbli,
                    b1.id_asosiasi_bu,
                    b1.propinsi,
                    b1.tgl_permohonan
                FROM 
                    bu_registrasi_history_kbli b1
                WHERE 
                        b1.id_status = '4'
                    AND b1.tgl_proses < '2018-03-01' ) as b,
            ( SELECT 
                    c1.id_bu,
                    c1.id_klasifikasi,
                    c1.id_asosiasi_bu,
                    c1.tgl_habis
                FROM 
                    bu_sbu_kbli c1
                WHERE 
                    c1.tgl_habis >= '2018-03-01' ) as c
        WHERE 
                b.id_bu = c.id_bu
            AND SUBSTR( b.id_sub_klasifikasi_kbli, 1, 3) = c.id_klasifikasi
            AND b.id_asosiasi_bu = c.id_asosiasi_bu
    UNION all 
    SELECT 
            d.id_bu,
            d.id_sub_klasifikasi_kbli,
            d.kualifikasi_kbli,
            d.id_asosiasi_bu,
            d.propinsi,
            d.tgl_permohonan,
            e.tgl_habis
        FROM
            ( SELECT 
                    d1.id_bu,
                    d1.id_sub_klasifikasi_kbli,
                    d1.kualifikasi_kbli,
                    d1.id_asosiasi_bu,
                    d1.propinsi,
                    d1.tgl_permohonan
                FROM 
                    bu_registrasi_history_kbli_hapus d1
                WHERE 
                        d1.id_status='4'
                    AND d1.tgl_proses<'2018-03-01' ) as d,
            ( SELECT 
                    e1.id_bu,
                    e1.id_klasifikasi,
                    e1.id_asosiasi_bu,
                    e1.tgl_habis
                FROM 
                    bu_sbu_kbli_hapus e1
                WHERE
                    e1.tgl_habis >= '2018-03-01' ) as e
        WHERE 
                d.id_bu = e.id_bu
            AND SUBSTR( d.id_sub_klasifikasi_kbli, 1, 3) = e.id_klasifikasi
            AND d.id_asosiasi_bu = e.id_asosiasi_bu
        GROUP BY 
            id_bu,
            id_sub_klasifikasi_kbli
        ORDER BY 
            tgl_habis,
            tgl_permohonan DESC) x1
    WHERE 
        a.id_bu = x1.id_bu
    GROUP BY 
        x1.id_bu

我收到以下錯誤：

org.apache.spark.sql.AnalysisException: Reference 'id_bu' is ambiguous, could be: d.id_bu, e.id_bu.; line 81 pos 12
at org.apache.spark.sql.catalyst.plans.logical.LogicalPlan.resolve(LogicalPlan.scala:213)

我不確定錯誤是關於什么的？ 是關於兩列同名的嗎？ 如果我嘗試使用 d.id_bu 和 d.id_sub_klasifikasi_kbli ，如倒數第二個 GroupBy 中的錯誤所建議的那樣：

'd.`kualifikasi_kbli`' is neither present in the group by, nor is it an aggregate function. Add to group by or wrap in first() (or first_value) if you don't care which value you get.;;
Aggregate [id_bu#21], [id_bu#1, nama#2, id_Bentuk_bu#3, id_bentuk_usaha#4, id_Jenis_bu#5, id_Jenis_bu_kbli#6, alamat#7, kodepos#8, telepon#9, fax#10, email#11, website#12, id_kabupaten#13, id_propinsi#14, npwp#15, modal_dasar#0, log#17, bu_nomor#19]

知道我該如何解決這個問題嗎？ 謝謝！

Answer 1

您必須在 group by 子句中指定表

Answer 2

在完成您的查詢並重新格式化以提高可讀性並了解所有選擇子查詢和聯合中的內容后，我發現該錯誤是指（如上所述）GROUP BY CLAUSE，您將在其中加入“d”和“e”表。 由於兩者都有 id_bu，您只需要符合其中之一

d.id_bu

或者

e.id_bu

但因為這是 UNION SELECT ALL 的一部分，它也可能是您的“b”或“c”別名。

接下來是非聚合錯誤。 為了使用分組依據，您必須指定要分組的列。 在這種情況下，您按兩列分組，但您正在返回

d.id_bu,
d.id_sub_klasifikasi_kbli,
d.kualifikasi_kbli,
d.id_asosiasi_bu,
d.propinsi,
d.tgl_permohonan,
e.tgl_habis

因此，您需要確定如何將最小值、最大值、平均值或其他聚合應用於非組列。 如果剩余的 5 個可以更改，您是將它們分別設置為 MIN() 或 MAX() 以便它們返回，還是將它們全部添加到您的組中。

Answer 3

這實際上是一個基本的 SQL 錯誤，沒有特定於 Scala 或 Spark 的在此子句中

GROUP BY 
            id_bu

在這里，您必須指定要分組的子查詢的別名： group by d.id_bu或group by e.id_bu 。

SparkSQL 中的引用“column_name”不明確

問題描述

3 個解決方案

解決方案1
1 2020-11-11 15:36:01

解決方案2
1 2020-11-11 15:39:55

解決方案3
0 2020-11-11 15:41:50

SparkSQL 中的引用“column_name”不明確

問題描述

3 個解決方案

解決方案1 1 2020-11-11 15:36:01

解決方案2 1 2020-11-11 15:39:55

解決方案3 0 2020-11-11 15:41:50

解決方案1
1 2020-11-11 15:36:01

解決方案2
1 2020-11-11 15:39:55

解決方案3
0 2020-11-11 15:41:50