Розглянемо 2 фрейми даних:
>>> aDF.show()
+---+----+
| id|datA|
+---+----+
| 1| a1|
| 2| a2|
| 3| a3|
+---+----+
і
>>> bDF.show()
+---+----+
| id|datB|
+---+----+
| 2| b2|
| 3| b3|
| 4| b4|
+---+----+
Щоб досягти того, що ви шукаєте, є два способи:
1. Різні умови приєднання. Замість того, щоб говорити aDF.id == bDF.id
aDF.join(bDF, aDF.id == bDF.id, "outer")
Напишіть це:
aDF.join(bDF, "id", "outer").show()
+---+----+----+
| id|datA|datB|
+---+----+----+
| 1| a1|null|
| 3| a3| b3|
| 2| a2| b2|
| 4|null| b4|
+---+----+----+
Це автоматично позбавить зайвого процесу скидання.
2. Використовуйте псевдонім: Ви втратите дані, пов’язані з конкретними ідентифікаторами B у цьому.
>>> from pyspark.sql.functions import col
>>> aDF.alias("a").join(bDF.alias("b"), aDF.id == bDF.id, "outer").drop(col("b.id")).show()
+----+----+----+
| id|datA|datB|
+----+----+----+
| 1| a1|null|
| 3| a3| b3|
| 2| a2| b2|
|null|null| b4|
+----+----+----+
ndf = df.drop('age')