У мене є кадри 10 даних pyspark.sql.dataframe.DataFrame
, отриманих від , randomSplit
як (td1, td2, td3, td4, td5, td6, td7, td8, td9, td10) = td.randomSplit([.1, .1, .1, .1, .1, .1, .1, .1, .1, .1], seed = 100)
зараз , я хочу приєднатися до 9 td
«S в один кадр даних, як я повинен робити це?
Я вже пробував unionAll
, але ця функція приймає лише два аргументи.
td1_2 = td1.unionAll(td2)
# this is working fine
td1_2_3 = td1.unionAll(td2, td3)
# error TypeError: unionAll() takes exactly 2 arguments (3 given)
Чи є якийсь спосіб поєднати більше двох кадрів даних по рядку?
Мета цього полягає в тому, що я роблю 10-кратну перехресну валідацію вручну, не використовуючи CrossValidator
метод PySpark , тому я беру 9 у тренінг і 1 - на тестові дані, а потім повторюю це для інших комбінацій.