Запитання з тегом «rdd»


13
Іскра - переділ () проти злиття ()
За даними Learning Spark Майте на увазі, що перерозподіл даних - це досить дорога операція. Spark також має оптимізовану версію repartition()виклику, coalesce()яка дозволяє уникнути руху даних, але лише якщо ви зменшуєте кількість розділів RDD. Одна з різниць, які я отримую, полягає в тому, що з repartition()кількістю розділів можна збільшувати / …


2
Іскрові показники для Scala vs Python
Я віддаю перевагу Python над Scala. Але, оскільки Spark споконвічно написаний у Scala, я очікував, що мій код запуститься швидше у Scala, ніж версія Python з зрозумілих причин. З цим припущенням я думав вивчити та написати версію Scala деякого дуже поширеного коду попередньої обробки для приблизно 1 ГБ даних. Дані …

5
(Чому) нам потрібно викликати кеш або зберігати RDD
Коли еластичний розподілений набір даних (RDD) створюється з текстового файлу чи колекції (або з іншого RDD), чи потрібно явно викликати "кеш" або "зберігати", щоб зберігати дані RDD у пам'яті? Або дані RDD зберігаються розподіленим чином у пам'яті за замовчуванням? val textFile = sc.textFile("/user/emp.txt") Як я розумію, після вищевказаного кроку textFile …
171 scala  apache-spark  rdd 

11
Як перетворити RDD-об'єкт в кадр даних в іскрі
Як я можу перетворити RDD ( org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) у кадр даних org.apache.spark.sql.DataFrame. Я перетворив фрейм даних в rdd за допомогою .rdd. Після обробки я повертаю його назад у фрейм даних. Як я можу це зробити?

3
Apache Spark: карта проти картиПаделі?
Яка різниця між RDD map та mapPartitionsметодом? А чи flatMapповодиться так mapчи як mapPartitions? Дякую. (редагувати), тобто яка різниця (семантично чи з точки зору виконання) між def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = { rdd.mapPartitions({ iter: Iterator[A] => for (i <- iter) …


3
Як працює HashPartitioner?
Я прочитав документацію HashPartitioner. На жаль, нічого особливо не було пояснено, окрім викликів API. Я припускаю, що HashPartitionerрозділяє розподілений набір на основі хешу ключів. Наприклад, якщо мої дані схожі (1,1), (1,2), (1,3), (2,1), (2,2), (2,3) Отже, секціонер розміщував би це в різних розділах з однаковими клавішами, що потрапляли в один …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.