Запитання з тегом «bigdata»

8
Найкращий спосіб видалити мільйони рядків за ідентифікатором
Мені потрібно видалити близько 2 мільйонів рядків зі своєї бази даних PG. У мене є список ідентифікаторів, які мені потрібно видалити. Однак будь-який спосіб, яким я намагаюся це зробити, займає дні. Я спробував помістити їх у таблицю і робити це партіями по 100. Через 4 дні це все ще працює, …

1
Написання понад 50 мільйонів від Pyspark df до PostgresSQL, найкращий ефективний підхід
Що було б найефективнішим способом вставити мільйони записів, скажімо, 50 мільйонів із фрейму даних Spark до таблиць Postgres. У минулому я це робив від іскри до MSSQL, використовуючи опцію масової копії та розміру партії, яка теж була успішною. Чи є щось подібне, що може бути тут для Postgres? Додавши код, …

4
Використання R для вирішення гри Lucky 26
Я намагаюся показати синові, як кодування можна використовувати для вирішення проблеми, поставленої грою, а також бачити, як R обробляє великі дані. Гра, про яку йдеться, називається "Lucky 26". У цій грі цифри (1-12 без дублікатів) розміщуються на 12 точках на зірці Девіда (6 вершин, 6 перетинів), а 6 рядків із …
15 r  bigdata  permutation 

1
Apache Spark: вплив переділу, сортування та кешування на з'єднання
Я вивчаю поведінку Спарка під час приєднання таблиці до себе. Я використовую Databricks. Мій фіктивний сценарій: Читання зовнішньої таблиці як фрейму A (основні файли у форматі delta) Визначте фрейм даних B як кадр даних A із вибраними лише певними стовпцями З'єднайте фрейми даних A і B у колонці1 та колонці2 …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.