Запитання з тегом «data-warehouse»

Система баз даних, оптимізована для звітності, особливо в сукупності. Часто, але не завжди реалізується за допомогою зіркової схеми.

5
Які існують способи впровадження відносин "багато на багато" у сховищі даних?
Домінуючі топології моделювання сховищ даних (Зірка, Сніжинка) розроблені з урахуванням взаємозв'язків один на багато. Читабельність, ефективність та структура запитів сильно погіршуються, стикаючись із взаємозв'язком багатьох до цих моделей. Які існують способи втілення взаємозв'язку між величинами або між таблицею фактів та розмірністю в сховищі даних та які компроміси вони можуть спричинити …

3
Які аргументи на користь використання процесу ELT над ETL?
Я зрозумів, що моя компанія використовує процес ELT (витяг-завантаження-перетворення) замість використання процесу ETL (витяг-перетворення-завантаження). У чому полягають відмінності двох підходів і в яких ситуаціях один був би "кращим", ніж інший? Було б чудово, якби ви могли навести кілька прикладів.

3
Кластеризовані індекси магазинного стовпця та зовнішні ключі
Я налаштування продуктивності сховища даних за допомогою індексів. Я досить новачок у SQL Server 2014.Microsoft описує наступне: "Ми розглядаємо кластерний індекс стовпців стовпців як стандарт для зберігання великих таблиць фактів зберігання даних, і очікуємо, що він буде використовуватися в більшості сценаріїв зберігання даних. Оскільки кластерний індекс зберігання стовпців є оновленим, …

1
Стратегії запитів із використанням тимчасових таблиць, розроблених системою SQL Server 2016, для повільно змінюваних розмірів
Використовуючи тимчасову таблицю з версією системи (нову в SQL Server 2016), які наслідки щодо створення запитів та продуктивності, коли ця функція використовується для обробки повільних змін розмірів у великому сховищі реляційних даних? Наприклад, припустимо, що у мене Customerрозмір 100000 рядків зі Postal Codeстовпцем та багатомільярдна Salesтаблиця фактів із CustomerIDстовпцем із …

2
Рішення з відкритим кодом Business Intelligence / DWH [закрито]
Зачинено. Це питання поза темою . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб це було темою для адміністраторів баз даних Stack Exchange. Закрито 5 років тому . Цікаво, що цього питання ще не задавали. Google має лише дуже мало результатів для мене, які не показують високоякісний …

3
Порівняйте дві подібні бази даних Postgres для відмінностей
Я час від часу завантажую загальнодоступні набори даних у вигляді постгресів. Ці набори даних оновлюються / змінюються / розширюються з часом хостом сховища. Чи існує команда або інструмент Postgres (в ідеалі FOSS), який може показати відмінності між СТАРОЮ та НОВОю базою даних Postgres? (Прийнятне припущення полягає в тому, що 95% …

2
Альтернатива EAV для динамічних полів у сховищі даних зіркової схеми
Мені потрібно підтримувати динамічні поля та значення у великому сховищі даних для зберігання журналу запитів API, мій випадок користувача полягає в тому, що мені потрібно зберігати всі рядки запитів API та вміти виконувати запити проти них у майбутньому (тому це не просто зберігання, тому я не можу використовувати blob для …

2
ETL: витяг з 200 таблиць - потік даних SSIS або користувацький T-SQL?
Виходячи з мого аналізу, повна мірна модель для нашого сховища даних вимагатиме вилучення з понад 200 таблиць-джерел. Деякі з цих таблиць будуть витягнуті як частина додаткового навантаження, а інші - повне навантаження. Зауважимо, у нас є близько 225 джерел баз даних, всі з тією ж схемою. З того, що я …

1
Чи слід відключити "статистику автоматичного оновлення" в сценарії зберігання даних?
У мене є сховище даних на 200 ГБ в SQL Server. Я переживаю дуже повільні терміни виконання деяких запитів; наприклад, 12 годин на простий deleteзапит із запитом inner join. Провівши кілька досліджень із планами виконання, я оновив статистику двох таблиць, що беруть участь у запиті, використовуючи WITH FULLSCANпараметр. Зараз запит …

2
Обробка часових поясів у марті / складі даних
Ми починаємо проектувати будівельні блоки марта / складу даних, і нам потрібно мати можливість підтримувати всі часові пояси (наші клієнти з усього світу). Починаючи з читання дискусій в Інтернеті (і в книгах), загальним рішенням, як видається, є окремий вимір дати та часу, а також часові позначки в таблицях фактів. Однак …

2
Чи категорично добре стиснення даних SQL Server для баз даних лише для читання?
Деяка література про стиснення даних SQL Server, яку я читаю, стверджує, що вартість запису збільшується приблизно в чотири рази, ніж зазвичай потрібно. Також, мабуть, мається на увазі, що це головний недолік стиснення даних, що сильно означає, що для архівної бази даних, доступної лише для читання, продуктивність (за кількома винятками) буде …

2
PostgreSQL для транзакцій з великим обсягом та для зберігання даних
Я зовсім новачок у PostgreSQL, я ніколи не робив великого розгортання, використовуючи його раніше. Але я маю хороший досвід у вирішенні корпоративних рішень і хочу спробувати застосувати частину того, що я навчився за допомогою PostgreSQL. У мене є розмір сайту для обробки великої кількості даних та трафіку. Інфраструктура буде побудована …

1
Обмежте ступінь паралелізму (DOP), доступний для будь-якого запиту
На Oracle Exadata (11gR2) ми маємо відносно непогану базу даних. cpu_count - 24 паралельний_сервер_речовини - 2 paral_threads_per_cpu дорівнює 2 Ми помітили, спостерігаючи в Oracle Enterprise Manager (OEM), що продуктивність була жахливою через запити, які виконуються послідовно. Щоб вирішити це, всі таблиці, матеріалізовані погляди та індекси були змінені, щоб скористатися паралелізмом. …

2
Дизайн сховища даних для звітування з даними для багатьох часових поясів
Ми намагаємось оптимізувати дизайн сховища даних, який підтримуватиме звітність проти даних для багатьох часових поясів. Наприклад, у нас може бути звіт про вартість активності за місяць (мільйони рядків), яка повинна відображати активність, згруповану за годиною дня. І звичайно, що година дня повинна бути "місцевою" годиною для даного часового поясу. У …

2
100 баз даних потенціалу TeraBytes - ресурси та часові оцінки
Я працюю над обчисленням "зворотного боку конверта" для налаштування бази даних звітів 100 ТБ. Я шукаю думки у експертів тут. Пропоноване середовище: Ємність для зберігання ~ 100 ТБ Столи ~ 200, розміри від 1 ГБ до 5 ТБ. середній розмір може лежати між 100GB-200GB ETL - завдання можуть вимагати з'єднання …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.