Медіани, способи, відсотки та OLAP


9

Я новачок намагаюся обернути голову навколо OLAP, і у мене є кілька питань.

  • Питання 1: Чи може в кубі OLAP зберігати медіани, режими, відсотки?
  • Запитання 2: Чи може написаний користувачем запит MDX повернути підсумок даних на рівні рядків? (наприклад:% транзакцій> 100 доларів США). Чи повинен дизайнер кубів додати це до куба?
  • Питання 3: Чи зараз якісь продукти OLAP надають механізми доступу до даних рівня рядків? Котрий?

Наш ІТ-відділ шукає зворотного зв’язку щодо проблем, які виникають у конкретного куба ROLAP MS Analsis Services. Ми не маємо доступу до реляційної бази даних за нею, і нам потрібно проводити обчислення, які в даний момент недоступні в якості куба.

Дозвольте мені побачити, чи маю я це право.

  1. Куб може надати статистику для підрахунків, засобів, пропорцій, стандартних відхилень.
  2. Якщо конкретна статистика не виконується в рамках заходів, передбачених дизайнером кубів, чи можемо ми написати запит MDX, щоб отримати її? Або їм потрібно змінити куб, щоб попередньо обчислити його з даних рівня рядків?
  3. Куб не може надати статистику, як медіани, режими або процентилі, оскільки ці статистичні дані не агрегуються належним чином.

Я читаю «Граматику графіки» Леланда Уілкінсона і в його главі про обмін даними та OLAP, він говорить

Ці [кубові операції] добре працюють із статистикою, як підрахунки, засоби, пропорції та стандартні відхилення. Прості агрегації за підкласами можна обчислити, оперуючи сумами, сумами квадратів та іншими термінами, об'єднаними в лінійні функції для отримання базової зведеної статистики.

Вони не працюють належним чином із такою статистикою, як медіана, мода та відсотки, тому що сукупність цих статистичних даних не є статистикою їх сукупностей. Наприклад, медіана медіан не є медіаною сукупності.

Він продовжує додавати:

Однак останнім часом з'явилася більш досконала модель ROLAP. Можна за допомогою декількох технологій надати статистичним алгоритмам доступ до необроблених даних через реляційну модель в режимі реального часу. Цей підхід є більш перспективним, ніж жорсткі агрегації, пропоновані такими структурами, як куби даних.

У найелегантнішій формі цієї архітектури програми можуть вимагати віддалених з'єднань для надання інформації про їхні способи обробки даних та вживати відповідних дій залежно від повернутої інформації. У такому вигляді архітектура компонентів може досягти реальної обіцянки розподілених обчислень: проектування та виконання, які не залежать від сайту, операційної системи чи мови.

Це було написано приблизно в 2005 році. Чи хтось знає про продукти, що використовують цю методологію, щоб забезпечити доступ до даних на рівні рядків?


1
Не приймають? Будь-які пропозиції щодо вдосконалення питання, щоб отримати відповідь?
Tommy O'Dell

Відповіді:


5

Щоб відповісти на ваші запитання:

  1. У кубі не зберігаються медіани, режими (або навіть середні показники), але ви можете писати запити, які їх обчислюють, і вбудовувати їх як обчислені міри в кубі. Можливість вбудувати цей вид обчислень є однією з головних унікальних точок продажу технології OLAP.
  2. Якщо у вас є параметр, який може ідентифікувати окремі рядки (який може бути виродженим або "фактором", отриманим з ідентифікатора таблиці фактів), ви можете зробити запит на основі окремих рядків. Однак OLAP працює за розмірами та сукупностями, тому вам потрібно мати розмірність, здатну ідентифікувати окремі рядки (із сукупністю, що складається з одного значення).
  3. Будь-який інструмент OLAP може виконувати те, що описано в (2), плюс вони, як правило, підтримують механізм, відомий як "просвердлювання", де куб повертає обриси даних транзакцій, що лежать в основі заданого фрагмента, в який ви просвердлите.

Якщо ви хочете робити обчислення, які безпосередньо недоступні в сценарії куба, багато інструментів OLAP, наприклад, пізня, оплачена ProClarity, дозволять вам сформулювати запити, що включають спеціальні обчислення на основі MDX. Якщо на кубі немає інформації, необхідної для здійснення фактичних обчислень, користувацькі обчислення MDX повинні мати можливість підтримувати будь-які необхідні обчислення.

Хоча OLAP-запити традиційно асоціюються зі статистичними запитами в сукупності, якщо у вас є параметр, який дозволяє деталізувати деталізацію, вам потрібно, то, безумовно, можна сформулювати запити, які будуть обчислювати медіани, відсотки або гістологічні запити, з яких режимів можна зробити висновок або обчислити.

Наприклад, у цьому прикладі є запит аналізу парето , який базується на рейтингуванні.

Багато куб-продуктів можуть працювати в гібридному або реляційному режимі OLAP, де вони не зберігають дані самі, а запитують їх з базової бази даних. Крім того, чисті інструменти ROLAP, такі як Business Objects, Builder звітів або Discoverer, можуть здійснювати запити з базової бази даних та робити роботу за рядком. Однак їм, як правило, не вистачає складності виділених продуктів OLAP, і вони не дуже сильно перешкоджають можливості статистичного аналізу.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.