Реляційний обмін даними без ІЛП


9

У мене є величезний набір даних з реляційної бази даних, для чого мені потрібно створити модель класифікації. Зазвичай у цій ситуації я б використовував індуктивне логічне програмування (ILP), але через особливі обставини цього не можу.

Іншим способом вирішити це було б просто спробувати узагальнити значення, коли у мене є зовнішні стосунки. Однак у мене є тисячі важливих і чітких рядків для деяких номінальних ознак (наприклад: Пацієнт, який має відношення до декількох чітких рецептурних препаратів). Отже, я просто не можу цього зробити без створення нового атрибута для кожного окремого рядка цього номінального атрибута, і, крім того, більшість нових стовпців матимуть значення NULL, якщо я це роблю.

Чи існує який-небудь алгоритм, що не стосується ILP, який дозволяє мені передавати дані реляційних баз даних, не вдаючись до таких методів, як поворот, який створив би тисячі нових стовпців?


2
А як щодо правил видобутку? Мені незрозуміло, яка ваша мета.
adesantos

Хоча добре запитання, я помічаю, що він з’являється на декількох форумах Stack Exchange ... stackoverflow.com/questions/24260299/… ; Не те, що я є прихильником такого подібного, але я думаю, що ми цього не повинні робити
Hack-R

Крім того, було б дуже корисно, якби ви могли бути трохи більш конкретними щодо того, що ви класифікуєте, бар'єр, з яким ви стикаєтесь, і в ідеальному світі надаєте нам деякі зразкові дані, які слід подивитися
Hack-R

Відповіді:


1

По-перше, деякі застереження

Я не впевнений, чому ви не можете використовувати вподобану парадигму програмування (під) *, індуктивне логічне програмування (ILP) або що ви намагаєтеся класифікувати. Надання більш детальної інформації, ймовірно, призведе до набагато кращої відповіді; Тим більше, що підходити до вибору алгоритмів класифікації на основі парадигми програмування, з якою вони пов'язані, є дещо незвичним. Якщо ваш приклад у реальному світі є конфіденційним, просто складіть вигаданий, але аналогічний приклад.

Класифікація великих даних без ІЛП

Сказавши, що, виключаючи ILP, у нашому розгляді встановлено 4 інші парадигми логічного програмування:

  1. Викрадення
  2. Набір відповідей
  3. Обмеження
  4. Функціональний

крім десятків парадигм та підпарадигм поза логічним програмуванням.

В функціональної логіки програмування , наприклад , існує розширення НРПА називається індуктивної Функціональна логіка програмування , яка заснована на інверсію звуження (тобто інверсії механізму звуження). Цей підхід долає кілька обмежень ILP і (на думку деяких науковців, принаймні ) є настільки ж придатним для застосування з точки зору представництва і має перевагу, що дозволяє виразити проблеми більш природним чином.

Не знаючи більше про специфіку вашої бази даних та бар'єри, з якими ви стикаєтесь у використанні ILP, я не можу знати, чи вирішує це ваша проблема чи страждає від тих самих проблем. Як такий я також викину зовсім інший підхід.

ILP контрастує з "класичними" або "пропозиційними" підходами до пошуку даних . Ці підходи включають м'ясо та кістки Машинного навчання, як дерева рішень, нейронні мережі, регресія, розфасування та інші статистичні методи. Замість того, щоб відмовлятися від цих підходів через розмір ваших даних, ви можете приєднатись до лав багатьох науковців даних, великих інженерів даних та статистиків, які використовують високоефективні обчислення (HPC) для використання цих методів у масивних наборах даних (є також вибірки та інші статистичні методи, які ви можете використовувати для зменшення обчислювальних ресурсів та часу, необхідного для аналізу великих даних у вашій реляційній базі даних).

HPC включає такі речі, як використання декількох ядер процесора, масштабування вашого аналізу за рахунок еластичного використання серверів з високою пам’яттю та великою кількістю швидких ядер процесора, використання високоефективних пристроїв зберігання даних, використання кластерів або інших форм паралельних обчислень тощо. я не впевнений, якою мовою чи статистичним набором ви аналізуєте свої дані, але, як приклад, цей перегляд завдань CRAN перелічує багато ресурсів HPC для мови R, що дозволить вам розширити алгоритм пропозиції.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.