По-перше, деякі застереження
Я не впевнений, чому ви не можете використовувати вподобану парадигму програмування (під) *, індуктивне логічне програмування (ILP) або що ви намагаєтеся класифікувати. Надання більш детальної інформації, ймовірно, призведе до набагато кращої відповіді; Тим більше, що підходити до вибору алгоритмів класифікації на основі парадигми програмування, з якою вони пов'язані, є дещо незвичним. Якщо ваш приклад у реальному світі є конфіденційним, просто складіть вигаданий, але аналогічний приклад.
Класифікація великих даних без ІЛП
Сказавши, що, виключаючи ILP, у нашому розгляді встановлено 4 інші парадигми логічного програмування:
- Викрадення
- Набір відповідей
- Обмеження
- Функціональний
крім десятків парадигм та підпарадигм поза логічним програмуванням.
В функціональної логіки програмування , наприклад , існує розширення НРПА називається індуктивної Функціональна логіка програмування , яка заснована на інверсію звуження (тобто інверсії механізму звуження). Цей підхід долає кілька обмежень ILP і (на думку деяких науковців, принаймні ) є настільки ж придатним для застосування з точки зору представництва і має перевагу, що дозволяє виразити проблеми більш природним чином.
Не знаючи більше про специфіку вашої бази даних та бар'єри, з якими ви стикаєтесь у використанні ILP, я не можу знати, чи вирішує це ваша проблема чи страждає від тих самих проблем. Як такий я також викину зовсім інший підхід.
ILP контрастує з "класичними" або "пропозиційними" підходами до пошуку даних . Ці підходи включають м'ясо та кістки Машинного навчання, як дерева рішень, нейронні мережі, регресія, розфасування та інші статистичні методи. Замість того, щоб відмовлятися від цих підходів через розмір ваших даних, ви можете приєднатись до лав багатьох науковців даних, великих інженерів даних та статистиків, які використовують високоефективні обчислення (HPC) для використання цих методів у масивних наборах даних (є також вибірки та інші статистичні методи, які ви можете використовувати для зменшення обчислювальних ресурсів та часу, необхідного для аналізу великих даних у вашій реляційній базі даних).
HPC включає такі речі, як використання декількох ядер процесора, масштабування вашого аналізу за рахунок еластичного використання серверів з високою пам’яттю та великою кількістю швидких ядер процесора, використання високоефективних пристроїв зберігання даних, використання кластерів або інших форм паралельних обчислень тощо. я не впевнений, якою мовою чи статистичним набором ви аналізуєте свої дані, але, як приклад, цей перегляд завдань CRAN перелічує багато ресурсів HPC для мови R, що дозволить вам розширити алгоритм пропозиції.