Запитання з тегом «data-mining»

Для обміну даними використовуються методи штучного інтелекту в контексті бази даних для виявлення раніше невідомих закономірностей. Як такі, методи, як правило, не контролюються. Це тісно пов'язане, але не тотожне машинному навчанню. Основними завданнями вибору даних є кластерний аналіз, зовнішнє виявлення та розробка правил асоціації.

5
Як зрозуміти недоліки К-засобів
K-засоби - це широко застосовуваний метод кластерного аналізу. Наскільки я розумію, цей метод НЕ вимагає жодних припущень, тобто дайте мені набір даних та заздалегідь задане число кластерів, k, і я просто застосую цей алгоритм, який мінімізує суму помилок у квадраті (SSE), кластер всередині кластеру помилка. Тож k-засоби є по суті …

12
Яка різниця між обробкою даних, статистикою, машинним навчанням та ШІ?
Яка різниця між обробкою даних, статистикою, машинним навчанням та ШІ? Чи було б точно сказати, що це 4 поля, які намагаються вирішити дуже схожі проблеми, але з різними підходами? Що саме вони мають спільне і чим вони відрізняються? Якщо між ними існує якась ієрархія, що це було б? Подібні запитання …

4
Копена Коена на звичайній англійській мові
Я читаю книгу обміну даними, і в ній згадується статистика Kappa як засіб для оцінки ефективності прогнозування класифікаторів. Однак я просто не можу цього зрозуміти. Я також перевірив Вікіпедію, але це теж не допомогло: https://en.wikipedia.org/wiki/Cohen's_kappa . Як Каппа Коена допомагає оцінювати ефективність прогнозування класифікаторів? Що це говорить? Я розумію, що …

9
Отримання знань з випадкового лісу
Випадкові ліси вважаються чорними ящиками, але останнім часом я думав, які знання можна отримати з випадкового лісу? Найбільш очевидною є важливість змінних, у найпростішому варіанті це можна зробити, просто обчисливши кількість зустрічей змінної. Друге, про що я думав - це взаємодії. Я думаю, що якщо кількість дерев є достатньо великою, …

11
Працевлаштування з пошуку даних без кандидата наук
Я деякий час був дуже зацікавлений у видобутку даних та машинному навчанні , почасти тому, що в школі я поцікавився, але ще й тому, що я справді набагато більше схвильований, намагаючись вирішити проблеми, які потребують трохи більше роздумів, ніж просто програмування знання і рішення яких може мати декілька форм. У …

7
Евклідова відстань, як правило, не корисна для розріджених даних?
Десь я бачив, що класичні відстані (наприклад, евклідова відстань) стають слабко дискримінантними, коли ми маємо багатовимірні та розріджені дані. Чому? Чи є у вас приклад двох розріджених векторів даних, де евклідова відстань не працює добре? У цьому випадку яку подібність ми повинні використати?

8
Навички важко знайти у машинних учнів?
Схоже, видобуток даних та машинне навчання стали настільки популярними, що зараз майже кожен студент CS знає про класифікатори, кластеризацію, статистичну НЛП ... і т. Д. Тож здається, що пошук шахтарів даних не є важкою справою в наш час. Моє запитання: Які навички, завдяки яким мінодер даних міг засвоїти, зробили б …

8
Створити випадкову змінну з визначеною кореляцією до існуючої змінної
Для дослідження моделювання я повинен генерувати випадкові змінні , які показують prefined (населення) кореляцію з існуючою YYY . Я подивився в Rпакети copulaі CDVineякі можуть виробляти випадкові багатовимірні розподілу із заданою структурою залежностей. Однак неможливо зафіксувати одну із отриманих змінних до існуючої змінної. Будь-які ідеї та посилання на існуючі функції …

2
Чому лише три перегородки? (навчання, валідація, тест)
Коли ви намагаєтесь пристосувати моделі до великого набору даних, загальною порадою є розподіл даних на три частини: навчальний, валідаційний та тестовий набір даних. Це пояснюється тим, що моделі зазвичай мають три "рівні" параметрів: перший "параметр" - клас моделі (наприклад, SVM, нейронна мережа, випадковий ліс), другий набір параметрів - параметри "регуляризації" …

12
Програмне забезпечення, необхідне для скребки даних із графіка [закрито]
Хто-небудь має досвід роботи з програмним забезпеченням (бажано, вільним, бажано з відкритим кодом), яке буде робити зображення даних, нанесених на декартових координатах (стандартний, повсякденний сюжет) та витягувати координати точок, нанесених на графік? По суті, це проблема обміну даними та проблема зворотної візуалізації даних.

8
Чи вибірка є актуальною в часи "великих даних"?
Або тим більше "буде"? Великі дані роблять статистику та відповідні знання ще важливішими, але, здається, недооцінюють теорію вибірки. Я бачив цей галас навколо "Великих даних" і не можу не задатися питанням, що "чому" я б хотів проаналізувати все ? Хіба не було причини, щоб "Теорія вибірки" була розроблена / впроваджена …

3
Чи є у нас проблема "жалісних нагород"?
Я знаю, це може здатися, що це поза темою, але вислухай мене. У режимі переповнення стека і тут ми отримуємо голоси за повідомлення, все це зберігається в табличній формі. Наприклад: пост ідентифікатор виборця ідентифікатор типу голосування дата ------- -------- --------- -------- 10 1 2 2000-1-1 10:00:01 11 3 3 2000-1-1 …

3
Кластеризація K-Means та EM: як вони пов'язані?
Я вивчив алгоритми кластеризації даних (без нагляду): EM та k-засоби. Я продовжую читати наступне: k-засоби - це варіант ЕМ, з припущеннями, що кластери сферичні. Чи може хтось пояснити вищезгадане речення? Я не розумію, що таке сферичні засоби, і як пов'язані kmeans та EM, оскільки один робить імовірнісне призначення, а інший …


3
Які відмінності між прихованими моделями Маркова та нейронними мережами?
Мені просто намокають ноги в статистиці, тому мені шкода, якщо це питання не має сенсу. Я використовував моделі Маркова для прогнозування прихованих станів (несправедливих казино, рулонів з кістки тощо) та нейронних мереж для вивчення кліків користувачів на пошуковій системі. У обох були приховані стани, які ми намагалися з'ясувати, використовуючи спостереження. …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.