Захист міри в обробці даних


36

Я шукав багато веб-сайтів, щоб знати, що саме буде робити? Результати, які я знайшов, стосувалися використання його в самих додатках.

Я знаю про функцію підтримки та довіри. З Вікіпедії, при обробці даних, ліфтинг - це міра ефективності моделі при прогнозуванні або класифікації випадків, вимірюючи по відношенню до моделі випадкового вибору. Але як? Впевненість * підтримка - це значення ліфта Я також шукав інші формули, але я не можу зрозуміти, чому діаграми ліфтів важливі в точності передбачуваних значень. Я маю на увазі, я хочу знати, яка політика та причина стоїть за ліфтом?


2
Тут потрібен контекст. У маркетингу це буде графік, який би вказував на відсоткове збільшення продажів, що очікується від різних маркетингових заходів, але ви, мабуть, маєте на увазі інший контекст.
zbicyclist

Відповіді:


59

Наведу приклад того, як "підйом" корисний ...

Уявіть, що ви проводите кампанію прямої пошти, де ви надсилаєте клієнтам пропозицію з надією, що вони відгукнуться. Історичні дані показують, що коли ви відправляєте свою клієнтську базу повністю випадковим чином, близько 8% з них відповідають на розсилку (тобто вони заходять і купують з пропозицією). Отже, якщо ви надсилаєте пошту 1000 клієнтів, ви можете очікувати 80 відповідачів.

Тепер ви вирішили пристосувати логістичну модель регресії до своїх історичних даних, щоб знайти зразки, які передбачають, чи може клієнт відповісти на розсилку. Використовуючи модель логістичної регресії, кожному клієнту присвоюється ймовірність відповіді, і ви можете оцінити точність, оскільки ви знаєте, чи реально вони реагували. Після того, як кожному клієнту присвоюється їхня ймовірність, ви оцінюєте його від найвищого до найнижчого замовника. Тоді ви можете генерувати такі "ліфтинг" графіки, як:

введіть тут опис зображення

На даний момент ігноруйте верхню діаграму. Нижня діаграма говорить про те, що після того, як ми сортуємо клієнтів, виходячи з їхньої ймовірності відповіді (від високої до низької), а потім розділимо їх на десять рівних бункерів, частота відповідей у ​​кошику №1 (топ 10% клієнтів) становить 29 % проти 8% випадкових клієнтів, за підйом 29/8 = 3,63. На той момент, коли ми потрапили до набраних клієнтів у 4-му смітнику, ми набрали стільки попередніх трьох, що швидкість відповідей нижче, ніж те, що ми очікуємо, що люди відправлятимуть випадково.

Якщо дивитися на верхню діаграму зараз, це говорить про те, що якщо ми використаємо бали ймовірності для клієнтів, ми зможемо отримати 60% від загальної кількості відповідей, ми отримаємо розсилку випадковим чином, лише відправивши 30% найкращих клієнтів. Тобто, використовуючи модель, ми можемо отримати 60% очікуваного прибутку за 30% вартості пошти, лише відправляючи пошту до топ-30% набраних клієнтів, і саме на це ліфт дійсно відноситься.


Приємне пояснення, дякую тобі багато. Скажіть, будь ласка, у діаграмі "Ліфт", чому нам потрібна випадкова вибірка? Я зрозумів, що 8% є випадковим, але чому це потрібно для відстеження випадкових? Я побачив ще одну діаграму, яка простежує середнє значення, і я не знаю причини існування середнього
Nickool

що я отримав - це те, що ліфт = 3,63 говорить про те, що до колонки 4 ми маємо кращі показники відповідей, ніж 8%, тоді ви просто припускаєте колонку 1 і, вважаючи 29% (30% за оцінкою), ви просто вважали колонку 1 ... то який підйом зробив з 3,63?
Nickool

1
Боже мій! Я зрозумів, що моя помилка 30% не стосується 29% 30% означає 3/10 3 перших стовпців даних! Тепер я повністю зрозумів це: DI я такий щасливий !!!!! дякую>: D <
Nickool

1
1000маiлiнгалл1000cустомеrсангшеехpеcт8300)тгоденшеехpеcттогет601000-гет-80-cустомеrсvсSpенг-

1
@ user1700890 Верхня діаграма часто позначається сукупною діаграмою посилення, тоді як нижня діаграма не є такою ж, як кумулятивна ліфтова діаграма (де ліфт ніколи не може бути нижче 1), але поділяє дані на десять окремих бункерів.
RobertF

3

Ліфтові діаграми представляють співвідношення між відгуком моделі та відсутністю цієї моделі. Як правило, він представлений відсотком випадків у X та кількістю разів, коли відповідь краща в осі Y. Наприклад, модель з підйомом = 2 у точці 10% означає:

  • Без будь-якої моделі, яка б приймала 10% населення (без порядку, оскільки немає моделі), частка y = 1 склала б 10% від загальної сукупності при y = 1.

  • За допомогою моделі ми отримуємо в 2 рази цю пропорцію, тобто ми очікуємо отримання 20% від загальної сукупності при y = 1. У цій графічній мітці X представлені дані, упорядковані прогнозом. Перші 10% - це найкращі 10% прогнозів


3

Підйом - це не що інше, як відношення довіри до очікуваної впевненості. У області правил асоціації - "Коефіцієнт підйому більше 1,0 означає, що зв'язок між попередньою і наслідковою є більш значущою, ніж можна було б очікувати, якби два набори були незалежними. Чим більше коефіцієнт підйому, тим значніша асоціація. " Наприклад-

якщо в базі даних супермаркетів є 100 000 операцій з точки продажу, з яких 2 000 включають як товари А, так і В, а 800 з них включають предмет C, правило асоціації "Якщо A і B придбані, то C купується на тій же поїздка ", має підтримку 800 транзакцій (альтернативно 0,8% = 800/100 000) та впевненість у 40% (= 800/2000). Один із способів думати про підтримку - це ймовірність того, що випадково вибрана транзакція з бази даних буде містити всі предмети в попередньому і наступному, тоді як впевненість - це умовна ймовірність того, що випадково обрана транзакція буде включати всі елементи в Отже, враховуючи, що транзакція включає всі предмети в попередньому.

Використовуючи вищенаведений приклад, очікувана Впевненість у цьому випадку означає "впевненість, якщо покупка A і B не підвищує ймовірність придбання C." Це кількість транзакцій, що включають в себе наступні, поділені на загальну кількість транзакцій. Припустимо, загальна кількість транзакцій для C становить 5000. Таким чином, очікувана впевненість становить 5000 / 1,00000 = 5%. Для прикладу супермаркету Lift = Впевненість / Очікувана впевненість = 40% / 5% = 8. Отже, Lift - це значення, яке дає нам інформацію про збільшення ймовірності тодішньої (наступної) частини, враховуючи частину if (antecedent). ось посилання на початкову статтю


2

Підйом - це лише міра для вимірювання важливості правила

це міра перевірити, чи є це правило у списку випадковим випадком чи ми очікуємо

Lift = Впевненість / Очікувана впевненість


0

Скажімо, ми використовуємо приклад продуктового магазину, який перевіряє дійсність правила асоціації, що має попереднє і наступне (наприклад: "Якщо клієнт купує хліб, він також купує масло").

Якщо ви подивитесь на всі транзакції та досліджуєте їх навмання, ймовірність того, що ця транзакція містить наслідки, є "Очікувана впевненість". Якщо ви подивитесь на всі транзакції, що містять попередній випадок, і виберіть з них випадкову транзакцію, ймовірність того, що ця транзакція буде містити послідовну, є "Довіра". "Підйом" - це по суті різниця між цими двома. За допомогою ліфту ми можемо вивчити взаємозв’язок між двома предметами, які мають високу впевненість (якщо довіра низька, то підйом є по суті не має значення).

Якщо вони мають високу впевненість і низький підйом, то ми все ще знаємо, що товари часто купуються разом, але ми не знаємо, чи є наслідком це через попередник або якщо це просто збіг (можливо, вони обидва купуються разом, тому що вони обидва дуже популярні товари, але не мають жодного стосунку один до одного).

Однак якщо впевненість і підйом є обома високими, то ми можемо обгрунтовано припустити, що наслідок цього відбувається за рахунок попереднього. Чим вище підйом піднімається, тим менша ймовірність того, що відносини між двома пунктами є лише збігом. Математично:

Lift = Впевненість / Очікувана впевненість

У нашому прикладі, якщо довіра до нашої норми була високою, а підйом - низьким, це означало б, що багато клієнтів купують хліб з маслом, але ми не знаємо, чи це пов’язано з якимись особливими відносинами між хлібом і маслом, або якщо хліб і масло - просто популярні речі окремо, і те, що вони часто показують у продуктових візках разом, - лише збіг обставин. Якщо впевненість у нашому правилі висока, а підйом високий, це свідчить про досить сильну кореляцію між попередньою та наслідковою, а це означає, що ми можемо обгрунтовано припустити, що клієнти купують масло через те, що вони купують хліб. Чим вище підйом, тим впевненіше ми можемо бути в цій асоціації.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.