Наскільки різниця між кореляцією та причинним зв’язком стосується Google?

21

Контекст

Популярне питання на цьому веб-сайті " Що таке загальні статистичні гріхи? ". Один з гріхів згадувалося за умови , що «кореляція має на увазі причинно - наслідковий зв'язок ...» посилання

Потім, у коментарях із 5 опублікованими повідомленнями, пропонується: "Google заробляє $ 65 млрд на рік, не піклуючись про різницю".

Загрожуючи надмірним аналізом легкої гри, я подумав, що це може бути корисним дискусійним пунктом для чіткого розрізнення між кореляцією та причинним зв’язком та практичною актуальністю розрізнення; і, можливо, це могло б виділити щось про взаємозв'язок між машинним навчанням та різницею між співвідношенням і причинним зв’язком.

Я припускаю, що коментар стосується технологій, що лежать в основі генерування результатів пошукових систем та технологій, пов’язаних з рекламою.

Питання

Наскільки різниця між кореляцією та причинно-наслідковим зв’язком стосується вироблення доходу Google, можливо, зосереджуючись особливо на генеруванні доходу за допомогою рекламних технологій, що відображають рекламу, та якісних результатів пошуку?

machine-learning causality

— Джеромі Англім
джерело

Це смішно, я дивився на цей коментар трохи раніше.

— Ітератор

2

Минулого тижня в блозі Revolutions було повідомлення про те, як Google використовує R, щоб зробити рекламу в Інтернеті більш ефективною . На жаль, вони не вникають у надто багато деталей ...

— nico

13

Проста відповідь полягає в тому, що Google (або хто-небудь) повинен дбати про відмінність у тій мірі, в якій вони мають намір втрутитися . Причинно-наслідкові знання говорять про ефекти втручань (дій) у певній галузі.

Якщо, наприклад, Google бажає збільшити кількість кліків оголошень, збільшити кількість користувачів GMail або Google+ або спонукати користувачів використовувати Google, а не Bing, тоді вони повинні знати наслідки потенційних дій (наприклад, збільшення розмір шрифту оголошень, просування Google+ у друкованих журналах або оприлюднення відмінностей між результатами пошуку Google та Bing відповідно). Кореляція є достатньою для того, щоб пошукова система Google працювала добре, але для інших їхніх систем (і для загального бізнесу) розрізнення часто має значення.

Варто зазначити, що Google (і багато фірм, що працюють з веб-бізнесом) постійно проводять онлайн-експерименти. Це найпростіший і найкращий спосіб визначити і оцінити причинно-наслідкові залежності.

— Девід Дженсен
джерело

(+1) до тих пір, поки передбачувачі а) співвідносяться і б) дозволяють правильно прогнозувати майбутні результати, не слід дбати про причинно-наслідкові зв’язки.

— steffen

2

Ми вступаємо в епоху відродження експериментальних досліджень в поведінкових науках. У 50-х роках майже вся статистика була експериментальним дослідженням із застосуванням у сільському господарстві. Але приблизно в 1980-ті люди визнали, що ці методи не дуже допомагають спостереженням, що є все, що ви можете зробити в більшості соціальних наук. Тепер, принаймні, в нішах маркетингових досліджень в Інтернеті, якщо ви Amazon, Google або Bing, ви можете провести експерименти і отримати найчистішу форму можливого причинного висновку.

— Стаск

@StasK. Враховуючи розміри вибірки, вони, ймовірно, мають справу навіть з "коротким" експериментом, вони, ймовірно, дадуть дуже корисні результати. Яка скарбниця має бути.

— Брендон Бертелсен

Цікаво зауважити, що об’єкт Google "для груп" насправді дуже поганий. Це схоже на те, що вони побудували групу для обговорення, яка співвідноситься з тим, щоб бути доброю, але вони не з'ясували, що спричиняє хороший засіб групового обговорення. Але це поширена проблема в маркетингу - надто часто особливості конкуруючих продуктів копіюються, не розуміючи основної мотивації особливостей.

— Даніель Р Хікс

1

@StasK: Реальний світ, мабуть, не такий ідеальний, як ти тут претендуєш. Я згоден, що експерименти - чудовий інструмент для причинного висновку. Однак експерименти також викликають конкретні проблеми. Іноді може бути краще робити причинно-наслідкові умовислідження за допомогою спостережного дослідження, а не експерименту. Однією з критик може бути те, у чому сенс результатів контрольованих експериментів може бути узагальнений до "реальної" живої обстановки. Деякі автори називають це "зовнішньою валідністю".

6

По-перше, це просто запит і невірно. У Google є дуже багато талановитих статистиків, експертів з пошуку інформації, лінгвістів, економістів, деяких психологів та інших. Ці люди витрачають багато часу на навчання багатьох нестатистів про різницю між кореляцією та причинною причиною. Враховуючи, що це велика організація, можуть бути кишені, навіть великі кишені незнання, але твердження, безумовно, помилкові. Більше того, дуже багато такої освіти стикається з клієнтами, особливо рекламодавцями.

Більш глибока відповідь: різниця надзвичайно важлива. Просто подивіться на рейтинг результатів пошуку, і дозвольте мені вийти за межі просто "кореляції", щоб включити міри подібності, оцінювання функцій тощо. Деякі сторінки оцінюються як хороші результати для певних запитів. Вони мають різноманітні функції прогнозування, які важливі для їх ранжирування. На відміну від цих хороших сторінок, які мають хороші результати для запитів, це набір веб-сторінок, які є дуже поганими результатами для тих же запитів. Однак творці цих сторінок витрачають багато зусиль, щоб вони з чисельної точки зору виглядали як хороші сторінки, наприклад, текстові відповідники, зв’язок з Інтернетом тощо. Однак те, що ці сторінки чисельно "схожі" на хороші, не означає, що це, власне, хороші сторінки. Тому Google інвестує і продовжить вкладати багато зусиль, визначаючи, які розумні функції відрізняють (добрі) добрі та погані сторінки.

Це не зовсім кореляція та причинно-наслідковий зв’язок, але це глибше. Хороші сторінки для певних запитів можуть відображатись у числовому просторі, де вони виглядають схожими та відрізняються від багатьох невідповідних чи поганих сторінок, але тільки тому, що результати знаходяться в одній області простору функцій, це не означає, що вони надходять із того ж «високоякісного» підмножини Інтернету.

Простіша відповідь: Дуже проста перспектива полягає у вирішенні рейтингу результатів. Найкращий результат повинен бути першим, але те, що щось займає перше місце, не означає, що це найкращий результат. За деякими показниками оцінок ви можете виявити, що рейтинг Google співвідноситься із золотим стандартом оцінки якості, але це не означає, що їхнє ранжування означає, що результати справді в цьому порядку за якістю та релевантністю.

Оновлення (третя відповідь): З часом з’являється ще один аспект, який впливає на всіх нас: це те, що найкращий результат Google може вважатися авторитетним, оскільки це найкращий результат в Google. Хоча аналіз посилань (наприклад, "PageRank" - один з методів аналізу посилань) - це спроба відобразити сприйняту авторитетність, з часом нові сторінки теми можуть просто підсилити цю структуру посилань шляхом підключення до головного результату в Google. Новіша сторінка, яка є більш авторитетною, має проблеми з підголовком щодо першого результату. Оскільки Google хоче надати найбільш релевантну сторінку на даний момент , різноманітні фактори, включаючи так зване явище "збагатитися, збагатитися", виникають через неявний вплив кореляції на сприйняту причину.

Оновлення (четверта відповідь): Я зрозумів (для коментаря нижче), що може бути корисним прочитати Алегорію Печери Платона, щоб зрозуміти, як інтерпретувати кореляцію та причинно-наслідкову зв’язку в результаті "роздумів / проекцій" реальності та як ми (або наші машини) сприймаємо це. Кореляція, суворо обмежена Кореляцією Пірсона, є занадто обмеженою як інтерпретація питання про нерозуміння асоціації (ширше, ніж просто кореляція) та причинного зв'язку.

— Ітератор
джерело

Я не погоджуюсь. Якщо хтось зловживає передбачувачами для створення штучного високого рейтингу сторінки, то ціль має на увазі передбачувачів, протилежних тому, що Google мав намір при створенні алгоритму ранжування сторінки. Оскільки справжня метрика залишається такою ж ("правильна сторінка", до якої рейтинг сторінки є лише наближенням), прогноктори втрачають свою кореляцію і тому її потрібно змінити. Отже, Google не піклується про причинно-наслідкову інформацію щодо справжньої метрики "правильна сторінка", а до приблизної, яка називається сторінковою позицією.

— steffen

Без образи, але вам здається трохи заплутаним з кількох питань. "PageRank" - це чітко визначене поняття і є лише одним провісником. Основна проблема, яку ви не помічаєте, - це промисловий процес, який бере участь у визначенні та створенні навчального набору, а також відповіді очікувань користувачів. На жаль, коментарі - це жахливе місце для початку довгого знайомства з прикладним машинним навчанням.

— Ітератор

Ви маєте на увазі, що в процесі генерації предиктора та оцінюванні за допомогою експертних знань генерується лише "причинно-наслідковий зв'язок" -прогнози? Поки хто дотримується такого процесу і не повернеться до підходу проб і помилок, ви правильно, google піклується;).

— steffen

Ви цілком правильні. Проблема полягає в тому, що з часом стає надзвичайно важко намагатися витягнути передбачувачів, що відображають причинно-наслідкові зв’язки, коли вас заважають противники. Якщо передбачувач не має якихось причинно-наслідкових пояснень (оскільки вони рідко є справді причинними в природі), то важко виправдати, коли недоброзичливці розвиваються та затьмарюють цю область простору передбачувача.

— Ітератор

2

@Brandon: Не жартую. Це найкраще пояснюється, коли я намагаюся шукати останні події чи майбутні події. Все частіше мені доводиться вводити поточний рік або навіть поточний MM-YYYY (або робити розширений пошук), щоб отримати відповідні сторінки. Це компроміс між структурою зв’язку та свіжістю, і Google помиляється без додаткової допомоги від мене. Насправді це кілька разів приводило мене до Бінга, просто роздратованого спробою ігнорувати старі сторінки. Те ж саме стосується ТА: перші відповіді часто здаються більш корисними, ніж пізніші, що може бути правильніше. :)

— Ітератор

5

Автор квитка тут.

Цей коментар був частково натхненний розмовою Девіда Міса (в Google), де він сказав, і, перефразовуючи, страхові компанії з автомобілів не хвилюються, якщо чоловік є причиною більшої кількості нещасних випадків, якщо це пов'язано, вони повинні стягувати більше. Насправді неможливо змінити чиюсь стать в експерименті, тому причину ніколи не можна було показати.

Точно так же, Google дійсно не потрібно піклуватися , якщо колір червоної марки хто - то натисне на оголошення, якщо це корелює з більш кліками, вони можуть стягувати більше для цього оголошення.

Це також надихнуло цю статтю в Wired: The End of Theory: The Data Suruge робить науковий метод застарілим . Цитата:

"Основа філософії Google полягає в тому, що ми не знаємо, чому ця сторінка краща за цю. Якщо статистика вхідних посилань говорить про це, це досить добре".

Очевидно, що в Google є багато дуже розумних людей, які знають різницю між причинно-наслідковим зв’язком і кореляцією, але в їхньому випадку вони можуть заробити багато грошей, не піклуючись про це.

— Ніл МакГуйган
джерело

1

Докладніше ... Як я вже згадував, в Google є багато людей, які насправді дбають про це, як і Девід Мес. (До речі, він не в Стенфорді, якщо немає новин, яких я пропустив; можливо, ти відвідував його курс 2007 року?) Але, ти маєш рацію в тому, що багато людей не знають, як працюють двигуни внутрішнього згоряння, це не впливає. їх здатність до керування автомобілем. Хоча хороші автоінженери та дослідники змушують його працювати краще, оскільки вони це роблять. Те саме стосується інженерів та дослідників Google. На жаль, ця стаття про Wired не є найбільш чітким викладом тези Норвіга.

— Ітератор

Дякую Нілу за контекст. Я сподіваюся, що ви не заперечуєте проти того, щоб використовувати ваш коментар як натхнення для запитання.

— Джеромі Англім

@jeromy, зовсім не

— Ніл МакГуйган

1

Я погоджуюся з Девідом : Різниця має значення, якщо ви маєте намір втрутитися, і Google може перевірити результати втручань, проводячи контрольовані експерименти. (Оптимальний графік таких експериментів залежить від вашої сукупності причинно-наслідкових гіпотез, про які ви дізнаєтесь з попередніх експериментів плюс даних спостережень , тому кореляції все ще корисні!)

Є друга причина, чому Google може захотіти вивчити причинно-наслідкові зв’язки. Причинно-наслідкові зв’язки є більш надійними щодо втручань інших гравців. Втручання мають місцевий характер, тому вони можуть змінити одну частину причинної мережі, але залишити всі інші причинно-наслідкові механізми незмінними. Навпаки, прогнозні відносини можуть провалюватися, якщо розірваний віддалений причинний зв’язок. Інтернет постійно змінюється, і Google повинен бути зацікавлений, які функції інтернет-середовища є більш надійними щодо цих змін.

— Ліззі Сілвер
джерело