По-перше, це просто запит і невірно. У Google є дуже багато талановитих статистиків, експертів з пошуку інформації, лінгвістів, економістів, деяких психологів та інших. Ці люди витрачають багато часу на навчання багатьох нестатистів про різницю між кореляцією та причинною причиною. Враховуючи, що це велика організація, можуть бути кишені, навіть великі кишені незнання, але твердження, безумовно, помилкові. Більше того, дуже багато такої освіти стикається з клієнтами, особливо рекламодавцями.
Більш глибока відповідь: різниця надзвичайно важлива. Просто подивіться на рейтинг результатів пошуку, і дозвольте мені вийти за межі просто "кореляції", щоб включити міри подібності, оцінювання функцій тощо. Деякі сторінки оцінюються як хороші результати для певних запитів. Вони мають різноманітні функції прогнозування, які важливі для їх ранжирування. На відміну від цих хороших сторінок, які мають хороші результати для запитів, це набір веб-сторінок, які є дуже поганими результатами для тих же запитів. Однак творці цих сторінок витрачають багато зусиль, щоб вони з чисельної точки зору виглядали як хороші сторінки, наприклад, текстові відповідники, зв’язок з Інтернетом тощо. Однак те, що ці сторінки чисельно "схожі" на хороші, не означає, що це, власне, хороші сторінки. Тому Google інвестує і продовжить вкладати багато зусиль, визначаючи, які розумні функції відрізняють (добрі) добрі та погані сторінки.
Це не зовсім кореляція та причинно-наслідковий зв’язок, але це глибше. Хороші сторінки для певних запитів можуть відображатись у числовому просторі, де вони виглядають схожими та відрізняються від багатьох невідповідних чи поганих сторінок, але тільки тому, що результати знаходяться в одній області простору функцій, це не означає, що вони надходять із того ж «високоякісного» підмножини Інтернету.
Простіша відповідь: Дуже проста перспектива полягає у вирішенні рейтингу результатів. Найкращий результат повинен бути першим, але те, що щось займає перше місце, не означає, що це найкращий результат. За деякими показниками оцінок ви можете виявити, що рейтинг Google співвідноситься із золотим стандартом оцінки якості, але це не означає, що їхнє ранжування означає, що результати справді в цьому порядку за якістю та релевантністю.
Оновлення (третя відповідь): З часом з’являється ще один аспект, який впливає на всіх нас: це те, що найкращий результат Google може вважатися авторитетним, оскільки це найкращий результат в Google. Хоча аналіз посилань (наприклад, "PageRank" - один з методів аналізу посилань) - це спроба відобразити сприйняту авторитетність, з часом нові сторінки теми можуть просто підсилити цю структуру посилань шляхом підключення до головного результату в Google. Новіша сторінка, яка є більш авторитетною, має проблеми з підголовком щодо першого результату. Оскільки Google хоче надати найбільш релевантну сторінку на даний момент , різноманітні фактори, включаючи так зване явище "збагатитися, збагатитися", виникають через неявний вплив кореляції на сприйняту причину.
Оновлення (четверта відповідь): Я зрозумів (для коментаря нижче), що може бути корисним прочитати Алегорію Печери Платона, щоб зрозуміти, як інтерпретувати кореляцію та причинно-наслідкову зв’язку в результаті "роздумів / проекцій" реальності та як ми (або наші машини) сприймаємо це. Кореляція, суворо обмежена Кореляцією Пірсона, є занадто обмеженою як інтерпретація питання про нерозуміння асоціації (ширше, ніж просто кореляція) та причинного зв'язку.