Добре. Це буде один із тих випадків, коли я буду працювати через процес, щоб він став зрозумілішим. Це буде дещо довго, але, сподіваємось, не болісно довго.
Почнемо з початку, чи не так?
Починаючи з того, що ми знаємо про те, як Google працювала спочатку на основі дослідницької роботи Бріна та Пейджа ще в 1997 році, ми знаємо кілька речей, які, ймовірно, все ще існують сьогодні.
Google має URL-адресу в своєму індексі, черзі та отримання сторінки. Код сторінки зберігається в її базі даних для різних форм обробки. Одним із процесів було б пошук нових посилань. Будь-яке посилання, знайдене Google, спочатку буде розміщено в індексі посилання, якщо воно існує. Це не так, тоді посилання буде додано до таблиці посилань та додано до черги отримання.
Будь-яке посилання в таблиці посилань містить принаймні ці елементи, URL-адресу посилання, вихідну URL-адресу та текст посилання. Цілком ймовірно, що є й інші елементи даних, однак вони не сприяють обговоренню. Будь-яке посилання, додане до таблиці посилань, має підтверджену вихідну URL-адресу, але не обов'язково цільову URL-адресу. Використовуючи реляційні бази даних в якості прикладу, вихідні та цільові URL-адреси можуть бути ідентифікатором URL-адреси в таблиці URL-адрес, а таблиця приєднання приєднається до вихідної URL-адреси таблиці посилання та елементів цільової URL-адреси, використовуючи ідентифікатор назад до таблиці URL-адрес. Плутати? Не бути.
У будь-якому випадку, коли цільова сторінка не отримана, посилання в таблиці посилань вважається звисаючим посиланням. Як тільки сторінка буде завантажена, посилання в таблиці посилань буде завершене. Якщо цільової сторінки не існує, то посилання в таблиці посилань - це ламане посилання. Простий?
Лише цілісні посилання можуть передавати значення. Алгоритм PageRank вимагає повного посилання для обчислення значення. Усі звисаючі та порушені посилання зупиняють будь-які обчислення за допомогою посилання. Раніше PR був рекурсивним процесом, який обчислював значення посилань, використовуючи таблицю посилань знову і знову, поки значення, яке можна відрегулювати на будь-яке посилання, не потрапить у числове значення, яке є настільки малим, що фактично не збирається змінювати значення. Я впевнений, що це все ще відбувається як процес утримання будинків. Однак сьогодні PR розраховується за допомогою іншого методу, схожого на хміль в мережі, який вимірює відстань від однієї сторінки до іншої, що має відносне значення. Вона базується на моделі довірчої мережі - саме так розроблялася оригінальна модель PageRank для наслідування. Посилання - це вотум довіри від однієї сутності до іншої. Хоча це стає складніше, ніж це, ви отримуєте картину. Це ефективно робить те саме, що і рекурсивний процес, використовуючи більш обчислення в реальному часі, хоча, ймовірно, менш точне, але досить точне, щоб бути надійним. Для цього потрібні повні посилання, оскільки значення довіри (використовуючи модель мережі довіри) не можна передавати, якщо довіра не встановлена. Пам'ятайте, що посилання - це голос за довіру або посилання в моделі довірчої мережі. PageRank представлений як цільове значення в довірчій мережі.
Тепер, коли ви розумієте посилання та наскільки вони важливі, давайте продовжувати.
Для пошукової системи не має сенсу видаляти жодну URL-адресу. Якщо URL-адреса не існує в таблиці URL-адрес, ви нічого не можете знати про URL-адресу, і це буде втрачено. URL-адреси, швидше за все, не видаляються, якщо це не має сенсу, наприклад, якщо URL-адреса більше не існує. Однак, коли для сторінки встановлено NOINDEX, пошуковій системі явно доручено НЕ індексувати сторінку. Оскільки веб-сторінка в індексі складається з двох речей, URL-адреси та вихідного коду HTML, NOINDEX ефективно видаляє сторінку в цей момент. Посилання на сторінку NOINDEX принаймні звисають.
Тепер, коли ви знаєте, як виглядає індексована сторінка, давайте рухатись далі.
Є багато способів, які пошукова система буде штрафувати веб-сторінку чи сайт. Один - це вилучення. Це найсуворіше з усіх штрафних санкцій і потребує тривалого часу для відновлення. Ця категорія штрафу, яку ви можете засвідчити, оскільки сторінку не буде і не може бути знайдена. Крім того, пошукова консоль Google допоможе вам зрозуміти, що сторінки перебувають у списку. З решти покарань покарання застосовуються у фільтрах SERP.
Коли виконується пошуковий запит, насправді одразу кілька запитів проти індексу, які потім змішуються в набір результатів на основі частини алгоритму. Інший алгоритм, який ми часто називаємо єдиним цілим, - це ряд відносно простих алгоритмів SERP. Основні алгоритми яких змінять набір результатів на основі більшої метрики в реальному часі, такої як тенденції. З алгоритмів ті, які видаляють записи з набору результатів або серйозно зменшують розміщення запису в наборі результатів, називаються фільтрами. Застосовується фільтр, який обробляє DMCA, як це підтверджується...we have removed 1 result(s) from this page...
Отже, тепер, коли ви знаєте, як застосовуються штрафи, пов'язані фільтри посилань, PR та DMCA?
Зважаючи на це, ми знаємо, що застосовано фільтр, однак це не має нічого спільного з індексом посилань, яким розраховується PageRank. Він настільки віддалений від посилання / PR-процесу, як це може отримати. Посилання та PR знаходяться на початку процесу індексації, тоді як видалення санкціонованої сторінки DMCA - в кінці процесу запиту. Насправді це два абсолютно окремих двигуна. Отже, хоча сторінка може бути видалена через скаргу щодо DMCA, вона фактично не видаляється з індексу, а тому посилання на та зі сторінки все ще розраховуються.
Ясна, як грязь? Я сподіваюся, що я це добре пояснив. Будь ласка, дайте мені знати, чи можу я вам щось уточнити.
[Оновлення]
Виняток, який не стосується сценарію ОП.
@StephenOstermiller підкреслює хороший момент, який не підриває вищезазначене, проте я хотів би додати його для повноти.
Як ви добре знаєте, оцінка сайту чи сторінки під час пошуку вимагає багатьох факторів. Хоча це не настільки технічно чи містично, як ви можете собі уявити, все-таки потрібно зважити чимало факторів. Я забув про ефект довірчих балів здебільшого тому, що він не застосовувався у випадку з ОП. Тому я додаю його сюди.
Зрозуміло, що є сайти, які не приносять користі, такі як спам-сайти. У межах цієї класифікації сайти - це сайти, які є звичними зловмисниками авторського вмісту. Це було величезною проблемою багато років тому, коли скрепери для вмісту створювали сайти за вашу наполегливу роботу. Тривалий час нічого не робилося. Веб-сайти з оригінальним вмістом досить послідовно втрачають сайти скрепера. Я повинен знати. У мене було два сайти PR 8, які втратили майже весь свій трафік через скреперні сайти, з якими абсолютно не було звернено.
Однак все змінилося. І минуло лише багато років, коли почалися значні зміни.
Для цієї спеціальної класифікації сайтів оцінка довіри до сайтів може бути значно знижена. Це добре відомо. Для відновлення балів довіри потрібні роки, і для деяких сайтів це може не трапитися. Чому, наприклад, ви вважаєте, що монетизатори доменів настільки готові ретельно виправити сайт із сотнями тисяч, які чекають крил на одне і те ж зловживання? Це тому, що реальність полягає в тому, що домен може зруйнувати його цінність поза викупкою.
Існує багато факторів, які вступають у встановлення довіри. Я тут не вникну в це. Однак знайте, що довіра є головною складовою складання рейтингу для будь-якого сайту.
Однак, будь-який сайт, який є серйозним порушником DMCA, має досить широкий досвід, побачив би серйозний ступінь у оцінці довіри. Це не той сценарій, який описує ОП. Однак саме тут я припускаю сценарій.
Посилання та створення PageRank мають більш ніж один компонент. Один - PageRank (повноваження) самої сторінки. Для дуже авторитетних сторінок існує обмеження повноважень. Сторінка PR 8 не поділить значення 8 серед посилань на цій сторінці. Це частина оригінального алгоритму PageRank, призначеного для введення більш природної кривої в PR. В іншому випадку нову сторінку буде майже неможливо конкурувати зі сторінкою з високим авторитетом навіть через тривалий проміжок часу. Значення самого посилання оцінюється за допомогою декількох факторів, включаючи смислове значення тексту посилання, URL-адресу посилання, розташування посилання (видатність), смислове значення блоку вмісту, який містить посилання, якщо воно застосовується тощо. Усі посилання набираються від 0 до .9. Розрахунок повноважень та балів посилань - це значення, передане будь-яким посиланням.
Ну і добре. То як же це впливає на сайт, який є суттєвим порушником DMCA?
Значення будь-якого вхідного посилання не обов'язково впливатиме на показник довіри цільового сайту, оскільки значення посилань надходить із вихідного сайту. Однак будь-яка вихідна ланка могла бути. Повноваження будь-якого сайту, який є значним зловмисником DMCA, впливатиме на показник довіри. Якщо взагалі, авторитет походить від довіри. Таким чином, таким чином значення вхідного зв'язку не передаватиметься через вихідні посилання, не погіршуючись залежно від оцінки довіри.
Це дещо змінює відповідь.
Хоча це не стосується сценарію ОП, існує сценарій, коли значення вхідного зв'язку не повністю передається через сайт із порушенням DMCA. Однак це важкий випадок, і тому поріг до цього трапляється важливий.