Як отримати десятки мільйонів сторінок, індексованих ботом Google?


12

Зараз ми розробляємо веб-сайт, який нараховує 8 мільйонів унікальних сторінок, які зростуть приблизно до 20 мільйонів, а з часом до приблизно 50 мільйонів і більше.

Перш ніж критикувати ... Так, він надає унікальний, корисний контент. Ми постійно обробляємо необроблені дані з загальнодоступних записів і, роблячи деякий скрабінг даних, сукупність об’єктів та зіставлення зв’язків, ми змогли генерувати якісний контент, розробляючи досить корисний і унікальний веб-сайт, частково завдяки широті дані.

Це PR - 0 (новий домен, ніяких посилань), і ми отримуємо пайок зі швидкістю близько 500 сторінок на день, що становить приблизно 30 000 сторінок, індексованих до цих пір. За такою швидкістю знадобиться понад 400 років, щоб індексувати всі наші дані.

У мене є два питання:

  1. Чи співвідноситься швидкість індексації з PR, і я маю на увазі, чи достатньо вона співвіднесена, що, придбавши старий домен з хорошим PR, нам вдасться до працездатного показника індексації (в районі 100 000 сторінок на день).
  2. Чи є SEO-консультанти, які спеціалізуються на допомозі в самому процесі індексації. Ми в іншому випадку дуже добре з SEO, на -page особливо, до того ж , конкуренція за наш «довгий хвіст» ключових фрази досить низько, тому наш успіх залежить головним чином на кількість проіндексованих сторінок.

Наш головний конкурент досяг приблизно 20-мільйонних сторінок, індексованих за трохи більше року, разом з рейтингом Alexa 2000-ish.

Ми маємо на увазі якісні якості:

  • швидкість завантаження сторінки досить хороша (250-500 мс)
  • відсутність помилок (404 або 500 помилок при падінні)
  • ми використовуємо інструменти для веб-майстрів Google та входимо щодня
  • дружні URL-адреси на місці
  • Боюся подавати мапи сайту. Деякі публікації SEO-спільноти пропонують новий сайт з мільйонами сторінок, і жоден піар не підозрілий. Існує відео від Метта Кеттса в Google, яке також говорить про поетапне включення на борт великих сайтів , щоб уникнути посиленого вивчення (приблизно в 2:30 на відео).

  • Класифіковані посилання на сайт доставляють усі сторінки, не більше ніж на чотири сторінки, і зазвичай не більше 250 (-іш) внутрішніх посилань на сторінку.
  • Текст прив’язки до внутрішніх посилань є логічним і додає релевантності ієрархічно даним на сторінках деталей.
  • Раніше ми встановлювали найвищий показник сканування в інструментах для веб-майстрів (лише про сторінку кожні дві секунди, макс.) Нещодавно я повернув його назад, щоб "нехай Google вирішує", що саме радить.


6
Мені дуже хотілося б побачити 50 мільйонів сторінок із унікальним корисним вмістом. Класному Вікіпедії не вистачає стільки знань порівняно з вашим сайтом, сьогодні це лише 3,5 мільйони сторінок [посилання. en.wikipedia.org/wiki/File:EnwikipediaArt.PNG]
Марко Демайо

3
:) Дивлячись на сарказм ... Не кількість сторінок робить Вікіпедію приголомшливим джерелом знань - очевидно, так - більш корисним. Наш сайт генерує сторінку для кожного запису людини та сторінку для кожного запису компанії в нашій базі даних. Ми використовуємо аналіз даних та очищення для динамічного генерування відносин між діловими партнерами, графічно зображуючи ділову мережу пов’язаних людей та корпорацій. Кількість сторінок - це функція від кількості даних, які ми маємо. Якщо зробити його відкритим за допомогою пошуку, він стане більш корисним для всіх. Дякую за Ваш коментар
Кріс Адранья

1
Отримайте більше переходів, отримуючи більше посилань. Посилання на ваші сторінки зі сторінок, які мають посилання.
Алекс Чорний

Відповіді:


20

Деякі потенційні стратегії:

  • Інструменти для веб-майстрів Google дозволяють подати запит на збільшення показника сканування. Спробуйте зробити це, якщо ви ще цього не зробили.
  • Погляньте ще на вашу навігаційну архітектуру, щоб побачити, чи не можете ви покращити доступ до більшої частини свого вмісту. Подивіться на це з точки зору користувача: Якщо користувачеві важко знайти конкретну інформацію, це може бути важким і для пошукових систем.
  • Переконайтеся, що у вас немає дублікату вмісту через непослідовні параметри URL-адреси або неправильне використання косої риски. Видаляючи повторюваний вміст, ви скорочуєте час, коли Googlebot витрачає сканувати щось, що вже індексувало.
  • Використовуйте посилання, пов’язані із вмістом, та посилання на сайт у своєму вмісті, коли це можливо.
  • Рандомізуйте деякі свої посилання. Бічна панель із випадковим внутрішнім вмістом - чудова модель.
  • Використовуйте дати та інші мікроформати .
  • Використовуйте RSS-канали, коли це можливо. RSS-канали функціонуватимуть так само, як і мапа сайту (насправді Інструменти для веб-майстрів дозволяють надсилати канал як мапу сайту).
  • Щодо мапи сайту див. Це питання .
  • Знайдіть способи отримання зовнішніх посилань на ваш вміст. Це може прискорити процес його індексації. Якщо це підходить до типу вмісту, це полегшить спільний доступ до соціальних або електронних листів.
  • Надайте API, щоб стимулювати використання ваших даних та зовнішніх посилань на ваші дані. Ви можете мати посилання на атрибуцію як вимогу до використання даних.
  • Отримати спільноту. Якщо ви належним чином зв’яжетеся з потрібними людьми, ви отримаєте зовнішні посилання через блоги та Twitter.
  • Шукайте способи створення спільноти навколо своїх даних. Знайдіть спосіб зробити його соціальним. API, маши, соціальні віджети всі допомагають, але це також блог, вітрини, форуми та ігрові механізми (також дивіться це відео ).
  • Визначте пріоритет, який вміст ви індексували. Маючи стільки даних, не все це стане абсолютно життєво важливим. Прийміть стратегічне рішення щодо того, який контент є найважливішим, наприклад, він буде найпопулярнішим, він має найкращі шанси на ROI, він буде найкориснішим тощо, і переконайтеся, що цей вміст індексується спочатку.
  • Зробіть детальний аналіз того, що робить ваш конкурент, щоб індексувати їх вміст. Перегляньте їх архітектуру сайту, їх навігацію, їх зовнішні посилання тощо.

Нарешті, я повинен це сказати. SEO та індексація - лише невеликі складові для роботи бізнес-сайту. Не втрачайте уваги на рентабельності інвестицій заради SEO. Навіть якщо у вас багато трафіку від Google, це не має значення, якщо ви не можете його конвертувати. SEO важливий, але його потрібно тримати в перспективі.

Редагувати :

Як додаток до вашої справи використання: ви можете розглянути можливість подання відгуків або відгуків для кожної людини чи компанії. Крім того, видача значків користувачів, як StackOverflow, може залучати принаймні деяких людей до посилання на власний профіль на вашому сайті. Це може заохотити деякі зовнішні посилання на ваші глибокі сторінки, що може означати швидше індексуватись.


1
+1 - завжди зазначає, що SEO - це мікрокосм більшої проблеми просування бізнесу; це також найпростіше (принаймні для технічно налаштованих людей) загубитися. Більше людей дивиться телевізор зараз, ніж будь-який попередній момент історії - залежно від того, що ви пропонуєте, телевізійна реклама може мати кращу ROI ніж PPC ...
danlefree

Гарна ідея про мікроформати. Це не срібна куля, але у нас є ряд місць, де семантична розмітка з використанням стандартних мікроформатних місць може бути корисною.
Кріс Адранья

1
Я не знаю, чи будь-які мікроформати (крім, можливо, часових позначок) означатимуть швидше індексуватись, але можуть бути й інші переваги SEO при їх використанні. Принаймні, це полегшує сканування ваших сторінок і може допомогти зробити ваш запис виділеним на сторінці результатів пошукової системи (залежно від мікроформату).
Media Virtuosi

5

Як отримати десятки мільйонів сторінок, індексованих ботом Google?

Це не відбудеться протягом ночі, однак я гарантую, що ви побачите більше своїх сторінок, перероблених раніше, якби додані вхідні посилання на глибокий вміст (особливо на мапах сторінок або покажчики каталогів, які вказують на ще глибший вміст) із подібних великих сайтів, які деякий час були навколо.

Чи буде достатньо старого домену, щоб отримати 100 000 сторінок, що індексуються на день?

Сумнівно, якщо ви не говорите про старіший домен, який протягом останніх років здійснював значну активність (тобто накопичений вміст та вхідні посилання) протягом багатьох років.

Чи є SEO-консультанти, які спеціалізуються на допомозі в самому процесі індексації.

Коли ви ставите питання таким чином, я впевнений, що ви знайдете безліч SEO, які голосно проголошують "так!" але, наприкінці дня, пропозиції Virtuosi Media є настільки ж гарною порадою, як і ви отримаєте від будь-якої з них (нічого не сказати про потенційно погану пораду).

З огляду на це, вам слід розглянути можливість використання бізнесу та каналів зв’язків з громадськістю для складання рейтингу вашого сайту в цей момент - отримуйте більше посилань на ваш вміст (бажано, співпрацюючи з існуючим сайтом, який пропонує регіонально орієнтований контент для посилання на ваш наприклад, розділений на регіональний контент, наприклад, залучайте більше людей, які переглядають ваш сайт (у деяких буде встановлена ​​панель інструментів Google, щоб їхній трафік може працювати на відкриття сторінок), і, якщо можливо, розповсюдьте свій бізнес про новини або в громадах людей, у яких є потреба в цьому (якщо ви плануєте платити за певні послуги, розглянути рекламу безкоштовного пробного періоду, щоб залучити інтерес).


3

Я знаю два можливі варіанти, які можуть мені допомогти.

Перший: Невелика хитрість, яку я спробував із веб-сайтом, який мав три мільйони сторінок, який спрацював напрочуд добре, - це те, що мій колега створив цикл сканування. Можливо, вам доведеться трохи маніпулювати ідеєю, щоб вона відповідала вашому сайту.

В основному ми встановили день, коли ми не думали, що ми будемо отримувати багато трафіку (Різдво), і ми буквально скопіювали список кожного посилання на нашому сайті і вставили кожне у файл php, який закликали на кожній веб-сторінці. (Php файл бічної панелі)

Потім ми перейшли на пошукову консоль google (раніше інструменти для веб-майстрів Google) і сказали google отримати URL-адресу та сканувати кожне посилання на цій сторінці URL-адрес.

Оскільки у вас так багато посилань, а сторінки, на які вони посилаються, також мають велику кількість посилань, google переходить у цикл і набагато швидше сканує сайт. Спочатку я був скептично налаштований, але це спрацювало як шарм.

Перш ніж це зробити, ви повинні переконатися, що у вас є надзвичайно ефективна настройка бази даних та дуже потужний сервер, інакше це може або перевантажити сервер, або пошкодити ваш SEO через повільний час завантаження сторінки.

Якщо це не варіант для вас, ви завжди можете заглянути в хмарну консоль gois Google apis. У них є api пошукової консолі, щоб ви могли написати сценарій або додати кожну веб-сторінку як свій власний екземпляр веб-сайту в консолі пошуку, або отримати Google для отримання кожного з ваших URL-адрес.

Апіс може ускладнитися надзвичайно швидко, але є правильним інструментом при правильному використанні.

Удачі!


1
Зв’язування сторінок разом - це відмінна стратегія для їх сканування. Набагато краще, ніж намагатися покластися на файл XML. Однак я би залишав ці посилання на місці весь час, а не просто на Різдво. Як тільки ви знімете посилання, Google помітить втрачені посилання на сторінках і перестане їх індексувати.
Стівен Остерміллер

2

Ігрові системи ніколи не є хорошою ідеєю, якщо ви ведете законний бізнес, який цінує його репутацію в Інтернеті. Крім того, якщо ваш сайт по-справжньому надає цінність, то чим довше він буде (я вважаю, ви займаєтесь якоюсь формою маркетингу?), Тим більше зворотних посилань набереться, тож ваш PR зростатиме, а показник сканування зростатиме.

Крім того, якщо у вас є хороша структура посилань на вашому веб-сайті (всі ваші сторінки відкриті за достатньою кількістю кліків / посилань), тоді вам потрібно лише подати основні індекси через мапу сайту. Після того, як ці сторінки буде індексовано Google, вони будуть сканувати Google, а Google індексуватиме решту сторінок самостійно.


+1 RE: ігрові системи - хоча, я думаю, слід зазначити, що існує багато альтернатив ігровій системі, які дозволяють веб-майстру генерувати законні зворотні посилання (які будуть корисні відвідувачам) на його або її сайті.
danlefree

@danlefree: Однозначно. Я мав на увазі лише купівлю прострочених доменних імен, щоб отримати їх залишковий PR / трафік. Але якщо ви можете рекламувати свій сайт, надсилати прес-релізи для торгових видань, сайтів для перегляду додатків тощо, то це дуже хороші способи створення законних зворотних посилань.
Lèse majesté

2

Одне, що я помічаю в інструментах для веб-майстрів Google, - це те, що вони починаються, дозволяючи максимальну швидкість сканування близько двох запитів в секунду. Потім приблизно через тиждень, і якщо вони виявлять, що веб-сайт часто доступний, вони дозволять вам збільшити ліміт.

Я спільно працюю над веб-сайтом, на якому розміщено понад 500 000 оригінальних зображень, і часом моє максимальне обмеження становить 10 запитів в секунду, тому що я отримую щонайменше від 700 до 1000 звернень на день, якщо не більше.

Тож, що ви можете зробити, - це щотижня перевіряти інструменти для веб-майстрів, щоб побачити, чи можете ви збільшити ліміт сканування. Коли ви зміните ліміт сканування, google поверне його до своїх бажаних налаштувань після того, як пройде певний день (який інтерфейс вам покаже). Потім в той день знову підніміть межу.


2

Я мав досвід саме такого сайту. Я керував каталогом статей багато років тому, і% індексованих сторінок, що ще важливіше, було безпосередньо пов'язане з кількістю посилаються доменів, тобто кількістю унікальних веб-сайтів, на які посилаються. Великому сайту з мільйонами сторінок потрібно кілька тисяч. розумні домени, що посилаються на їх власну діяльність.

Це точно не відбудеться протягом ночі напевно, але ви будуєте 5-10 хороших посилань на день у той час, коли це почне відбуватися, тоді ви будете в змозі отримувати дохід і використовувати це для оплати професійного SEO-спорядження для створення посилань для вас.

Я будую подібний інформаційно багатий на даний момент сайт, його перші дні, але у мене є такий же випуск з ним близько 4 мільйонів сторінок вмісту зі швидкістю сканування 700-1000 сторінок на день.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.