Які технології баз даних використовують великі пошукові системи? [зачинено]

32

Хтось знає, як Google або Yahoo здійснюють пошук за ключовими словами за дуже величезною кількістю даних? Яку базу даних чи технології вони використовують для цього?

Це займає кілька мілісекунд, але вони індексують більше мільярда сторінок.

database-design full-text-search

— ркосегі
джерело

Існує аналогічне питання на переповнення стека: stackoverflow.com/questions/362956 / ...

— splattne

21

Я впевнений, що поєднання речей:

серйозне обладнання
багато цього - дані розподіляються та реплікуються у багатьох вузлах та різних центрах обробки даних
- (насправді у випадку Google, принаймні, я вважаю, що у них є тисячі і тисячі дійсно низьких серверів)
кешовано багато результатів загальних запитів, зауважте, як вони попередньо заповнюють потенційні пошуки речей, за якими ви знаєте, що раніше ніколи не шукали; вони прогнозують, що ви можете шукати, і сподіваєтесь, що ваш результат уже попередньо розрахований і кеширований десь. У багатьох випадках вони трапляються - сьогодні не дуже багато пошукових запитів, які ви могли б зробити в Google, про які хтось не звертався до вас. Коли вони отримують нову фразу для пошуку, вони, ймовірно, використовують щось на кшталт пошуку вільного тексту - і я б очікував, що ключові слова витягуються семантично при першому скануванні сторінки, а не намагаються знайти ключові слова в документі після того, як ви їх шукали. . Звичайно, їм доведеться періодично скасовувати ці кеші, перераховуючи рейтинг сторінки,

— Аарон Бертран
джерело

34

Голуби .

Серцем пошукової технології Google є PigeonRank ™ , система ранжування веб-сторінок, розроблена засновниками Google Ларрі Пейдж та Сергієм Бріном зі Стенфордського університету:

введіть тут опис зображення

Спираючись на прорив роботи Б. Ф. Скіннера, Пейдж і Брін вважали, що низькі витрати кластерів голубів (ПК) можуть бути використані для обчислення відносної вартості веб-сторінок швидше, ніж людські редактори або машинні алгоритми. І хоча Google має десятки інженерів, які щодня вдосконалюють кожен аспект нашого сервісу, PigeonRank продовжує надавати основу для всіх наших інструментів пошуку в Інтернеті.

Чому запатентована Google PigeonRank ™ так добре працює

Успіх PigeonRank насамперед покладається на чудову навчаність домашнього голуба (Columba livia) та його унікальну здатність розпізнавати об’єкти незалежно від просторової орієнтації. Звичайний сірий голуб може легко виділити серед предметів, що демонструють лише найменші відмінності, що дозволяє йому вибирати відповідні веб-сайти з-поміж тисяч подібних сторінок.

Збираючи зграї голубів у густих скупченнях, Google в змозі обробляти пошукові запити зі швидкістю, що перевищує традиційні пошукові системи, які, як правило, покладаються на хижих птахів, задумливих курей або маловодних водоплавних птахів, щоб зробити їх релевантні рейтинги.

Коли пошуковий запит подається в Google, він перенаправляється до кооператора даних, де відстежує спалахи сторінок результатів із швидкістю . Коли один із голубів у скупченні спостерігається за відповідним результатом , він вдаряється за допомогою дзьоба покритим сталевим бруском, покритим гумою, який присвоює сторінці значення PigeonRank одиниці. З кожним ключем PigeonRank збільшується . Ті сторінки, які отримують найбільше ключів, повертаються вгорі сторінки результатів користувача, а інші результати відображаються в порядку клювання.

— ypercubeᵀᴹ
джерело

6

Примітка: Ця сторінка була розміщена на День дурня у квітні - 2002 р.

— доктор Джимбоб

19

Важливо пам’ятати про кілька речей про Google:

Їх БД є власником BigTable - його розробили на замовлення GOOGLE, щоб точно відповідати їх потребам
Їх власний БД побудований на основі їх власної файлової системи - файлової системи Google - це було розроблено, знову ж таки, GOOGLE , щоб було легко розширюватися за допомогою загального товарного обладнання. Як згадував Аарон у своїй відповіді, вони мають велику кількість середніх серверів замість невеликої кількості дуже потужних серверів.

Вони зберігають окремі таблиці на кількох машинах як спосіб швидшого доступу - їх програмне забезпечення знає, які дані є на якій машині, і замість того, щоб пробивати диск, щоб знайти його, вони можуть перейти безпосередньо до сервера з відповідною інформацією.

— JNK
джерело

11

Google не використовує традиційні технології реляційних баз даних. Він розробив власну технологію, великі таблиці та зменшення карт. Оригінальні науково-дослідні роботи тут: Велика таблиця та карта / зменшення . Також цікавий SSTable, відсортований рядок таблиці .

Подібні технології зараз використовуються в базах даних hadoop та NoSQL .

— НімЧимпський
джерело

9

Прочитайте "Стівена Леві" " У комплексі: як Google думає, працює і формує наше життя ". Ця книга - це захоплююче прочитання про всі речі Google і на високому рівні обговорює деякі технології та техніку, що стоїть за пошуком. Аарон підсумовує це дуже добре у своїй відповіді, і книга Леві дасть вам детальніше про те, як вони це роблять.

— Тодд Еверет
джерело