Як бази даних працюють внутрішньо? [зачинено]

Question 1

Закрито . Це питання має бути більш сфокусованим . Наразі відповіді не приймаються.

Хочете покращити це питання? Оновіть питання, щоб воно зосереджувалось на одній проблемі, лише відредагувавши цю публікацію .

Закрито 3 роки тому .

Удосконалюйте це питання

Я працюю з базами даних протягом останніх кількох років, і я хотів би думати, що я став досить компетентним з їх використанням. Однак нещодавно я читав про Закон Джоеля про негерметичні абстракції, і я зрозумів, що, хоча я можу написати запит, щоб отримати майже все, що хочу, з бази даних, я навіть не уявляю, як база даних насправді інтерпретує запит. Хтось знає якісь хороші статті чи книги, які пояснюють, як бази даних працюють внутрішньо?

Деякі конкретні речі, які мене цікавлять:

Що насправді робить база даних, щоб з’ясувати, що відповідає оператору select?
Як база даних інтерпретує приєднання по-різному до запиту з кількома операторами "де ключ1 = ключ2"?
Як база даних зберігає всю свою пам’ять?
Як зберігаються індекси?

Question 2

Що насправді робить база даних, щоб з’ясувати, що відповідає оператору select?

Якщо говорити прямо, це питання грубої сили. Просто, він читає кожен запис кандидата в базі даних і узгоджує вираз із полями. Отже, якщо у вас є "вибрати * з таблиці, де name = 'fred'", він буквально проходить через кожен запис, захоплює поле "name" і порівнює його з "fred".

Тепер, якщо поле "ім'я таблиці" індексується, то база даних (ймовірно, але не обов'язково) спочатку використовуватиме індекс, щоб знайти записи кандидатів, до яких застосовуватиметься фактичний фільтр.

Це зменшує кількість записів кандидатів, до яких слід застосувати вираз, інакше він буде просто робити те, що ми називаємо "скануванням таблиці", тобто читати кожен рядок.

Але принципово, однак він знаходить записи кандидатів окремо від того, як застосовується фактичний вираз фільтра, і, очевидно, є кілька розумних оптимізацій, які можна зробити.

Як база даних інтерпретує приєднання по-різному до запиту з кількома операторами "де ключ1 = ключ2"?

Ну, об'єднання використовується для створення нової "псевдо-таблиці", до якої застосовується фільтр. Отже, у вас є критерії фільтрації та критерії об’єднання. Критерії об'єднання використовуються для побудови цієї "псевдо-таблиці", а потім до неї застосовується фільтр. Тепер, при інтерпретації об'єднання, це знову та сама проблема, що і фільтр - порівняння грубих сил та зчитування індексу для побудови підмножини для "псевдо таблиці".

Як база даних зберігає всю свою пам’ять?

Одним із ключів хорошої бази даних є те, як вона управляє своїми буферами вводу-виводу. Але це в основному відповідає блокам оперативної пам'яті блокам диска. Завдяки сучасним менеджерам віртуальної пам'яті простіша база даних майже може покластися на ВМ як менеджер буфера пам'яті. Високоякісні БД все це роблять самі.

Як зберігаються індекси?

B + Дерева, як правило, вам слід це переглянути. Це пряма техніка, яка існує роками. Ця перевага ділиться з більшістю будь-якого збалансованого дерева: послідовний доступ до вузлів, а також всі листові вузли пов'язані, щоб ви могли легко переходити від вузла до вузла в порядку ключів. Отже, за допомогою індексу рядки можна вважати "відсортованими" для певних полів бази даних, і база даних може використовувати цю інформацію для користі для оптимізації. Це відмінне від, скажімо, використання хеш-таблиці для індексу, яка лише дозволяє швидко дістатися до певного запису. У B-Tree ви можете швидко дістатись не просто до певного запису, а до точки у відсортованому списку.

Фактична механіка зберігання та індексування рядків у базі даних насправді є досить прямою і добре зрозумілою. Гра управляє буферами та перетворює SQL на ефективні шляхи запитів, щоб використати ці основні ідіоми зберігання.

Потім, поверх ідіоми зберігання є ціла багатокористувацька, блокування, реєстрація та складність транзакцій.

Question 3

Що насправді робить база даних, щоб з’ясувати, що відповідає оператору select?

БД використовують індекси (див. Нижче)
Як база даних інтерпретує приєднання по-різному до запиту з кількома операторами "де ключ1 = ключ2"? Операції об'єднання можуть бути переведені в двійкові операції з деревами шляхом об'єднання дерев.
Як база даних зберігає всю свою пам’ять?

файли з картою пам'яті для швидшого доступу до їх даних
Як зберігаються індекси?

Внутрішні БД працюють з B-Trees для індексації.

Це слід детальніше пояснити у wikipedia.

http://en.wikipedia.org/wiki/B-tree

http://en.wikipedia.org/wiki/Database

Question 4

На додаток до читання, може бути корисним використання інструментів БД для вивчення плану виконання, який база даних використовує для ваших запитів. На додаток до отримання розуміння того, як це працює, ви можете експериментувати з методами для оптимізації запитів за допомогою кращого циклу зворотного зв'язку.

Question 5

Сайф, відмінне посилання. Огляд з висоти пташиного польоту, який охоплює більшість тем та надає детальну інформацію про конкретні реалізації постачальників.

Я зробив три спроби написати пояснення, але це насправді занадто велика тема. Перегляньте статтю Hellerstein (на сервері берклі, до якої зв’язаний Сайф), а потім запитайте про особливості.

Варто зазначити, що в будь-якій даній СУБД реалізовано лише підмножину "відомих хороших ідей". Наприклад, SQLite навіть не робить хеш-об'єднань, він робить лише вкладені цикли (так !!). Але тоді це DBM, що легко вбудовується, і робить свою роботу дуже добре, тому є щось сказати про відсутність складності.

Дізнатися про те, як СУБД збирає статистику та як вона використовує їх для побудови планів запитів, а також навчитися читати плани запитів, насамперед, є безцінною навичкою - якщо вам потрібно вибрати одну тему "внутрішніх даних бази даних" вчись, вчись цього. Це зробить світ різним (і ви більше ніколи випадково не напишете декартовий продукт ... ;-)).

Question 6

Якщо ви хочете дізнатись детальніше, я рекомендую отримати джерела sqlite і подивитися, як це робиться. Це повно, хоча і не в масштабах більших відкритих джерел та комерційних баз даних. Якщо ви хочете дізнатись детальніше, я рекомендую Остаточне керівництво по SQLite, яке є не тільки чудовим поясненням sqlite, але й однією з найбільш читаваних технічних книг, які я знаю. Що стосується MySQL, ви можете дізнатись у MySQL Performance Blog , а також на передній панелі книги O'Reilly High Performance MySQL (V2), блог якої є одним із авторів.