Мої сервери Xen є openSUSE 11.1 з open-iscsi до нашого кластеру iSCSI SAN. Модулі SAN знаходяться в групі перемикання IP-адрес, що знаходиться за віртуальним IP-адресою, до якого ініціатори підключаються.
У разі, якщо основний сервер SAN знижується, вторинний бере на себе роль виконуючої цілі. З цим все обробляється програмним забезпеченням LeftHand SAN / iQ і добре працює в більшості ситуацій.
Проблема у мене полягає в тому, що періодично деякі мої Xen DomU матимуть свою кореневу файлову систему лише для читання після відмови IP-адреси. Це не узгоджується, і трапляється з різними підмножинами щоразу, коли виникає аварія. Всі вони мають одне і те ж зображення програмного забезпечення openSUSE 11.1.
Кореневі файлові системи для кожного DomU монтуються open-iscsi в Dom0, а потім Xen використовує стандартний драйвер блокового пристрою, щоб піддати його DomU.
Точним симптомом є те, що як корінь під час запуску touch /test
повертає помилку "файлова система лише для читання". Однак вихід mount
показує, що він встановлений як читання-запис. Звичайно, у цей час всі інші введення-виведення в domU також виходять з ладу, тому машина важко падає. Просто перезапустивши його з xm
Dom0, навіть не підключаючи сеанс iSCSI, змушує все працювати знову.
З боку Dom0 повідомлення системного журналу під час відмови є такими як:
kernel: connection1:0: iscsi: detected conn error (1011)
iscsid: Kernel reported iSCSI connection 1:0 error (1011) state (3)
iscsid: connection1:0 is operational after recovery (1 attempts)
Мені важко розібратися, на якому шарі налагодити цю проблему, це щось в ядрі DomU? або на рівні Dom0 або Xen? Я думаю, що десь є якийсь параметр, який потребує налаштування, щоб збільшити якийсь час очікування, але я не впевнений, де його шукати.
Я не думаю, що це проблема з open-iscsi просто тому, що підключений блок-блок все ще читається і записується з Dom0.