wget --content-disposition 'https://www.ncbi.nlm.nih.gov/geo/download/?acc=GSE48191&format=file'
Завантажуваний файл - це tarархів (двійковий файл), наданий динамічним посиланням з веб-сервера. wgetяк правило, збережіть файл, використовуючи частину URL-адреси, яку ви використовуєте, але в цьому випадку це лише кінцева точка API REST (або щось подібне), тому ім'я буде непривітним для роботи (все одно це буде дійсне ім'я та вміст файлу буде однаковим).
Однак у цьому випадку сервер надає заголовок "Вміст диспозиції", що містить фактичне ім'я файлу, яке wgetможе використовуватись, якщо ви користуєтесь --content-dispositionопцією. Ця опція відзначена «експериментальний» в моєму керівництві по wget.
Вам також потрібно вказати URL, щоб оболонка не інтерпретувала символи &та ?символи в ній.
Рівнозначна річ із використанням curl:
curl -J -O 'https://www.ncbi.nlm.nih.gov/geo/download/?acc=GSE48191&format=file'
Або, використовуючи еквівалентні довгі варіанти:
curl --remote-header-name --remote-name 'https://www.ncbi.nlm.nih.gov/geo/download/?acc=GSE48191&format=file'
Завантаживши файл, потрібно розпакувати його:
tar -xvf GSE48191_RAW.tar
Завдяки тому, як створено саме цей архів, це дозволить розпакувати файли архіву у поточний каталог (тому створення нового каталогу, переміщення архіву та розпакування його там може бути хорошою ідеєю). Файли в цьому архіві - gzipстислі CELфайли.