wget --content-disposition 'https://www.ncbi.nlm.nih.gov/geo/download/?acc=GSE48191&format=file'
Завантажуваний файл - це tar
архів (двійковий файл), наданий динамічним посиланням з веб-сервера. wget
як правило, збережіть файл, використовуючи частину URL-адреси, яку ви використовуєте, але в цьому випадку це лише кінцева точка API REST (або щось подібне), тому ім'я буде непривітним для роботи (все одно це буде дійсне ім'я та вміст файлу буде однаковим).
Однак у цьому випадку сервер надає заголовок "Вміст диспозиції", що містить фактичне ім'я файлу, яке wget
може використовуватись, якщо ви користуєтесь --content-disposition
опцією. Ця опція відзначена «експериментальний» в моєму керівництві по wget
.
Вам також потрібно вказати URL, щоб оболонка не інтерпретувала символи &
та ?
символи в ній.
Рівнозначна річ із використанням curl
:
curl -J -O 'https://www.ncbi.nlm.nih.gov/geo/download/?acc=GSE48191&format=file'
Або, використовуючи еквівалентні довгі варіанти:
curl --remote-header-name --remote-name 'https://www.ncbi.nlm.nih.gov/geo/download/?acc=GSE48191&format=file'
Завантаживши файл, потрібно розпакувати його:
tar -xvf GSE48191_RAW.tar
Завдяки тому, як створено саме цей архів, це дозволить розпакувати файли архіву у поточний каталог (тому створення нового каталогу, переміщення архіву та розпакування його там може бути хорошою ідеєю). Файли в цьому архіві - gzip
стислі CEL
файли.