Як я можу перевірити, чи існує URL через PHP?

188

Як перевірити, чи існує URL-адреса (не 404) у PHP?

php url

— X10nD
джерело

3

можливий дублікат Як можна перевірити, чи існує віддалений файл за допомогою PHP?

— viam0Zah

296

Тут:

$file = 'http://www.domain.com/somefile.jpg';
$file_headers = @get_headers($file);
if(!$file_headers || $file_headers[0] == 'HTTP/1.1 404 Not Found') {
    $exists = false;
}
else {
    $exists = true;
}

Від тут і прямо під постом вище, є завиток рішення:

function url_exists($url) {
    if (!$fp = curl_init($url)) return false;
    return true;
}

— karim79
джерело

18

Я боюся, що CURL-шлях не буде працювати таким чином. Перевірте це: stackoverflow.com/questions/981954 / ...

— viam0Zah

4

деякі веб-сайти мають різні $file_headers[0]сторінки помилок. наприклад, youtube.com. його сторінка помилок, що має це значення як HTTP/1.0 404 Not Found(різниця 1,0 та 1,1). що робити тоді?

— Крішна Радж К

21

Можливо, використовуючи, strpos($headers[0], '404 Not Found')можливо, вдасться зробити трюк

— alexandru.topliceanu

12

@ Марк погодився! Щоб уточнити, strpos($headers[0], '404')краще!

— alexandru.topliceanu

1

@ karim79 будьте обережні від атак SSRF та XSPA

— M Rostami

55

З'ясовуючи, чи існує URL-адреса від php, на що слід звернути увагу:

Чи дійсна сама URL-адреса (рядок, не порожній, хороший синтаксис), це швидко перевірити сторону сервера.
Очікування відповіді може зайняти час і заблокувати виконання коду.
Не всі заголовки, повернені get_headers (), добре сформовані.
Використовуйте завиток (якщо можете).
Не допускайте отримання всього тіла / вмісту, але вимагайте лише заголовків.
Розглянемо URL-адреси для переадресації:
- Хочете повернути перший код?
- Або виконувати всі переадресації та повертати останній код?
- Ви можете отримати 200, але він може переспрямувати за допомогою метатегів або javascript. З'ясувати, що станеться після, важко.

Майте на увазі, що який би метод ви не використовували, потрібен час, щоб почекати відповіді.
Весь код може (і, ймовірно, буде) зупинятися, поки ви не знаєте результат, або запити вичерпані.

Наприклад: наведений нижче код може зайняти довгий час для відображення сторінки, якщо URL-адреси недійсні або недоступні:

<?php
$urls = getUrls(); // some function getting say 10 or more external links

foreach($urls as $k=>$url){
  // this could potentially take 0-30 seconds each
  // (more or less depending on connection, target site, timeout settings...)
  if( ! isValidUrl($url) ){
    unset($urls[$k]);
  }
}

echo "yay all done! now show my site";
foreach($urls as $url){
  echo "<a href=\"{$url}\">{$url}</a><br/>";
}

Наведені нижче функції можуть бути корисними, ймовірно, ви хочете змінити їх відповідно до ваших потреб:

    function isValidUrl($url){
        // first do some quick sanity checks:
        if(!$url || !is_string($url)){
            return false;
        }
        // quick check url is roughly a valid http request: ( http://blah/... ) 
        if( ! preg_match('/^http(s)?:\/\/[a-z0-9-]+(\.[a-z0-9-]+)*(:[0-9]+)?(\/.*)?$/i', $url) ){
            return false;
        }
        // the next bit could be slow:
        if(getHttpResponseCode_using_curl($url) != 200){
//      if(getHttpResponseCode_using_getheaders($url) != 200){  // use this one if you cant use curl
            return false;
        }
        // all good!
        return true;
    }

    function getHttpResponseCode_using_curl($url, $followredirects = true){
        // returns int responsecode, or false (if url does not exist or connection timeout occurs)
        // NOTE: could potentially take up to 0-30 seconds , blocking further code execution (more or less depending on connection, target site, and local timeout settings))
        // if $followredirects == false: return the FIRST known httpcode (ignore redirects)
        // if $followredirects == true : return the LAST  known httpcode (when redirected)
        if(! $url || ! is_string($url)){
            return false;
        }
        $ch = @curl_init($url);
        if($ch === false){
            return false;
        }
        @curl_setopt($ch, CURLOPT_HEADER         ,true);    // we want headers
        @curl_setopt($ch, CURLOPT_NOBODY         ,true);    // dont need body
        @curl_setopt($ch, CURLOPT_RETURNTRANSFER ,true);    // catch output (do NOT print!)
        if($followredirects){
            @curl_setopt($ch, CURLOPT_FOLLOWLOCATION ,true);
            @curl_setopt($ch, CURLOPT_MAXREDIRS      ,10);  // fairly random number, but could prevent unwanted endless redirects with followlocation=true
        }else{
            @curl_setopt($ch, CURLOPT_FOLLOWLOCATION ,false);
        }
//      @curl_setopt($ch, CURLOPT_CONNECTTIMEOUT ,5);   // fairly random number (seconds)... but could prevent waiting forever to get a result
//      @curl_setopt($ch, CURLOPT_TIMEOUT        ,6);   // fairly random number (seconds)... but could prevent waiting forever to get a result
//      @curl_setopt($ch, CURLOPT_USERAGENT      ,"Mozilla/5.0 (Windows NT 6.0) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1");   // pretend we're a regular browser
        @curl_exec($ch);
        if(@curl_errno($ch)){   // should be 0
            @curl_close($ch);
            return false;
        }
        $code = @curl_getinfo($ch, CURLINFO_HTTP_CODE); // note: php.net documentation shows this returns a string, but really it returns an int
        @curl_close($ch);
        return $code;
    }

    function getHttpResponseCode_using_getheaders($url, $followredirects = true){
        // returns string responsecode, or false if no responsecode found in headers (or url does not exist)
        // NOTE: could potentially take up to 0-30 seconds , blocking further code execution (more or less depending on connection, target site, and local timeout settings))
        // if $followredirects == false: return the FIRST known httpcode (ignore redirects)
        // if $followredirects == true : return the LAST  known httpcode (when redirected)
        if(! $url || ! is_string($url)){
            return false;
        }
        $headers = @get_headers($url);
        if($headers && is_array($headers)){
            if($followredirects){
                // we want the the last errorcode, reverse array so we start at the end:
                $headers = array_reverse($headers);
            }
            foreach($headers as $hline){
                // search for things like "HTTP/1.1 200 OK" , "HTTP/1.0 200 OK" , "HTTP/1.1 301 PERMANENTLY MOVED" , "HTTP/1.1 400 Not Found" , etc.
                // note that the exact syntax/version/output differs, so there is some string magic involved here
                if(preg_match('/^HTTP\/\S+\s+([1-9][0-9][0-9])\s+.*/', $hline, $matches) ){// "HTTP/*** ### ***"
                    $code = $matches[1];
                    return $code;
                }
            }
            // no HTTP/xxx found in headers:
            return false;
        }
        // no headers :
        return false;
    }

— MoonLite
джерело

чомусь getHttpResponseCode_using_curl () завжди повертає 200 в моєму випадку.

— TD_Nijboer

2

якщо хто - то має таку ж проблему, перевірте DNS-сервер імена .. використання OpenDNS без якого- followredirects stackoverflow.com/a/11072947/1829460

— TD_Nijboer

+1 за те, що є єдиною відповіддю на вирішення переадресацій. Змінили return $codeна те, if($code == 200){return true;} return false;щоб розібратися лише в успіхах

— Birrel

@PKHunter: Ні. Мій швидкий регекс preg_match був простим прикладом і не відповідатиме всім переліченим там URL-адресам. Дивіться цей тестовий URL: regex101.com/r/EpyDDc/2 Якщо ви хочете кращого, замініть його на той, що вказаний у вашому посиланні ( mathiasbynens.be/demo/url-regex ) від diegoperini; здається, що вони відповідають усім, дивіться це тест-посилання: regex101.com/r/qMQp23/1

— MoonLite

46

$headers = @get_headers($this->_value);
if(strpos($headers[0],'200')===false)return false;

тому щоразу, коли ви звертаєтесь на веб-сайт і отримуєте щось інше, ніж 200 ок, це працюватиме

— lunarnet76
джерело

13

Але що робити, якщо це переспрямування? Домен залишається дійсним, але його не буде.

— Ерік Лерой

4

Вище на одному рядку: return strpos(@get_headers($url)[0],'200') === false ? false : true. Може бути корисним.

— Devv

$ це в PHP - це посилання на поточний об'єкт. Довідка: php.net/manual/en/language.oop5.basic.php Буквар: phpro.org/tutorials/Object-Oriented-Programming-with-PHP.html Найімовірніше, фрагмент коду був узятий із класу та не зафіксований відповідно .

— Marc Witteveen

18

ви не можете використовувати curl на певних серверах. Ви можете використовувати цей код

<?php
$url = 'http://www.example.com';
$array = get_headers($url);
$string = $array[0];
if(strpos($string,"200"))
  {
    echo 'url exists';
  }
  else
  {
    echo 'url does not exist';
  }
?>

— Мінхаз
джерело

це може не працювати для переадресації 302-303 або, наприклад, 304 Не змінено

— Zippp

8

$url = 'http://google.com';
$not_url = 'stp://google.com';

if (@file_get_contents($url)): echo "Found '$url'!";
else: echo "Can't find '$url'.";
endif;
if (@file_get_contents($not_url)): echo "Found '$not_url!";
else: echo "Can't find '$not_url'.";
endif;

// Found 'http://google.com'!Can't find 'stp://google.com'.

— Ренді Скретка
джерело

2

Це не працюватиме, якщо дозволено URL-адреса вимкнено. - php.net/manual/en/…

— Daniel Paul Searles

2

Я б запропонував прочитати лише перший байт ... якщо (@file_get_contents ($ url, false, NULL, 0,1))

— Daniel Valland

8

function URLIsValid($URL)
{
    $exists = true;
    $file_headers = @get_headers($URL);
    $InvalidHeaders = array('404', '403', '500');
    foreach($InvalidHeaders as $HeaderVal)
    {
            if(strstr($file_headers[0], $HeaderVal))
            {
                    $exists = false;
                    break;
            }
    }
    return $exists;
}

— leela
джерело

8

Я використовую цю функцію:

/**
 * @param $url
 * @param array $options
 * @return string
 * @throws Exception
 */
function checkURL($url, array $options = array()) {
    if (empty($url)) {
        throw new Exception('URL is empty');
    }

    // list of HTTP status codes
    $httpStatusCodes = array(
        100 => 'Continue',
        101 => 'Switching Protocols',
        102 => 'Processing',
        200 => 'OK',
        201 => 'Created',
        202 => 'Accepted',
        203 => 'Non-Authoritative Information',
        204 => 'No Content',
        205 => 'Reset Content',
        206 => 'Partial Content',
        207 => 'Multi-Status',
        208 => 'Already Reported',
        226 => 'IM Used',
        300 => 'Multiple Choices',
        301 => 'Moved Permanently',
        302 => 'Found',
        303 => 'See Other',
        304 => 'Not Modified',
        305 => 'Use Proxy',
        306 => 'Switch Proxy',
        307 => 'Temporary Redirect',
        308 => 'Permanent Redirect',
        400 => 'Bad Request',
        401 => 'Unauthorized',
        402 => 'Payment Required',
        403 => 'Forbidden',
        404 => 'Not Found',
        405 => 'Method Not Allowed',
        406 => 'Not Acceptable',
        407 => 'Proxy Authentication Required',
        408 => 'Request Timeout',
        409 => 'Conflict',
        410 => 'Gone',
        411 => 'Length Required',
        412 => 'Precondition Failed',
        413 => 'Payload Too Large',
        414 => 'Request-URI Too Long',
        415 => 'Unsupported Media Type',
        416 => 'Requested Range Not Satisfiable',
        417 => 'Expectation Failed',
        418 => 'I\'m a teapot',
        422 => 'Unprocessable Entity',
        423 => 'Locked',
        424 => 'Failed Dependency',
        425 => 'Unordered Collection',
        426 => 'Upgrade Required',
        428 => 'Precondition Required',
        429 => 'Too Many Requests',
        431 => 'Request Header Fields Too Large',
        449 => 'Retry With',
        450 => 'Blocked by Windows Parental Controls',
        500 => 'Internal Server Error',
        501 => 'Not Implemented',
        502 => 'Bad Gateway',
        503 => 'Service Unavailable',
        504 => 'Gateway Timeout',
        505 => 'HTTP Version Not Supported',
        506 => 'Variant Also Negotiates',
        507 => 'Insufficient Storage',
        508 => 'Loop Detected',
        509 => 'Bandwidth Limit Exceeded',
        510 => 'Not Extended',
        511 => 'Network Authentication Required',
        599 => 'Network Connect Timeout Error'
    );

    $ch = curl_init($url);
    curl_setopt($ch, CURLOPT_NOBODY, true);
    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);

    if (isset($options['timeout'])) {
        $timeout = (int) $options['timeout'];
        curl_setopt($ch, CURLOPT_TIMEOUT, $timeout);
    }

    curl_exec($ch);
    $returnedStatusCode = curl_getinfo($ch, CURLINFO_HTTP_CODE);
    curl_close($ch);

    if (array_key_exists($returnedStatusCode, $httpStatusCodes)) {
        return "URL: '{$url}' - Error code: {$returnedStatusCode} - Definition: {$httpStatusCodes[$returnedStatusCode]}";
    } else {
        return "'{$url}' does not exist";
    }
}

— Есан
джерело

5

Рішення get_headers () karim79 не працювало для мене, оскільки я отримав шалені результати за допомогою Pinterest.

get_headers(): SSL operation failed with code 1. OpenSSL Error messages: error:14090086:SSL routines:SSL3_GET_SERVER_CERTIFICATE:certificate verify failed

Array
(
    [url] => https://www.pinterest.com/jonathan_parl/
    [exists] => 
)

get_headers(): Failed to enable crypto

Array
(
    [url] => https://www.pinterest.com/jonathan_parl/
    [exists] => 
)

get_headers(https://www.pinterest.com/jonathan_parl/): failed to open stream: operation failed

Array
(
    [url] => https://www.pinterest.com/jonathan_parl/
    [exists] => 
)

У будь-якому випадку, цей розробник демонструє, що cURL набагато швидше, ніж get_headers ():

http://php.net/manual/fr/function.get-headers.php#104723

Оскільки багато людей попросили виправити karim79 - це рішення CURL, ось рішення, яке я створив сьогодні.

/**
* Send an HTTP request to a the $url and check the header posted back.
*
* @param $url String url to which we must send the request.
* @param $failCodeList Int array list of code for which the page is considered invalid.
*
* @return Boolean
*/
public static function isUrlExists($url, array $failCodeList = array(404)){

    $exists = false;

    if(!StringManager::stringStartWith($url, "http") and !StringManager::stringStartWith($url, "ftp")){

        $url = "https://" . $url;
    }

    if (preg_match(RegularExpression::URL, $url)){

        $handle = curl_init($url);


        curl_setopt($handle, CURLOPT_RETURNTRANSFER, true);

        curl_setopt($handle, CURLOPT_SSL_VERIFYPEER, false);

        curl_setopt($handle, CURLOPT_HEADER, true);

        curl_setopt($handle, CURLOPT_NOBODY, true);

        curl_setopt($handle, CURLOPT_USERAGENT, true);


        $headers = curl_exec($handle);

        curl_close($handle);


        if (empty($failCodeList) or !is_array($failCodeList)){

            $failCodeList = array(404); 
        }

        if (!empty($headers)){

            $exists = true;

            $headers = explode(PHP_EOL, $headers);

            foreach($failCodeList as $code){

                if (is_numeric($code) and strpos($headers[0], strval($code)) !== false){

                    $exists = false;

                    break;  
                }
            }
        }
    }

    return $exists;
}

Дозвольте мені пояснити варіанти завивки:

CURLOPT_RETURNTRANSFER : поверніть рядок замість відображення дзвінка на екрані.

CURLOPT_SSL_VERIFYPEER : cUrl не отримає сертифікат

CURLOPT_HEADER : включіть заголовок у рядок

CURLOPT_NOBODY : не включайте тіло в рядок

CURLOPT_USERAGENT : деякий сайт потребує належного функціонування (наприклад: https://plus.google.com )

Додаткова примітка . У цій функції я використовую регекс Дієго Періні для перевірки URL-адреси перед надсиланням запиту:

const URL = "%^(?:(?:https?|ftp)://)(?:\S+(?::\S*)?@|\d{1,3}(?:\.\d{1,3}){3}|(?:(?:[a-z\d\x{00a1}-\x{ffff}]+-?)*[a-z\d\x{00a1}-\x{ffff}]+)(?:\.(?:[a-z\d\x{00a1}-\x{ffff}]+-?)*[a-z\d\x{00a1}-\x{ffff}]+)*(?:\.[a-z\x{00a1}-\x{ffff}]{2,6}))(?::\d+)?(?:[^\s]*)?$%iu"; //@copyright Diego Perini

Додаткова примітка 2 : Я розриваю рядок заголовка та заголовки користувачів [0], щоб впевнитись лише у тому, що підтверджує лише код повернення та повідомлення (приклад: 200, 404, 405 тощо)

Додаткова примітка 3 : Іноді перевірки лише коду 404 недостатньо (див. Тест одиниці), тому є необов'язковий параметр $ failCodeList, щоб надати весь список кодів для відхилення.

І, звичайно, ось тест одиниці (включаючи всю популярну соціальну мережу), що підтверджує моє кодування:

public function testIsUrlExists(){

//invalid
$this->assertFalse(ToolManager::isUrlExists("woot"));

$this->assertFalse(ToolManager::isUrlExists("https://www.facebook.com/jonathan.parentlevesque4545646456"));

$this->assertFalse(ToolManager::isUrlExists("https://plus.google.com/+JonathanParentL%C3%A9vesque890800"));

$this->assertFalse(ToolManager::isUrlExists("https://instagram.com/mariloubiz1232132/", array(404, 405)));

$this->assertFalse(ToolManager::isUrlExists("https://www.pinterest.com/jonathan_parl1231/"));

$this->assertFalse(ToolManager::isUrlExists("https://regex101.com/546465465456"));

$this->assertFalse(ToolManager::isUrlExists("https://twitter.com/arcadefire4566546"));

$this->assertFalse(ToolManager::isUrlExists("https://vimeo.com/**($%?%$", array(400, 405)));

$this->assertFalse(ToolManager::isUrlExists("https://www.youtube.com/user/Darkjo666456456456"));


//valid
$this->assertTrue(ToolManager::isUrlExists("www.google.ca"));

$this->assertTrue(ToolManager::isUrlExists("https://www.facebook.com/jonathan.parentlevesque"));

$this->assertTrue(ToolManager::isUrlExists("https://plus.google.com/+JonathanParentL%C3%A9vesque"));

$this->assertTrue(ToolManager::isUrlExists("https://instagram.com/mariloubiz/"));

$this->assertTrue(ToolManager::isUrlExists("https://www.facebook.com/jonathan.parentlevesque"));

$this->assertTrue(ToolManager::isUrlExists("https://www.pinterest.com/"));

$this->assertTrue(ToolManager::isUrlExists("https://regex101.com"));

$this->assertTrue(ToolManager::isUrlExists("https://twitter.com/arcadefire"));

$this->assertTrue(ToolManager::isUrlExists("https://vimeo.com/"));

$this->assertTrue(ToolManager::isUrlExists("https://www.youtube.com/user/Darkjo666"));
}

Великий успіх усім,

Джонатан Батько-Левеск з Монреаля

— Джонатан, батько Левеск
джерело

4

function urlIsOk($url)
{
    $headers = @get_headers($url);
    $httpStatus = intval(substr($headers[0], 9, 3));
    if ($httpStatus<400)
    {
        return true;
    }
    return false;
}

— Спр
джерело

3

досить швидко:

function http_response($url){
    $resURL = curl_init(); 
    curl_setopt($resURL, CURLOPT_URL, $url); 
    curl_setopt($resURL, CURLOPT_BINARYTRANSFER, 1); 
    curl_setopt($resURL, CURLOPT_HEADERFUNCTION, 'curlHeaderCallback'); 
    curl_setopt($resURL, CURLOPT_FAILONERROR, 1); 
    curl_exec ($resURL); 
    $intReturnCode = curl_getinfo($resURL, CURLINFO_HTTP_CODE); 
    curl_close ($resURL); 
    if ($intReturnCode != 200 && $intReturnCode != 302 && $intReturnCode != 304) { return 0; } else return 1;
}

echo 'google:';
echo http_response('http://www.google.com');
echo '/ ogogle:';
echo http_response('http://www.ogogle.com');

— Себастьян Лассе
джерело

Занадто складно :) stackoverflow.com/questions/981954 / ...

— JACK

Я отримую це винятокn, коли існує URL: Не вдалося зателефонувати на CURLOPT_HEADERFUNCTION

— safiot

3

Всі вище розчини + зайвий цукор. (Остаточне рішення AIO)

/**
 * Check that given URL is valid and exists.
 * @param string $url URL to check
 * @return bool TRUE when valid | FALSE anyway
 */
function urlExists ( $url ) {
    // Remove all illegal characters from a url
    $url = filter_var($url, FILTER_SANITIZE_URL);

    // Validate URI
    if (filter_var($url, FILTER_VALIDATE_URL) === FALSE
        // check only for http/https schemes.
        || !in_array(strtolower(parse_url($url, PHP_URL_SCHEME)), ['http','https'], true )
    ) {
        return false;
    }

    // Check that URL exists
    $file_headers = @get_headers($url);
    return !(!$file_headers || $file_headers[0] === 'HTTP/1.1 404 Not Found');
}

Приклад:

var_dump ( urlExists('http://stackoverflow.com/') );
// Output: true;

— Джунайд Атарі
джерело

3

щоб перевірити, чи URL-адреса онлайн чи офлайн ---

function get_http_response_code($theURL) {
    $headers = @get_headers($theURL);
    return substr($headers[0], 9, 3);
}

— Хосам Ельзаг
джерело

3

function url_exists($url) {
    $headers = @get_headers($url);
    return (strpos($headers[0],'200')===false)? false:true;
}

— Крішна Гурагай
джерело

2

Ось рішення, яке зчитує лише перший байт вихідного коду ... повернення помилки, якщо файл_get_contents не вдалося ... Це також буде працювати для віддалених файлів, таких як зображення.

 function urlExists($url)
{
    if (@file_get_contents($url,false,NULL,0,1))
    {
        return true;
    }
    return false;
}

— Даніель Валланд
джерело

0

найпростіший спосіб - завиток (і Швидше теж)

<?php
$mylinks="http://site.com/page.html";
$handlerr = curl_init($mylinks);
curl_setopt($handlerr,  CURLOPT_RETURNTRANSFER, TRUE);
$resp = curl_exec($handlerr);
$ht = curl_getinfo($handlerr, CURLINFO_HTTP_CODE);


if ($ht == '404')
     { echo 'OK';}
else { echo 'NO';}

?>

— Т.Тодуа
джерело

0

Інший спосіб перевірити, чи URL-адреса є дійсною чи ні, може бути:

<?php

  if (isValidURL("http://www.gimepix.com")) {
      echo "URL is valid...";
  } else {
      echo "URL is not valid...";
  }

  function isValidURL($url) {
      $file_headers = @get_headers($url);
      if (strpos($file_headers[0], "200 OK") > 0) {
         return true;
      } else {
        return false;
      }
  }
?>

— Антоніо Карлос Барбоса
джерело

0

get_headers () повертає масив із заголовками, надісланими сервером у відповідь на HTTP-запит.

$image_path = 'https://your-domain.com/assets/img/image.jpg';

$file_headers = @get_headers($image_path);
//Prints the response out in an array
//print_r($file_headers); 

if($file_headers[0] == 'HTTP/1.1 404 Not Found'){
   echo 'Failed because path does not exist.</br>';
}else{
   echo 'It works. Your good to go!</br>';
}

— Жакові Гейл
джерело

0

CURL може повернути HTTP-код. Я не вважаю, що потрібен додатковий код?

function urlExists($url=NULL)
    {
        if($url == NULL) return false;
        $ch = curl_init($url);
        curl_setopt($ch, CURLOPT_TIMEOUT, 5);
        curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 5);
        curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
        $data = curl_exec($ch);
        $httpcode = curl_getinfo($ch, CURLINFO_HTTP_CODE);
        curl_close($ch); 
        if($httpcode>=200 && $httpcode<300){
            return true;
        } else {
            return false;
        }
    }

— Арун Вітто
джерело

0

Одне, що слід враховувати, перевіряючи заголовок на 404, - це випадок, коли сайт не генерує 404 негайно.

Багато сайтів перевіряють, чи існує сторінка у джерелі PHP / ASP (тощо) і пересилають вас на сторінку 404. У цих випадках заголовок в основному подовжується на заголовок 404, що генерується. У цих випадках помилка 404 не в першому рядку заголовка, а в десятому.

$array = get_headers($url);
$string = $array[0];
print_r($string) // would generate:

Array ( 
[0] => HTTP/1.0 301 Moved Permanently 
[1] => Date: Fri, 09 Nov 2018 16:12:29 GMT 
[2] => Server: Apache/2.4.34 (FreeBSD) LibreSSL/2.7.4 PHP/7.0.31 
[3] => X-Powered-By: PHP/7.0.31 
[4] => Set-Cookie: landing=%2Freed-diffuser-fig-pudding-50; path=/; HttpOnly 
[5] => Location: /reed-diffuser-fig-pudding-50/ 
[6] => Content-Length: 0 
[7] => Connection: close 
[8] => Content-Type: text/html; charset=utf-8 
[9] => HTTP/1.0 404 Not Found 
[10] => Date: Fri, 09 Nov 2018 16:12:29 GMT 
[11] => Server: Apache/2.4.34 (FreeBSD) LibreSSL/2.7.4 PHP/7.0.31 
[12] => X-Powered-By: PHP/7.0.31 
[13] => Set-Cookie: landing=%2Freed-diffuser-fig-pudding-50%2F; path=/; HttpOnly 
[14] => Connection: close 
[15] => Content-Type: text/html; charset=utf-8 
)

— Лексиб0й
джерело

0

Я запускаю кілька тестів, щоб побачити, чи є посилання на моєму сайті дійсними - попереджає мене, коли треті сторони змінюють свої посилання. У мене виникла проблема із сайтом, який мав погано налаштований сертифікат, який означав, що get_headers php не працюють.

Так, я прочитав, що завиток швидше, і вирішив дати йому піти. тоді у мене виникла проблема з linkedin, яка дала мені помилку 999, що виявилося проблемою з агентом користувача.

Мене не хвилювало, чи сертифікат недійсний для цього тесту, і мені було все одно, чи відповідь була повторною.

Тоді я зрозумів, що все-таки використовувати get_headers, якщо локон провалюється ...

Спробуй....

/**
 * returns true/false if the $url is present.
 *
 * @param string $url assumes this is a valid url.
 *
 * @return bool
 */
private function url_exists (string $url): bool
{
  $ch = curl_init($url);
  curl_setopt($ch, CURLOPT_URL, $url);
  curl_setopt($ch, CURLOPT_NOBODY, TRUE);             // this does a head request to make it faster.
  curl_setopt($ch, CURLOPT_HEADER, TRUE);             // just the headers
  curl_setopt($ch, CURLOPT_SSL_VERIFYSTATUS, FALSE);  // turn off that pesky ssl stuff - some sys admins can't get it right.
  curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, FALSE);
  // set a real user agent to stop linkedin getting upset.
  curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36');
  curl_exec($ch);
  $http_code = curl_getinfo($ch, CURLINFO_HTTP_CODE);
  if (($http_code >= HTTP_OK && $http_code < HTTP_BAD_REQUEST) || $http_code === 999)
  {
    curl_close($ch);
    return TRUE;
  }
  $error = curl_error($ch); // used for debugging.
  curl_close($ch);
  // just try the get_headers - it might work!
  stream_context_set_default(array('http' => array('method' => 'HEAD')));
  $file_headers = @get_headers($url);
  if ($file_headers)
  {
    $response_code = substr($file_headers[0], 9, 3);
    return $response_code >= 200 && $response_code < 400;
  }
  return FALSE;
}

— pgee70
джерело

-2

якась стара тема, але .. я роблю це:

$file = 'http://www.google.com';
$file_headers = @get_headers($file);
if ($file_headers) {
    $exists = true;
} else {
    $exists = false;
}

— hackdotslashdotkill
джерело

Сорта .. Але не зовсім.

— hackdotslashdotkill

як ваша відповідь краща?

— Jah

@Jah це явно не так у -2. Я, мабуть, розмістив цю пізню одну ніч, коли я заснув після того, як увесь день дивився на екрани ..

— hackdotslashdotkill