Кодувати / декодувати URL-адреси в C ++ [закрито]


85

Хтось знає якийсь хороший код на C ++, який це робить?


3
Як щодо прийняття відповіді?
gsamaras

Відповіді:


81

Я зіткнувся з кодуванням половини цієї проблеми днями. Невдоволений доступними опціями, і, подивившись на цей зразок коду C , я вирішив передати власну функцію кодування URL-адреси C ++:

#include <cctype>
#include <iomanip>
#include <sstream>
#include <string>

using namespace std;

string url_encode(const string &value) {
    ostringstream escaped;
    escaped.fill('0');
    escaped << hex;

    for (string::const_iterator i = value.begin(), n = value.end(); i != n; ++i) {
        string::value_type c = (*i);

        // Keep alphanumeric and other accepted characters intact
        if (isalnum(c) || c == '-' || c == '_' || c == '.' || c == '~') {
            escaped << c;
            continue;
        }

        // Any other characters are percent-encoded
        escaped << uppercase;
        escaped << '%' << setw(2) << int((unsigned char) c);
        escaped << nouppercase;
    }

    return escaped.str();
}

Реалізація функції декодування залишається читачем як вправа. : P


1
Я вважаю, що загальнішим (в цілому правильним) є заміна '' на "% 20". Я оновив код відповідно; сміливо відкочуйтеся, якщо ви не згодні.
Джош Келлі,

1
Ні, я згоден. Також скористався шансом видалити цей безглуздий setw(0)дзвінок (тоді я думав, що мінімальна ширина залишатиметься встановленою, доки я не зміню її назад, але насправді вона скидається після наступного введення).
xperroni

1
Мені довелося додати std :: uppercase до рядка "escape" << '%' << std :: uppercase << std :: setw (2) << int ((unsigned char) c); " Якщо інші люди задаються питанням, чому це повертається, наприклад,% 3a замість% 3A
gumlym

2
Виглядає неправильно, оскільки рядки UTF-8 не підтримуються ( w3schools.com/tags/ref_urlencode.asp ). Здається, це працює лише для Windows-1252
Skywalker13

1
Проблема полягала просто в тому isalnum(c), що її потрібно змінити наisalnum((unsigned char) c)
Skywalker13

74

Відповідь на власне запитання ...

libcurl має curl_easy_escape для кодування.

Для декодування curl_easy_unescape


4
Ви повинні прийняти цю відповідь, щоб вона відображалася вгорі (і людям це було легше).
Mouagip

вам потрібно використовувати curl, щоб це працювало, і ви повинні звільнити пам’ять
xinthose

Пов'язане запитання: чому Unescape curl не справляється зі зміною знака "+" на пробіл? Хіба це не стандартна процедура декодування URL-адрес?
Стефан,

12
string urlDecode(string &SRC) {
    string ret;
    char ch;
    int i, ii;
    for (i=0; i<SRC.length(); i++) {
        if (int(SRC[i])==37) {
            sscanf(SRC.substr(i+1,2).c_str(), "%x", &ii);
            ch=static_cast<char>(ii);
            ret+=ch;
            i=i+2;
        } else {
            ret+=SRC[i];
        }
    }
    return (ret);
}

не найкращий, але працює нормально ;-)


5
Звичайно, вам слід використовувати '%'замість 37.
Джон Цвінк,

4
Це не перетворює '+' у пробіл
xryl669,

11

cpp-netlib має функції

namespace boost {
  namespace network {
    namespace uri {    
      inline std::string decoded(const std::string &input);
      inline std::string encoded(const std::string &input);
    }
  }
}

вони дозволяють дуже легко кодувати та декодувати рядки URL.


2
omg дякую. документація на cpp-netlib скупа. Чи є у вас посилання на хороші шпаргалки?
user249806

8

Зазвичай додавання '%' до значення int символу не працює при кодуванні, значення передбачається шістнадцятковим еквівалентом. наприклад, "/" - це "% 2F", а не "% 47".

Я думаю, що це найкращі та стислі рішення як для кодування URL-адреси, так і для декодування (без особливих залежностей заголовків).

string urlEncode(string str){
    string new_str = "";
    char c;
    int ic;
    const char* chars = str.c_str();
    char bufHex[10];
    int len = strlen(chars);

    for(int i=0;i<len;i++){
        c = chars[i];
        ic = c;
        // uncomment this if you want to encode spaces with +
        /*if (c==' ') new_str += '+';   
        else */if (isalnum(c) || c == '-' || c == '_' || c == '.' || c == '~') new_str += c;
        else {
            sprintf(bufHex,"%X",c);
            if(ic < 16) 
                new_str += "%0"; 
            else
                new_str += "%";
            new_str += bufHex;
        }
    }
    return new_str;
 }

string urlDecode(string str){
    string ret;
    char ch;
    int i, ii, len = str.length();

    for (i=0; i < len; i++){
        if(str[i] != '%'){
            if(str[i] == '+')
                ret += ' ';
            else
                ret += str[i];
        }else{
            sscanf(str.substr(i + 1, 2).c_str(), "%x", &ii);
            ch = static_cast<char>(ii);
            ret += ch;
            i = i + 2;
        }
    }
    return ret;
}

if(ic < 16) new_str += "%0"; Для чого це харчування ?? @tormuto @reliasn
KriyenKP

1
@Kriyen використовується для заповнення кодованого шістнадцяткового коду нулем на випадок, якщо це призводить до однієї літери; оскільки від 0 до 15 у шістнадцятковій системі дорівнює 0 до F.
тормуто

1
Мені такий підхід подобається найбільше. +1 за використання стандартних бібліотек. Хоча є дві проблеми, які потрібно виправити. Я чех і вживаю букву "ý". Результат був "% 0FFFFFFC3% 0FFFFFFBD". По-перше, використовувати перемикач 16 не потрібно, оскільки utf8 гарантує запуск всіх кінцевих байтів з 10, і, здавалося, він провалив мій байт. Друге питання - FF, оскільки не всі комп’ютери мають однакову кількість бітів на int. Виправлення полягало в тому, щоб пропустити перемикач 16 (не потрібно) і захопити дві останні символи з буфера. (Я використовував stringstream, оскільки мені зручніше і буфер рядків). Все-таки дав бал. Як і кадр
Вольт

@Volt, чи зможете ви опублікувати оновлений код у новій відповіді? Ви згадуєте проблеми, але недостатньо інформації для очевидного виправлення.
gregn3

Ця відповідь має деякі проблеми, оскільки вона використовує strlen. По-перше, це не має сенсу, оскільки ми вже знаємо розмір рядкового об’єкта, тому це даремна втрата часу. Однак набагато гірше те, що рядок може містити 0-байт, який би загубився через strlen. Крім того, if (i <16) є неефективним, оскільки це може бути охоплено самим printf за допомогою "%%% 02X". І, нарешті, c повинен бути беззнаковим байтом, інакше ви отримаєте ефект, який @Volt описував, ведучи '0xFFF ...'.
Деволус,

8

[Режим Necromancer увімкнено]
Натрапив на це питання, коли шукав швидке, сучасне, незалежне від платформи та елегантне рішення. Як і будь-яке з перерахованих вище, cpp-netlib став би переможцем, але він має жахливу вразливість пам'яті у "розшифрованій" функції. Тож я придумав рішучий дух qi / karma boost.

namespace bsq = boost::spirit::qi;
namespace bk = boost::spirit::karma;
bsq::int_parser<unsigned char, 16, 2, 2> hex_byte;
template <typename InputIterator>
struct unescaped_string
    : bsq::grammar<InputIterator, std::string(char const *)> {
  unescaped_string() : unescaped_string::base_type(unesc_str) {
    unesc_char.add("+", ' ');

    unesc_str = *(unesc_char | "%" >> hex_byte | bsq::char_);
  }

  bsq::rule<InputIterator, std::string(char const *)> unesc_str;
  bsq::symbols<char const, char const> unesc_char;
};

template <typename OutputIterator>
struct escaped_string : bk::grammar<OutputIterator, std::string(char const *)> {
  escaped_string() : escaped_string::base_type(esc_str) {

    esc_str = *(bk::char_("a-zA-Z0-9_.~-") | "%" << bk::right_align(2,0)[bk::hex]);
  }
  bk::rule<OutputIterator, std::string(char const *)> esc_str;
};

Використання вищезазначеного:

std::string unescape(const std::string &input) {
  std::string retVal;
  retVal.reserve(input.size());
  typedef std::string::const_iterator iterator_type;

  char const *start = "";
  iterator_type beg = input.begin();
  iterator_type end = input.end();
  unescaped_string<iterator_type> p;

  if (!bsq::parse(beg, end, p(start), retVal))
    retVal = input;
  return retVal;
}

std::string escape(const std::string &input) {
  typedef std::back_insert_iterator<std::string> sink_type;
  std::string retVal;
  retVal.reserve(input.size() * 3);
  sink_type sink(retVal);
  char const *start = "";

  escaped_string<sink_type> g;
  if (!bk::generate(sink, g(start), input))
    retVal = input;
  return retVal;
}

[Режим некроманта вимкнено]

EDIT01: виправлено нульове заповнення - особлива подяка Hartmut Kaiser
EDIT02: Прямий ефір на CoLiRu


Що таке "жахлива вразливість пам'яті" cpp-netlib? Чи можете ви дати коротке пояснення або посилання?
Крейг М. Бранденбург,

Про це (проблему) вже повідомляли, тому я не повідомляв і насправді не пам’ятаю ... щось на зразок порушення доступу при спробі розбору недійсної послідовності втечі, або щось інше
kreuzerkrieg


Дякуємо за роз'яснення!
Крейг М. Бранденбург


6

Натхненний xperroni, я написав декодер. Дякую за вказівник.

#include <iostream>
#include <sstream>
#include <string>

using namespace std;

char from_hex(char ch) {
    return isdigit(ch) ? ch - '0' : tolower(ch) - 'a' + 10;
}

string url_decode(string text) {
    char h;
    ostringstream escaped;
    escaped.fill('0');

    for (auto i = text.begin(), n = text.end(); i != n; ++i) {
        string::value_type c = (*i);

        if (c == '%') {
            if (i[1] && i[2]) {
                h = from_hex(i[1]) << 4 | from_hex(i[2]);
                escaped << h;
                i += 2;
            }
        } else if (c == '+') {
            escaped << ' ';
        } else {
            escaped << c;
        }
    }

    return escaped.str();
}

int main(int argc, char** argv) {
    string msg = "J%C3%B8rn!";
    cout << msg << endl;
    string decodemsg = url_decode(msg);
    cout << decodemsg << endl;

    return 0;
}

редагувати: Вилучено непотрібний cctype та iomainip.


1
Блок "if (c == '%')" потребує додаткової позамежної перевірки, i [1] та / або i [2] можуть бути поза text.end (). Я б також перейменовував "втік" у "неізольований". "escaped.fill ('0');" ймовірно непотрібна.
roalz

Будь ласка, подивіться на мою версію. Він більш оптимізований. pastebin.com/g0zMLpsj
KoD

4

Додавання наступних рекомендацій Білла щодо використання libcurl: відмінна пропозиція та оновлення:
через 3 роки функція curl_escape застаріла, тому для подальшого використання краще використовувати curl_easy_escape .


4

Я опинився на цьому питанні під час пошуку API для декодування URL-адреси в додатку win32 c ++. Оскільки питання не зовсім визначає платформу, якщо припустити, що Windows - це не погано.

InternetCanonicalizeUrl - це API для програм Windows. Більше інформації тут

        LPTSTR lpOutputBuffer = new TCHAR[1];
        DWORD dwSize = 1;
        BOOL fRes = ::InternetCanonicalizeUrl(strUrl, lpOutputBuffer, &dwSize, ICU_DECODE | ICU_NO_ENCODE);
        DWORD dwError = ::GetLastError();
        if (!fRes && dwError == ERROR_INSUFFICIENT_BUFFER)
        {
            delete lpOutputBuffer;
            lpOutputBuffer = new TCHAR[dwSize];
            fRes = ::InternetCanonicalizeUrl(strUrl, lpOutputBuffer, &dwSize, ICU_DECODE | ICU_NO_ENCODE);
            if (fRes)
            {
                //lpOutputBuffer has decoded url
            }
            else
            {
                //failed to decode
            }
            if (lpOutputBuffer !=NULL)
            {
                delete [] lpOutputBuffer;
                lpOutputBuffer = NULL;
            }
        }
        else
        {
            //some other error OR the input string url is just 1 char and was successfully decoded
        }

InternetCrackUrl ( тут ) також, здається, має прапори, щоб вказати, чи потрібно декодувати url


3

Я не зміг знайти тут декодування / Unescape URI, яке також декодує 2 та 3 байтові послідовності. Сприяючи моїй власній високопродуктивній версії, що на льоту перетворює вхідні дані c sting у wstring:

#include <string>

const char HEX2DEC[55] =
{
     0, 1, 2, 3,  4, 5, 6, 7,  8, 9,-1,-1, -1,-1,-1,-1,
    -1,10,11,12, 13,14,15,-1, -1,-1,-1,-1, -1,-1,-1,-1,
    -1,-1,-1,-1, -1,-1,-1,-1, -1,-1,-1,-1, -1,-1,-1,-1,
    -1,10,11,12, 13,14,15
};

#define __x2d__(s) HEX2DEC[*(s)-48]
#define __x2d2__(s) __x2d__(s) << 4 | __x2d__(s+1)

std::wstring decodeURI(const char * s) {
    unsigned char b;
    std::wstring ws;
    while (*s) {
        if (*s == '%')
            if ((b = __x2d2__(s + 1)) >= 0x80) {
                if (b >= 0xE0) { // three byte codepoint
                    ws += ((b & 0b00001111) << 12) | ((__x2d2__(s + 4) & 0b00111111) << 6) | (__x2d2__(s + 7) & 0b00111111);
                    s += 9;
                }
                else { // two byte codepoint
                    ws += (__x2d2__(s + 4) & 0b00111111) | (b & 0b00000011) << 6;
                    s += 6;
                }
            }
            else { // one byte codepoints
                ws += b;
                s += 3;
            }
        else { // no %
            ws += *s;
            s++;
        }
    }
    return ws;
}

#define __x2d2__(s) (__x2d__(s) << 4 | __x2d__(s+1))і він буде побудований за допомогою -WError.
Janek Olszak

Вибачте, але "висока продуктивність" при додаванні одинарних символів до a wstringнереально. Принаймні reserveдостатньо місця, інакше у вас будуть постійно масові перерозподіли
Фелікс Домбек,


1

Ця версія є чистою C і може додатково нормалізувати шлях до ресурсу. Використовувати його з C ++ тривіально:

#include <string>
#include <iostream>

int main(int argc, char** argv)
{
    const std::string src("/some.url/foo/../bar/%2e/");
    std::cout << "src=\"" << src << "\"" << std::endl;

    // either do it the C++ conformant way:
    char* dst_buf = new char[src.size() + 1];
    urldecode(dst_buf, src.c_str(), 1);
    std::string dst1(dst_buf);
    delete[] dst_buf;
    std::cout << "dst1=\"" << dst1 << "\"" << std::endl;

    // or in-place with the &[0] trick to skip the new/delete
    std::string dst2;
    dst2.resize(src.size() + 1);
    dst2.resize(urldecode(&dst2[0], src.c_str(), 1));
    std::cout << "dst2=\"" << dst2 << "\"" << std::endl;
}

Виходи:

src="/some.url/foo/../bar/%2e/"
dst1="/some.url/bar/"
dst2="/some.url/bar/"

І фактична функція:

#include <stddef.h>
#include <ctype.h>

/**
 * decode a percent-encoded C string with optional path normalization
 *
 * The buffer pointed to by @dst must be at least strlen(@src) bytes.
 * Decoding stops at the first character from @src that decodes to null.
 * Path normalization will remove redundant slashes and slash+dot sequences,
 * as well as removing path components when slash+dot+dot is found. It will
 * keep the root slash (if one was present) and will stop normalization
 * at the first questionmark found (so query parameters won't be normalized).
 *
 * @param dst       destination buffer
 * @param src       source buffer
 * @param normalize perform path normalization if nonzero
 * @return          number of valid characters in @dst
 * @author          Johan Lindh <johan@linkdata.se>
 * @legalese        BSD licensed (http://opensource.org/licenses/BSD-2-Clause)
 */
ptrdiff_t urldecode(char* dst, const char* src, int normalize)
{
    char* org_dst = dst;
    int slash_dot_dot = 0;
    char ch, a, b;
    do {
        ch = *src++;
        if (ch == '%' && isxdigit(a = src[0]) && isxdigit(b = src[1])) {
            if (a < 'A') a -= '0';
            else if(a < 'a') a -= 'A' - 10;
            else a -= 'a' - 10;
            if (b < 'A') b -= '0';
            else if(b < 'a') b -= 'A' - 10;
            else b -= 'a' - 10;
            ch = 16 * a + b;
            src += 2;
        }
        if (normalize) {
            switch (ch) {
            case '/':
                if (slash_dot_dot < 3) {
                    /* compress consecutive slashes and remove slash-dot */
                    dst -= slash_dot_dot;
                    slash_dot_dot = 1;
                    break;
                }
                /* fall-through */
            case '?':
                /* at start of query, stop normalizing */
                if (ch == '?')
                    normalize = 0;
                /* fall-through */
            case '\0':
                if (slash_dot_dot > 1) {
                    /* remove trailing slash-dot-(dot) */
                    dst -= slash_dot_dot;
                    /* remove parent directory if it was two dots */
                    if (slash_dot_dot == 3)
                        while (dst > org_dst && *--dst != '/')
                            /* empty body */;
                    slash_dot_dot = (ch == '/') ? 1 : 0;
                    /* keep the root slash if any */
                    if (!slash_dot_dot && dst == org_dst && *dst == '/')
                        ++dst;
                }
                break;
            case '.':
                if (slash_dot_dot == 1 || slash_dot_dot == 2) {
                    ++slash_dot_dot;
                    break;
                }
                /* fall-through */
            default:
                slash_dot_dot = 0;
            }
        }
        *dst++ = ch;
    } while(ch);
    return (dst - org_dst) - 1;
}

Дякую. Тут це без додаткового матеріалу шляху. pastebin.com/RN5g7g9u
Джуліан

Це не відповідає жодним рекомендаціям і є абсолютно помилковим порівняно з тим, про що просить автор (наприклад, '+' не замінюється пробілом) Нормалізація шляху не має нічого спільного з декодуванням url. Якщо ви маєте намір нормалізувати свій шлях, вам слід спочатку розділити свою URL-адресу на частини (схема, повноваження, шлях, запит, фрагмент), а потім застосувати будь-який вподобаний вами алгоритм лише до частини шляху.
xryl669

1

соковиті шматочки

#include <ctype.h> // isdigit, tolower

from_hex(char ch) {
  return isdigit(ch) ? ch - '0' : tolower(ch) - 'a' + 10;
}

char to_hex(char code) {
  static char hex[] = "0123456789abcdef";
  return hex[code & 15];
}

зазначивши це

char d = from_hex(hex[0]) << 4 | from_hex(hex[1]);

як і в

// %7B = '{'

char d = from_hex('7') << 4 | from_hex('B');

1

Ви можете використовувати функцію "g_uri_escape_string ()" за умови glib.h. https://developer.gnome.org/glib/stable/glib-URI-Functions.html

#include <stdio.h>
#include <stdlib.h>
#include <glib.h>
int main() {
    char *uri = "http://www.example.com?hello world";
    char *encoded_uri = NULL;
    //as per wiki (https://en.wikipedia.org/wiki/Percent-encoding)
    char *escape_char_str = "!*'();:@&=+$,/?#[]"; 
    encoded_uri = g_uri_escape_string(uri, escape_char_str, TRUE);
    printf("[%s]\n", encoded_uri);
    free(encoded_uri);

    return 0;
}

скомпілюйте його за допомогою:

gcc encoding_URI.c `pkg-config --cflags --libs glib-2.0`


0

Я знаю, що питання задає метод C ++, але для тих, кому він може знадобитися, я придумав дуже коротку функцію в простому C для кодування рядка. Він не створює новий рядок, навпаки, він змінює існуючий, а це означає, що він повинен мати достатній розмір, щоб містити новий рядок. Дуже легко встигати.

void urlEncode(char *string)
{
    char charToEncode;
    int posToEncode;
    while (((posToEncode=strspn(string,"1234567890ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz-_.~"))!=0) &&(posToEncode<strlen(string)))
    {
        charToEncode=string[posToEncode];
        memmove(string+posToEncode+3,string+posToEncode+1,strlen(string+posToEncode));
        string[posToEncode]='%';
        string[posToEncode+1]="0123456789ABCDEF"[charToEncode>>4];
        string[posToEncode+2]="0123456789ABCDEF"[charToEncode&0xf];
        string+=posToEncode+3;
    }
}

0

Ви можете просто використовувати функцію AtlEscapeUrl () з atlutil.h, просто перегляньте її документацію про те, як нею користуватися.


1
це працювало б лише на вікнах
kritzikratzi

Так, я спробував це на Windows.
Пратік

-2

Довелося це зробити в проекті без Boost. Отже, в підсумку написав свій власний. Я просто розміщу його на GitHub: https://github.com/corporateshark/LUrlParser

clParseURL URL = clParseURL::ParseURL( "https://name:pwd@github.com:80/path/res" );

if ( URL.IsValid() )
{
    cout << "Scheme    : " << URL.m_Scheme << endl;
    cout << "Host      : " << URL.m_Host << endl;
    cout << "Port      : " << URL.m_Port << endl;
    cout << "Path      : " << URL.m_Path << endl;
    cout << "Query     : " << URL.m_Query << endl;
    cout << "Fragment  : " << URL.m_Fragment << endl;
    cout << "User name : " << URL.m_UserName << endl;
    cout << "Password  : " << URL.m_Password << endl;
}

Ваше посилання на бібліотеку, яка аналізує URL-адресу. Він не% -кодує URL-адресу. (Або, принаймні, я ніде не бачив% у джерелі.) Як такий, я не думаю, що це відповідає на запитання.
Мартін Боннер підтримує Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.