Я пишу сканер в Ruby (1.9), який споживає багато HTML з багатьох випадкових сайтів.
Намагаючись витягнути посилання, я вирішив просто використовувати .scan(/href="(.*?)"/i)
замість nokogiri / hpricot (основна швидкість). Проблема полягає в тому, що зараз я отримую багато invalid byte sequence in UTF-8
помилок.
З того, що я зрозумів, у net/http
бібліотеці немає специфічних параметрів кодування, і те, що входить, в основному не належним чином позначено.
Який був би найкращий спосіб реально працювати з цими вхідними даними? Я спробував .encode
встановити заміни та недійсні параметри, але успіху поки що немає ...
'U*'
скасувати 'C*'
?