Я пишу сканер в Ruby (1.9), який споживає багато HTML з багатьох випадкових сайтів.
Намагаючись витягнути посилання, я вирішив просто використовувати .scan(/href="(.*?)"/i)замість nokogiri / hpricot (основна швидкість). Проблема полягає в тому, що зараз я отримую багато invalid byte sequence in UTF-8помилок.
З того, що я зрозумів, у net/httpбібліотеці немає специфічних параметрів кодування, і те, що входить, в основному не належним чином позначено.
Який був би найкращий спосіб реально працювати з цими вхідними даними? Я спробував .encodeвстановити заміни та недійсні параметри, але успіху поки що немає ...
'U*'скасувати 'C*'?