Мені потрібен спосіб отримати двійкове представлення рядка в python. напр
st = "hello world"
toBinary(st)
Чи є модуль якогось акуратного способу зробити це?
ord
номер кожного символу (наприклад, шестигранник)?
Мені потрібен спосіб отримати двійкове представлення рядка в python. напр
st = "hello world"
toBinary(st)
Чи є модуль якогось акуратного способу зробити це?
ord
номер кожного символу (наприклад, шестигранник)?
Відповіді:
Щось на зразок цього?
>>> st = "hello world"
>>> ' '.join(format(ord(x), 'b') for x in st)
'1101000 1100101 1101100 1101100 1101111 100000 1110111 1101111 1110010 1101100 1100100'
#using `bytearray`
>>> ' '.join(format(x, 'b') for x in bytearray(st, 'utf-8'))
'1101000 1100101 1101100 1101100 1101111 100000 1110111 1101111 1110010 1101100 1100100'
' '.join('{0:08b}'.format(ord(x), 'b') for x in st)
, що приблизно на 35% швидше, ніж zfill(8)
рішення (принаймні, на моїй машині).
β
, наприклад, який, як мені здається, представлений 11001110 10110010
внутрішньо?
Як більш пітонічний спосіб, ви можете спочатку перетворити рядок у байтовий масив, а потім використовувати bin
функцію в межах map
:
>>> st = "hello world"
>>> map(bin,bytearray(st))
['0b1101000', '0b1100101', '0b1101100', '0b1101100', '0b1101111', '0b100000', '0b1110111', '0b1101111', '0b1110010', '0b1101100', '0b1100100']
Або ви можете приєднатися до нього:
>>> ' '.join(map(bin,bytearray(st)))
'0b1101000 0b1100101 0b1101100 0b1101100 0b1101111 0b100000 0b1110111 0b1101111 0b1110010 0b1101100 0b1100100'
Зауважте, що в python3 потрібно вказати кодування для bytearray
функції:
>>> ' '.join(map(bin,bytearray(st,'utf8')))
'0b1101000 0b1100101 0b1101100 0b1101100 0b1101111 0b100000 0b1110111 0b1101111 0b1110010 0b1101100 0b1100100'
Ви також можете використовувати binascii
модуль у python 2:
>>> import binascii
>>> bin(int(binascii.hexlify(st),16))
'0b110100001100101011011000110110001101111001000000111011101101111011100100110110001100100'
hexlify
повернути шістнадцяткове представлення бінарних даних, тоді ви можете перетворити в int, вказавши 16 як його базу, а потім перетворити їх у двійкові bin
.
3.7.4
): (1) bytearray
очікує, що кодування (а не лише рядок) і (2) map(bin, ...)
повернуть map
об'єкт. Для першого пункту я використовую, наприклад, bob
.encoding ('ascii') `, як запропонував @Tao. По-друге, вкажіть, використовуючи join
метод, як в інших прикладах @Kasramvd відобразить бажаний результат.
Нам просто потрібно його кодувати.
'string'.encode('ascii')
v3.7.4
) це повертає bytes
об'єкт (з представленнями ascii кожного байту, якщо він є), і для того, щоб відобразити його бінарне представлення, мені потрібно bin
, наприклад, з ' '.join(item[2:] for item in map(bin, 'bob'.encode('ascii')))
(зверніть увагу, що 0b
його потрібно видалити на початку бінарного представлення кожного персонажа).
Ви можете отримати доступ до значень коду для символів у рядку за допомогою ord()
вбудованої функції. Якщо вам потрібно буде відформатувати це у двійковому форматі, string.format()
метод зробить цю роботу.
a = "test"
print(' '.join(format(ord(x), 'b') for x in a))
(Дякую Ешвіні Шадхарі за публікацію фрагмента коду.)
Хоча вищезазначений код працює в Python 3, це питання ускладнюється, якщо ви припускаєте будь-яке кодування, крім UTF-8. У Python 2 рядки є послідовностями байтів, а кодування ASCII передбачається за замовчуванням. У Python 3 рядки вважаються Unicode, і існує окремий bytes
тип, який більше схожий на рядок Python 2. Якщо ви хочете припустити будь-яке кодування, крім UTF-8, вам потрібно буде вказати кодування.
У Python 3 ви можете зробити щось подібне:
a = "test"
a_bytes = bytes(a, "ascii")
print(' '.join(["{0:b}".format(x) for x in a_bytes]))
Відмінності між кодуванням UTF-8 та кодуванням ascii не будуть очевидними для простих буквено-цифрових рядків, але стануть важливими, якщо ви обробляєте текст, який включає символи, що не містяться в наборі символів ascii.
У версії Python 3.6 і вище ви можете використовувати f-string для форматування результату.
str = "hello world"
print(" ".join(f"{ord(i):08b}" for i in str))
01101000 01100101 01101100 01101100 01101111 00100000 01110111 01101111 01110010 01101100 01100100
Ліва сторона двокрапки, ord (i), є фактичним об'єктом, значення якого буде відформатоване та вставлено у висновок. Використання ord () дає точку коду базового 10 для одного символу str.
Права частина двокрапки - специфікатор формату. 08 означає ширину 8, 0 прокладений, а b функціонує як знак для виведення отриманого числа в базі 2 (двійкові).
Це оновлення для існуючих відповідей, які використовувались bytearray()
і більше не можуть працювати таким чином:
>>> st = "hello world"
>>> map(bin, bytearray(st))
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
TypeError: string argument without an encoding
Тому що, як пояснено у посиланні вище, якщо джерелом є рядок, ви також повинні дати кодування :
>>> map(bin, bytearray(st, encoding='utf-8'))
<map object at 0x7f14dfb1ff28>
def method_a(sample_string):
binary = ' '.join(format(ord(x), 'b') for x in sample_string)
def method_b(sample_string):
binary = ' '.join(map(bin,bytearray(sample_string,encoding='utf-8')))
if __name__ == '__main__':
from timeit import timeit
sample_string = 'Convert this ascii strong to binary.'
print(
timeit(f'method_a("{sample_string}")',setup='from __main__ import method_a'),
timeit(f'method_b("{sample_string}")',setup='from __main__ import method_b')
)
# 9.564299999998184 2.943955828988692
method_b є значно ефективнішим при перетворенні в байтовий масив, оскільки він робить виклики функцій низького рівня, а не вручну перетворює кожен символ у ціле число, а потім перетворює це ціле число у його бінарне значення.
a = list(input("Enter a string\t: "))
def fun(a):
c =' '.join(['0'*(8-len(bin(ord(i))[2:]))+(bin(ord(i))[2:]) for i in a])
return c
print(fun(a))