У своєму наборі даних я маю дві категоричні стовпці, які я хотів би прорахувати. Обидва ці стовпці містять країни, деякі перекриваються (відображаються в обох стовпцях). Я хотів би вказати однакову кількість у колонці1 та колонці2 для тієї ж країни.
Мої дані виглядають приблизно так:
import pandas as pd
d = {'col1': ['NL', 'BE', 'FR', 'BE'], 'col2': ['BE', 'NL', 'ES', 'ES']}
df = pd.DataFrame(data=d)
df
Наразі я перетворюю такі дані, як:
from sklearn.preprocessing import LabelEncoder
df.apply(LabelEncoder().fit_transform)
Однак це не робить різниці між FR та ES. Чи є ще один простий спосіб прийти до наступного результату?
o = {'col1': [2,0,1,0], 'col2': [0,2,4,4]}
output = pd.DataFrame(data=o)
output