Складіть CSV


12

Огляд:

Ваше завдання - взяти вхід CSV у key=valueформаті та вирівняти його більш організованим (див. Нижче) способом.

Вхід:

Завжди через stdin . Записи завжди будуть у такій формі key=value:

foo=bar,baz=quux
abc=123,foo=fubar
baz=qwe,abc=rty,zxc=uiop,foo=asdf
  • Перелік можливих ключів заздалегідь не буде, їх потрібно знайти у вхідному тексті.
  • Кінець входу буде сигналізований EOF, незалежно від того , яка реалізація EOFпідходить для вашої ОС.

Вихід:

Перший рядок вашого результату буде переліком усіх клавіш, в алфавітному порядку (навіть якщо на клавішах є всі цифри). Після цього надрукуйте кожен запис у тому самому форматі CSV у відповідному заголовку цифр без вказаних ключів. Отже, для прикладу вище, правильним результатом буде:

abc,baz,foo,zxc
,quux,bar,
123,,fubar,
rty,qwe,asdf,uiop

FAQ:

  • Чи потрібно турбуватися про неправильно відформатований вхід?
    • Ні. Ваша програма може робити все, що завгодно (кидати виняток, ігнорувати тощо), якщо вхід неправильно відформатований, наприклад, рядок foo,bar,baz
  • Як мені впоратися із спеціальними символами втечі?
    • Ви можете припустити, що додаткових даних ,або =даних, які не є частиною key=valueформату, не буде. "не має особливого значення в цьому конкурсі (навіть якщо це робиться в традиційному CSV). також не є особливим у жодному разі.
    • Рядки повинні відповідати наступному регулярному вираженню: ^([^=,]+=[^=,]+)(,[^=,]+=[^=,]+)*$
      • Тому обидва ключі та значення будуть відповідати [^=,]+
  • Як щодо CRLFVS. LF?
    • Ви можете вибрати будь-який роздільник, який підходить для вашої платформи. Більшість мов справляються з цим без спеціального розмежувального коду.
  • Чи потрібно мені друкувати проміжні коми, якщо останні кілька стовпців не існують?
    • Так. Дивіться приклад.
  • Чи дозволені аналізатори CSV чи інші подібні зовнішні інструменти?
    • Ні. Ви повинні самі проаналізувати дані.

15
FAQ, коли ще ніхто не задавав питань. :-)
Джастін

5
@Quincunx Якщо я задаю собі питання, яке враховується;)
durron597

18
У мене таке відчуття, як працюють усі поширені запитання.
Мартін Ендер

Чи можу я мати в списку ключів і значень кінцеву кому? Це зробило б мій код набагато коротшим ...
PlasmaPower

@PlasmaPower я не розумію питання; однак ваша програма повинна точно відповідати прикладу виходу для даного прикладу входу
durron597

Відповіді:


3

GolfScript, 64 символи

n%{','/{'='/}%}%:I{{0=}/}%.&$:K','*n{`{{(2$=*}%''*\;}+K%','*n}I/

Код - це прямолінійна реалізація в GolfScript, ви можете перевірити приклад в Інтернеті .

Код з примітками:

# Split the input into lines, each line into tuples [key, value]
# and assign the result to variable I
n%{','/{'='/}%}%:I

# From each tuple take the 0'th element (i.e the key)
{{0=}/}%

# Take the unique items (.&), sort ($) and assign the result to variable K
.&$:K

# Output: join values with , and append a newline
','*n

# {...}I/: Loop over all lines of the input 
{

  # `{...}+K%: Loop over all keys and initially push the current 
  # line for each of the keys
  `{
    # stack here is [current key, current line]
    # {}%: map to all the items of the current line
    {
      # extract the key from the current item and compare
      (2$=
      # if equal keep [value], otherwise multiply with 0, i.e. discard
      *
    }%
    # join the results (may be one or zero) and drop the key
    ''*\; 
  }+K%
  # Output: join values of current line with , and append a newline
  ','*n
}I/

2

Perl 6: 119 символів, 120 байт

my@l=lines.map:{/[(\w+)\=(\w+)]+%\,/;push $!,~«@0;$%(@0 Z=>@1)}
say .join(",") for$!.=sort.=uniq,($(.{@$!}X//"") for@l)

Де-гольф:

my@l=lines.map: {
    # Parse the key=value pairs,
    # put all the keys in $/[0] (or $0)
    # put all the values in $/[1] (or $1)
    / [ (\w+) \= (\w+) ]+ % \, /;

    # Push all the keys into $!
    # (@0 just means @$0 or $/[0].list)
    push $!, ~«@0;

    # Return a hash of keys zipped into pairs with the values
    $%( @0 Z=> @1 )
}

$!.=sort.=uniq;
# …i.e., $! = $!.sort.uniq;

# Print the CSV for the keys ($!),
# followed by the CSVs for the hashes we made for each line,
# as accessed by our sorted key list. (… .{@$!} …)
# If the value doesn't exist, just use "" instead. (… X// "" …)
say .join(",") for $!, ($( .{@$!} X// "" ) for @l)

2

перл, 129/121

129 байт, без комутаторів командного рядка:

for(<>){push@x,{%g=map{split/=/}split/[,
]/};@h{keys%g}=()}@k=sort keys%h;$"=",";sub P{print"@_
"}P@k;for$x(@x){P map{$$x{$_}}@k}

Як @Dennis вказує нижче, ви можете отримати це до 120 + 1 = 121, використовуючи -n:

push@x,{%g=map{split/=/}split/[,
]/};@h{keys%g}=()}@k=sort keys%h;$"=",";sub P{print"@_
"}P@k;for$x(@x){P map{$$x{$_}}@k

В основному, для кожного рядка ми розділяємо комами, щоб отримати список пар. Для кожної пари ми розділимо знак рівності, щоб отримати ключ і значення. Встановлюємо пару ключ / значення у% h та локальний хеш-реф. Перший використовується для визначення списку клавіш. Останній використовується для запам'ятовування значень для цього рядка.


1
Ви можете зберегти кілька символів: 1. За допомогою -nперемикача замість for(<>){...}. 2. Розщеплення, [, ]а не використання chomp. 3. Пропустіть крапку з комою після фігурних дужок.
Денніс

Дякую @Dennis. Я реалізував останні 2 ваших пропозицій. Можливо, я все-таки кинусь на суміш, але я відчуваю себе пуристом, який лінується набирати на своєму банкоматі телефону :-) Також для цього потрібен блок END, але я вважаю, що це все-таки буде чистим виграшем .
скибрянський

Так, додавання -n зберігає лише 3 символи (два бали) за допомогою блоку END. Я віддаю перевагу «чистішому» рішенню. Принаймні, поки одна з інших відповідей не наблизиться =)
skibrianski

Perl буквально обертається while (<>) { ... }навколо всього сценарію, тому немає потреби в блоці END. Просто видаліть for(<>){на початку та }в кінці сценарію.
Денніс

3
Він буде працювати, тим не менш, доки ви видалите }в кінці сценарію не той, що відповідає forциклу. Крім того, ви можете зберегти ще один знак, використовуючи фактичний новий рядок замість \n.
Денніс

1

JavaScript ( ES5 ) 191 183 179 168 байт

Припустимо, що код запускається в командному рядку spidermonkey:

for(b=[a={}];l=readline(i=0);b.push(c))for(c={},d=l.split(/,|=/);e=d[i++];)c[a[e]=e]=d[i++];for(;c=b[i++];)print(Object.keys(a).sort().map(function(x){return c[x]})+[])

Результат:

> js test.js < input.txt
abc,baz,foo,zxc
,quux,bar,
123,,fubar,
rty,qwe,asdf,uiop

Ця лампочка може використовуватися у веб-переглядачі для імітації Spidermonkey readlineта print:

var I = 0, LINES = '\
foo=bar,baz=quux\n\
abc=123,foo=fubar\n\
baz=qwe,abc=rty,zxc=uiop,foo=asdf'.split('\n'),
readline = function(){
    return LINES[I++];
}, print = function(){
    return console.log.apply(console, arguments);
};

Безголівки:

a = {};                        // this object holds all keys found
b = [a];                       // array key:value pairs of each line, initialized with our key holder object in position 0
for(;l = readline();){         // store each line in l, loop until blank/undefined line
    c = {};                    // create a new object for this line's key:value pairs
    d = l.split(/,|=/);        // split line by commas and equals
    for(i = 0; e = d[i++];){   // loop through each key
        a[e] = e;              // set the key=key for key holder object
        c[e] = d[i++];         // set key=value for the line object
    }
    b.push(c);                 // push line object onto array
}
for(i = 0; c = b[i++];){       // loop through all line objects until undefined
    print(                     // print line
        Object.keys(a).sort(). // get sorted list of keys
        map(function(x){
            return c[x]        // map values from line object
        })
        + []                   // cast array to string
    );
}

Питання не говорить про те, що ви повинні використовувати "stdout" - ви можете використовувати alertзамість цього console.logі зберегти кілька байтів.
Gaurang Tandon

@GaurangTandon Тоді мені доведеться об'єднати всі контури. Я можу оновити свою відповідь, щоб використовувати командний рядок spidermonkey, а замість цього використати readlineта printфактично stdin / out
nderscore

1

Bash + coreutils, 188 138 байт

p=paste\ -sd,
f=`cat`
h=`tr , '\n'<<<$f|cut -d= -f1|sort -u`
$p<<<"$h"
for l in $f;{
join -o2.2 -a1 - <(tr =, ' \n'<<<$l|sort)<<<"$h"|$p
}

Вихід:

$ ./lineupcsv.sh < input.csv 
abc,baz,foo,zxc
,quux,bar,
123,,fubar,
rty,qwe,asdf,uiop
$ 

0

Хаскелл, 357 334

import Data.List
o=1<2
s u|u==""=""|o=tail u
t=takeWhile
d=dropWhile
c=(/=',')
e=(/='=')
p x|x/=""=Just((t e x,t c.s.d e$x),s.d c$x)|o=Nothing
g=m(unfoldr p).lines
k=nub.sort.(m fst=<<).g
[]#_=[]
(t@(x,u):z)#n@(a,b)|x==a=n:z|o=t:z#n
i=intercalate
main=interact$ \d->i"\n"$(i","$k d):m(i",".m snd.foldl(#)(m(flip(,)"").k$d))(g d)
m=map

gробить розбір - він розбиває введення на рядки і відображає кожен рядок до списку (key,value)пар. k, об'єднуючи всі ключі у список та видаляючи дублікати, створює список із усіма унікальними ключами, які згодом я можу використовувати для сортування. Я роблю це, створюючи "Set" всередині main( m(flip(,)"").k$d == [("abc",""),("baz",""),("foo",""),("zxc","")]) для кожного рядка, а потім беру кожну (key,value)пару з рядка і розміщую її там, де вона належить до списку ( foldl). Рядок 1 із прикладу дає результат [("abc",""),("baz","quux"),("foo","bar"),("zxc","")], який я об'єдную в один рядок ( ",quux,bar,"), з'єднуються з іншими рядками та друкую.

>>> csv.exe < input.txt
abc,baz,foo,zxc
,quux,bar,
123,,fubar,
rty,qwe,asdf,uiop

0

Python 2.7 - 242 байти

bleh

import os
c=[r.split(',')for r in os.read(0,99).split('\n')]
k=sorted(list(set(sum([[s.split('=')[0]for s in r]for r in c],[]))))
print','.join(k)
for l in c:
 t=[''for i in k]
 for s in l:
    o,v=s.split('=')
    t[k.index(o)]=v
 print','.join(t)

Зауважте, що другий шар відступу - це символ одного вкладки, а не чотири пробіли, як SE, відображає його.

Безголівки:

#!/bin/python2

import os

# I do input as a list comprehension in the original but this is equivalent
c = []

# For each line in the input
for r in os.read(0,99).split('\n'):
    # Add a list of key=value pairs in that row to c
    c.append(r.split(','))

# Another thing done as a list comprehension, but I'll space it out
k = []

# For each list of key=value pair s in c
for r in c:
    # For each actual key=value pair in that list
    for s in r:
        # Get the key
        k.append(s.split('=')[0])

# Discard dupes by converting to set and back, then sort
k = sorted(list(set(k)))

# Seperate these keys by commas, then print
print ','.join(k)

# For each line in c
for l in c:
    # t has one empty string for each key in the input
    t = ['' for i in k]
    # For each key=value pair in the line
    for s in l:
        # o = key, v = value
        o, v = s.split('=')
        # Find the position that the key is in the list of keys, then put the
        # value in t at that position
        t[k.index(o)] = v

    # Now each value is in the right position and the keys with no values on this
    # line have an empty string. Join everything with commas and print
    print ','.join(t)

0

Пітон 3: 200 195 192 189 187

import sys
r=[dict(p.split('=')for p in l[:-1].split(','))for l in sys.stdin]
x=set()
for d in r:x|=d.keys()
k=sorted(x)
for l in[k]+[[r.get(k,'')for k in k]for r in r]:print(*l,sep=',')

0

k4 (40? 51? 70? 46?)

основним виразом є

","0:{(x@<x:?,/?!:'x)#/:x}(!).'"S=,"0:/:

це і приймає, і повертає список рядків

щоб відповідати специфікації, ми могли б робити інтерактивно

-1","0:{(x@<x:?,/?!:'x)#/:x}(!).'"S=,"0:/:."\\cat";

який приймає вхід від stdin і друкує вихід у stdout

для окремої програми, що приймає вхід з труби, ми могли б зробити це:

$ cat i.k
.z.pi:{t,:`\:x}
.z.exit:{-1","0:{(x@<x:?,/?!:'x)#/:x}(!).'"S=,"0:/:t}
$ cat i.txt|q i.k
abc,baz,foo,zxc
,quux,bar,
123,,fubar,
rty,qwe,asdf,uiop
$ 

але якщо ви готові розглянути мою раніше існуючу обгортку k-as-filter, awq.k, як прийнятний інструмент для такого типу головоломки, ми можемо це зробити:

$ cat i.txt|awq.k '","0:{(x@<x:?,/?!:'\''x)#/:x}(!).'\''"S=,"0:/:'

що становить 46 символів або 40, залежно від того, як ви рахуєте зміна цитат оболонки


Яке середовище потрібно для цього? qкомандувати? Чи awq.kдесь публікується?
Цифрова травма

32-бітний q тепер доступний як безкоштовна програма від kx.com/software-download.php . (раніше вони мали лише обмежену часом пробну версію безкоштовно.) Хм, схоже, awq насправді ніде не публікується; я повинен щось з цим зробити.
Аарон Девіс

0

C # - 369

(в LINQPAD)

void C(string a){var k=a.Split(new[]{',','\n'}).Select(s=>s.Split('=')[0]).OrderBy(o=>o).Distinct();var t=string.Join(",", k)+"\n";foreach(var x in a.Split('\n')){for(int i=0;i<k.Count();i++){foreach(var y in x.Split(',').OrderBy(o=>o.Split('=')[0]))if(k.ElementAt(i)==y.Split('=')[0])t+=y.Split('=')[1];t+=",";}t=t.Remove(t.LastIndexOf(','),1)+"\n";}Console.Write(t);}

Безумовно

void C(string a)
{
    var k=a.Split(new[]{',','\n'}).Select(s=>s.Split('=')[0]).OrderBy(o=>o).Distinct();
    var t=string.Join(",", k)+"\n";
    foreach(var x in a.Split('\n'))
    {
        for(int i=0;i<k.Count();i++)
        {
            foreach(var y in x.Split(',').OrderBy(o=>o.Split('=')[0]))
                if(k.ElementAt(i)==y.Split('=')[0])
                    t+=y.Split('=')[1];
            t+=",";
        }
        t=t.Remove(t.LastIndexOf(','),1)+"\n";
    }
    Console.Write(t);
}

Введення тестового рядка

C("foo=bar,baz=quux\nabc=123,foo=fubar\nbaz=qwe,abc=rty,zxc=uiop,foo=asdf");

Вихідні дані

abc,baz,foo,zxc
,quux,bar,
123,,fubar,
rty,qwe,asdf,uiop

Просто цікаво, це C #, тому він повинен працювати у Windows, але чи не так? (Див. Моє запитання CRLFпорівняно з LFпитанням FAQ) На жаль, у мене немає копії Visual Studio для тестування.
durron597

Я спочатку повинен був додати записку, але я зараз. Так, це працює. Я створив і протестував це в linqpad. Я не перевіряв його в консольному додатку, але немає жодної причини, чому він не працював. Але консольний додаток очевидно додасть у код більше байтів.
jzm
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.