Чому цей код F # так повільний?

127

Реалізація Левенштейна в C # і F #. Версія C # у 10 разів швидша для двох рядків приблизно 1500 символів. C #: 69 мс, F # 867 мс. Чому? Наскільки я можу сказати, вони роблять точно те саме? Не має значення, чи це версія випуску чи налагодження.

EDIT: Якщо хтось приходить сюди, шукаючи спеціально для реалізації редагування відстані, він порушується. Робочий код тут .

C # :

private static int min3(int a, int b, int c)
{
   return Math.Min(Math.Min(a, b), c);
}

public static int EditDistance(string m, string n)
{
   var d1 = new int[n.Length];
   for (int x = 0; x < d1.Length; x++) d1[x] = x;
   var d0 = new int[n.Length];
   for(int i = 1; i < m.Length; i++)
   {
      d0[0] = i;
      var ui = m[i];
      for (int j = 1; j < n.Length; j++ )
      {
         d0[j] = 1 + min3(d1[j], d0[j - 1], d1[j - 1] + (ui == n[j] ? -1 : 0));
      }
      Array.Copy(d0, d1, d1.Length);
   }
   return d0[n.Length - 1];
}

F # :

let min3(a, b, c) = min a (min b c)

let levenshtein (m:string) (n:string) =
   let d1 = Array.init n.Length id
   let d0 = Array.create n.Length 0
   for i=1 to m.Length-1 do
      d0.[0] <- i
      let ui = m.[i]
      for j=1 to n.Length-1 do
         d0.[j] <- 1 + min3(d1.[j], d0.[j-1], d1.[j-1] + if ui = n.[j] then -1 else 0)
      Array.blit d0 0 d1 0 n.Length
   d0.[n.Length-1]

c# performance f# inline

— Роберт Джеппесен
джерело

Чим відрізняється продуктивність від вбудованого?

— gradbot

202

Проблема полягає в тому, що min3функція компілюється як загальна функція, яка використовує загальне порівняння (я думав, що це використовується просто IComparable, але насправді це складніше - використовувалося б структурне порівняння для типів F # і це досить складна логіка).

> let min3(a, b, c) = min a (min b c);;
val min3 : 'a * 'a * 'a -> 'a when 'a : comparison

У версії C # функція не є загальною (вона просто займає int). Ви можете покращити версію F #, додавши анотації типу (щоб отримати те саме, що і в C #):

let min3(a:int, b, c) = min a (min b c)

... або виготовивши min3як inline(у такому випадку він буде спеціалізований для intвикористання при використанні):

let inline min3(a, b, c) = min a (min b c);;

Для випадкового рядка strдовжиною 300 я отримую такі числа:

> levenshtein str ("foo" + str);;
Real: 00:00:03.938, CPU: 00:00:03.900, GC gen0: 275, gen1: 1, gen2: 0
val it : int = 3

> levenshtein_inlined str ("foo" + str);;
Real: 00:00:00.068, CPU: 00:00:00.078, GC gen0: 0, gen1: 0, gen2: 0
val it : int = 3

— Томаш Петричек
джерело

Чому F # не компілює min3 як функцію, яка приймає int? Вона вже знає достатньо інформації про тип під час компіляції для цього. Ось як би це працювало, якби min3 був функцією шаблону C ++, тому я трохи спантеличений тим, чому F # не робить цього.

— сашанг

F # підводить до того, що він є максимально загальним, наприклад, "для всіх типів X, які підтримують порівняння". inlineпрацює як шаблон C ++, який би спеціалізувався на intоснові виклику на сайті.

— Брайан

Шаблони C ++ поводяться по суті як F # inline. Причина, за якою поведінка за замовчуванням відрізняється, полягає в тому, що вона базується на .Net дженериках, які обробляються під час виконання (і, мабуть, не такі великі для написання загального числового коду). Використання поведінки C ++ у F #, однак, призведе до роздуття коду, оскільки F # використовує генерики набагато більше.

— Томаш Петричек

Семантика шаблонів C ++ може призвести до роздуття коду навіть у C ++, а також відсутності зручного способу переключитися на використання механізму виконання часу, щоб уникнути таких проблем. Однак страх перед роздутою коду зазвичай нераціональний - загалом, шаблони C ++ працюють добре.

— Стів314

@ Steve314: Це також, як правило, легко уникнути, рефакторинг всього коду, який не використовує залежний тип, так що код не дублюється для різних екземплярів.

— ildjarn