Чи слід вважати, що в статистиці


18

Я вивчаю статистику і часто натрапляю на формули, що містять, logі я завжди плутаюся, якщо мені слід тлумачити це як стандартне значенняlog , тобто базу 10, або якщо в статистиці цей символ log зазвичай вважається природним журналом ln.

Зокрема, я вивчаю оцінку частоти хорошого Тюрінга як приклад, але моє питання є більш загальним.


2
"Для багатьох застосувань зручніше працювати з природним логарифмом функції ймовірності, який називається лого-ймовірністю." en.wikipedia.org/wiki/Likelihood_function#Log-likelihood У статистиці ми часто працюємо з функцією вірогідності, зазвичай lnце вважається. Однак, вони пов'язані між собою: log(x) = ln(x) / ln(10) = ln(x) / 2.303і ln -мовірність функціонування доходить до крайності в тій же точці, що і функція вірогідності log10 .
John_West

5
У кількох конкретних областях застосування, коли згадується , призначена база 10, але, як вказує Аксакал, інакше це умова, що використовується в математиці, - що невідображений журнал означає природний журнал. loglog
Glen_b -Встановити Моніку

2
Як говорить @John_West, і l o g a ( x ) є ідентичними аж до коефіцієнта масштабування. Тож вони ті самі, що ви вимірюєте в іншій одиниці. ln(x)loga(x)

1
@Aksakal; те, що ви говорите, говорить про те, що підрозділ важливий (див. мій коментар вище), з чим я згоден. Я також писав щоб чітко вказати базу. Для (деяких) застосувань у статистиці, як максимальна ймовірність, цей масштабуючий фактор, однак, не має значення. Максимум не зміниться після додавання коефіцієнта масштабування. У посиланні ОП (доброзичливість ...) вони хочуть побудувати l o g ( N r ) (або l o g ( Z r ) ) проти l o g ( r )logalog(Nr)log(Zr)log(r). Це означає, що одиниця змінюється на обох осях ділянки, тому нанесена "крива" не змінюється.

1
Якщо ви не пишете папір, навіть при використанні вірогідності журналу масштаб (основа логарифму) зазвичай має значення. Наприклад, статистика тестування коефіцієнта ймовірності журналу використовує , для використання критичних значень вам доведеться скоригуватися з іншої бази. Якщо ви пишете програмне забезпечення, важливо правильно встановити базу при використанні функцій правдоподібності журналу з паперів тощо. Існує дуже багато випадків, коли база важлива, щоб стверджувати, що це не має значення. ln
Аксакал

Відповіді:


20

It's safe to assume that without explicit base log=ln in statistics, because base 10 log is not used very often in statistics. However, other posters bring up a point that log10 or other bases can be common in some other fields, where statistics is applied, e.g. information theory. So, when you read papers in other fields, it gets confusing at times.

Wikipedia's entropy page is a good example of confusing usage of log. In the same page they mean base 2, e and any base. You can figure out by the context which one is meant, but it requires reading the text. This is not a good way to present the material. Compare it to Logarithm page where the base is clearly shown in every formula or ln is used. I personally think this is the way to go: always show the base when log sign is used. This would also be ISO compliant for the standard doesn't define usage of unspecified base with log symbol as @Henry pointed out.

Finally, ISO 31-11 standard prescribes lb and lg signs for base 2 and 10 logarithms. Both are rarely used these days. I remember that we used lg in high school, but that was in another century in another world. I have never seen it since used in a statistical context. There isn't even the tag for lb in LaTeX.


1
Base 2 logarithms are also quite common in some fields. Unadorned log is rarely base 10, but it's not always base e.
Nuclear Wang

Helpful, but I think "rarely" is too strong. There are substantive fields in which people may know only about, or at best feel most familiar with, base 10 logarithms. Note that many graphs show logarithmic scales using powers of 10. Someone preferring natural logarithms finds no difficulty decoding such scales, but the presumption is of base 10.
Nick Cox

@ NickCox, OP спеціально вказує "статистику" як поле, і я не бачу логарифму базової 10, який використовується в статистиці часто.
Аксакал

Імовірно, ISO 31-11 визначає для журналу e , а незаписаний журнал залишається невизначенимlnlogelog
Генрі

1
@NickCox, я пом'якшив мову, ти підводиш справедливу точку
Aksakal

14

Це залежить.

Поза кількома контекстами, наприклад перетворенням значення в децибели, логарифми базових 10 є досить рідкісними рівняннями. Однак графіки розміщення журналів часто знаходяться в базі-10, хоча це має бути досить легко перевірити за допомогою міток на осях.

У математичному контексті невдалекий , ймовірно, буде природним журналом (тобто log e або ln ). З іншого боку, інформатика часто використовує логарифми base-2 ( log 2 ), і вони не завжди чітко позначені як такі. Хороша новина полягає в тому, що ви можете конвертувати між базами тривіально, а використання "неправильної" бази дозволить виключити вашу відповідь постійним фактором.loglogelnlog2

У папері "Доброзичливе без сліз" у Гейлі 1995 р. Логарифми в тексті насправді - це (так написано на стор. 5), але код R / S + у додатку використовує функцію, яка є фактично log e або lnlog10loglogeln. As @Henry points out below, this makes no practical difference.

If I were forced to guess, here are some heuristics:

  • If powers of 2, e, or 10 are also present, the logs are likely to have the corresponding base.

  • If it arises from integrating 1/x (or, more generally, involves calculus), it's likely to be a natural log.

  • log2nlogn

  • log2bitslog2natslnbanslog10

  • 1e or 11e, (37% and 63%, respectively) of an initial value suggests a natural log.


5
+1. A small tip is that if exponentials exp() are found nearby then natural logarithm is more likely and conversely with powers of 10 or 2. If which base is being used remains unclear, try to reproduce authors' example calculations.
Nick Cox

2
Since the graphs on pages 6 and 7 of Gale's paper show the original units on a log scale, and the calculations are aimed at the slope of a log-log relationship, i.e. b in the expression log(Nr)=a+blog(r) which corresponds to Nr=Arb, it makes no practical difference in this case
Henry

2
Another example of base10 is when platting stock market data, when using a log price axis it is always base 10.
Marcus D

3

To answer your question: no, you cannot assume a general fixed notation for the logarithm.

A similar question was recently discussed in SE.Math: What is the difference between the three types of logarithms? from a mathematical point of view. Generally, there are different notations that depend on habits (log10 seems of use in medical research) or language (for instance in German, Russian, French). Unfortunately, the same notation sometimes ends up representing different definitions. Quoting from the above SE.Math link:

Notation lnx (almost) unambiguously denotes the natural logarithm logex (latin: logarithmus naturalis), or logarithm in base e. The notation logx should be the adopted notation for the natural logarithm, and it is so in mathematics. However, it often represents the "most natural" depending on the field: I learned it as the base-10 logarithm (log10) at school, and it is often used this way in engineering (for instance in the definition of decibels)

Quite often, if you are not concerned with the meaning of physical units (like decibels @Matt Krause), nor interested in specific rates of change (in biostatistics, the log-ratio for fold-change often denotes the base-2 logarithm log2), it is likely that the natural logarithm (loge) is used.

For instance, in power or Box-Cox transforms (for variance stabilization), the natural logarithm appears as a limit when the exponent tends to 0.

Going back to your initial motivation, the Good-Turing Frequency Estimation, it is interesting to read The Population Frequencies of Species and the Estimation of Population Parameters, I. J. Good, Biometrika, 1953. Here, he used logarithmms in different contexts: variable transformation for variance stabilisation (mentioning Bartlett and Anscombe), sum of harmonic series, entropy. We see that he generally uses log as the natural logarithm, and once in a while in the paper specifies loge or log10, when the context requires it. For variance stabilization, or basic entropy estimation, a factor on the logarithm does not change much the result, as the outcome allows a linear change.


0

In the Akaike Information Criterion the base is e, and ln(L^) of the maximum likelihood L^ is being compared additively to the number of parameters k:

AIC=2(kln(L)).

Thus it seems that if you use any other base for the logarithm in the AIC, you may end up drawing the wrong conclusion and selecting the wrong model.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.