Кращий термін для складених даних?

23

Я пишу приклад і склав деякі дані. Я хочу, щоб читачеві було зрозуміло, що це не реальні дані, але я також не хочу створювати враження злоби, оскільки це просто слугує прикладом.

Немає (псевдо) випадкових компонентів для цих конкретних даних, тому мені здається, що "модельований" не підходить. Якщо я називаю це вигаданим чи сфабрикованим, чи це створює враження шахрайських даних? Чи є "складеним" слово, яке б відповідало науковому контексту?

Яка термінологія в статистичній літературі для несимульованих складених даних?

terminology synthetic-data

— Франс Роденбург
джерело

9

Просто додати коментар, який поширюється на кілька відповідей: "синтетичний" - це добре слово для складених даних, які намагаються виглядати максимально реалістично, тоді як "макет" пропонує дані, створені для демонстрації чогось конкретного. Наприклад, дані "знущання над" можуть містити абсурдні люди, лише для того, щоб продемонструвати, наскільки важливо правильно поводитися з людьми.

— Корт Аммон - Відновіть Моніку

Я особисто віддаю перевагу терміну "імітація" і найбільше стикався з ним у статистичній літературі (тобто "ми провели моделювання для порівняння нашої моделі проти X, Y, Z ...."

— Самір Рахід Заїм,

45

Я б, мабуть, назвав це "синтетичними" або "штучними" даними, хоча я також міг би назвати їх "симульованими" (моделювання просто дуже просте).

— Луї Сіальдела
джерело

30

Один чує "дані про іграшки", "приклад іграшки" та "фіктивні дані". Також я погоджуюся, що "імітація" цілком може відповідати навіть за відсутності випадкових чисел.

— rolando2

7

"Ілюстративні дані" або "приклади даних" також можуть працювати

— Генрі

8

+1 " синтетичні дані " та " приклад іграшки " - це обидва терміни, які я можу використати, якщо виникне привід, як "побудований приклад". Іноді я кажу "ілюстративний приклад" чи щось подібне, особливо коли приклад був явно побудований з особливими ознаками (наприклад, коли був розроблений як контрприклад деякому помилковому поняттю).

— Glen_b -Встановіть Моніку

1

Я схильний використовувати дані іграшок (без штучних чи імітованих ) для реальних (вимірюваних) наборів даних, які я "зловживаю", щоб щось продемонструвати.

— cbeleites підтримує Моніку

1

Трохи залежить від вашої програми, що буде працювати найкраще. Наприклад, я також роблю проект із "фальшивими" даними, але інша частина проекту передбачає використання моделювання комп'ютерної моделі. Тож це може збити з пантелику читача для позначення фальшивих даних як "імітованих", помилково маючи на увазі, що дані походять від моделювання. Тож я покладаюся на "штучне", а часом описую дані як "виготовлені". Я особисто уникав би "синтетичного", як на мене, цей термін означав би, що дані - це якесь поєднання інших джерел даних ("синтез", наприклад, даних A і даних B).

— Сефі

12

Якщо ви хочете віднести свої дані до фіктивних, ви будете в хорошій компанії, так як саме цей термін Френсіс Анскомб використовував для опису свого тепер відомого квартету .

From Anscombe, FJ (1973). " Графіки статистичного аналізу ", Am. Стат. 27 (1):

Деякі з цих пунктів проілюстровані чотирма фіктивними наборами даних, кожен з яких складається з одинадцяти пар (x, y), показаних у таблиці.

Але я думаю, що ваша обережність є вдалою, оскільки, здається, мій OED (v4) вказує на те, що це використання вигаданого застарілого

вигаданий , а.

(fɪkˈtɪʃəs)

[ф. L. fictīci-us (f. Fingĕre до моди, прихильності) + -ous: див. -Itious.]

1.1 † a.1.a Штучний на відміну від природного (ут.). b.1.b підробка, 'імітація', шахрайство; не справжній.

— АксельА
джерело

Щодо читабельності, перша пропозиція та коментарі є значно кращою альтернативою. Не потрібно вживати рідкісні, складні слова.

— Тім

1

@Tim: Я хочу погодитися, але я не зовсім впевнений, з чим я б погоджувався. Ви хочете сказати, що фіктивний був би поганим вибором, незважаючи на те, що його раніше використовували в подібному контексті? Тому що це я говорю.

— AkselA

7

У ІТ ми часто називаємо це макетом даних , які можна представити через макет (додаток).

Дані макету також можуть бути представлені через повністю функціональну програму, наприклад, для контролю функціональності програми контрольованим чином.

— ЕрікЕ
джерело

5

Хороший момент, але я вважаю, що макетні дані та імітовані дані не зовсім однакові. Створюючи макетні дані для одиничних тестів, вони потрібні лише для збереження деяких дуже основних властивостей реальних даних, тоді як при використанні імітаційних даних для статистичного аналізу ви зазвичай використовуєте більш складні приклади даних.

— Тім

2

Я все ще вважаю, що ErikE вірна, хоча, коли ви пишете аналітичний код, вам потрібні справжні речі або знущаються над даними. Дані знущань можуть бути такими ж великими, як ви хочете, щоб вони були imo.

— Mathijs Segers

1

Мабуть, практика залежить від використання термінології. Для багатьох наших тестів та аналізів ми використовуємо живі дані, які були "знешкоджені" з міркувань безпеки та анонімності. Для інших ми створюємо дані голих кісток так само, як описує Тім. Я не маю твердої думки, але ми термін макет використовуємо досить вільно.

— ЕрікЕ

3

Я бачив неодноразові пропозиції щодо терміна "синтетичні дані". Цей термін, однак, має широко вживане і дуже відмінне значення від того, що ви хочете висловити: https://en.wikipedia.org/wiki/Synthetic_data

Я не впевнений, що існує загальновизнаний науковий термін, але, здається, термін "приклади даних" важко неправильно зрозуміти?

— srass
джерело

1

Ця стаття здається трохи заплутаною - стосунки до анонімізації досить немічні.

— Метт Крауз

+1, але я погоджуюся з попереднім коментарем: крім другого пункту (кажучи, що синтезовані дані - це тип анонімізованих даних), решта статті Вікіпедії, схоже, описує те, чого хоче запитувач. Тобто реалістично виглядають складені дані.

— Даррен Кук

3

Я зіткнувся з терміном "підроблені дані" неабияку кількість. Я думаю, що це може мати деякі негативні конотації, але я чув це досить часто, щоб він взагалі не реєстрував негативно.

FWIW, Ендрю Гелман також використовує це:

https://statmodeling.stat.columbia.edu/2009/09/04/fake-data_simul/

https://statmodeling.stat.columbia.edu/2019/03/23/yes-i-really-really-really-like-fake-data-simulation-and-i-cant-stop-talking-about-it/

https://books.google.dk/books?id=lV3DIdV0F9AC&pg=PA155&lpg=PA155&dq=fake+data+simulation&source=bl&ots=6ljKB6StQ4&sig=ACfU3U17GLP_84q_HfIQB4u5O6wV0yA2Aw&hl=en&sa=X&ved=2ahUKEwiF2_eB0uvjAhWswcQBHSn5Cn04ChDoATAAegQICRAB#v=onepage&q=fake%20data%20simulation&f=false

Швидкий пошук в Google для "підроблених даних" виявляє безліч результатів, які, схоже, використовують термін аналогічно:

https://scientistseessquirrel.wordpress.com/2016/03/10/good-uses-for-fake-data-part-1/

http://modernstatisticworkflow.blogspot.com/2017/04/an-easy-way-to-simulate-fake-data-from.html

https://clayford.github.io/dwir/dwr_12_generating_data.html

І навіть є fakeRпакет, який говорить про те, що це відносно часто: https://cran.r-project.org/web/packages/fakeR/fakeR.pdf

— mkt - Відновлення Моніки
джерело

2

Я використовую інше слово залежно від способу використання даних. Якщо я виявив, що складений набір даних лежить навколо, і підтвердив свій алгоритм на ньому, то слово "синтетичний" чудово.

Однак часто, коли я використовую цей тип даних, я вигадував ці дані з певним наміром демонструвати можливості мого алгоритму. Іншими словами, я винайшов дані для конкретної мети - отримати «хороші результати». За таких обставин мені подобається термін "надуманий" разом із поясненням моїх очікувань щодо даних. Це тому, що я не хочу, щоб хтось помилявся, думаючи, що я вказав свій алгоритм на якийсь довільний синтетичний набір даних, який я виявив, що лежить навколо, і він справді спрацював добре. Якщо у мене є дані, які вибрали вишні (до того, що насправді складають) спеціально для того, щоб мій алгоритм добре працював, я говорю так. Це тому, що такі результати свідчать про те, що мій алгоритм можепрацюють добре, але дають лише дуже слабкі докази того, що алгоритм можна очікувати, що він добре працює в цілому . Слово "надуманий" справді добре підсумовує той факт, що я вибрав дані, маючи на увазі "хороші результати", апріорі.

"це створює враження шахрайських даних?"

Ні, але важливо бути зрозумілим про джерело будь-якого набору даних та ваші апріорні очікування як експериментатора, коли повідомляєте про свої результати на будь-якому наборі даних. Термін "шахрайство" явно включає аспект того, що щось прикрили чи відверто брехали. Спосіб № 1 уникнути вчинення шахрайства в науці - це просто бути чесним та відвертим щодо характеру ваших даних та ваших очікувань. Іншими словами, якщо ваші дані сфабриковані, і ви не зможете сказати стільки ж будь-яким способом , і є якесь очікування, що дані не сфабриковані, або, що ще гірше, ви стверджуєте, що дані збираються в якомусь нефабрикованому виді Зрозуміло, тоді це"шахрайство". Не роби цього. Якщо ви хочете використовувати якийсь синонім для терміна "виготовлений", який "звучить краще", наприклад "синтетичний", ніхто вас не винуватить, але в той же час я не думаю, що хтось не помітить різниці, крім вас.

Бічна примітка:

Менш очевидними є обставини, коли хтось стверджує, що мав апріорні очікування, які насправді є спеціальними поясненнями . Це також шахрайський аналіз даних.

Існує небезпека цього, коли вибирати дані спеціально з наміром "демонструвати" можливості алгоритму, що часто трапляється з синтетичними даними.

$D$ $H$ $H$ $D$ $D$

$H$ $D$ $H$ $D$

З цим не виникає проблем, якщо ви будете чесними та відвертими щодо того, що зробили. Якщо ви пройшли болі, щоб створити набір даних, який дає "хороші результати", скажіть так. Поки ви повідомляєте читача про кроки, які ви здійснили в процесі аналізу даних, у них є інформація, необхідна для ефективного зважування доказів для або проти ваших гіпотез. Коли ви не чесні або не відверті , це може створити враження, що ваші докази сильніші, ніж є насправді. Коли ви СВІДОМО менш чесного і відвертої заради створення Вашого свідоцтва видається сильнішим , ніж на самому справі, то , що, дійсно, шахрайський.

У будь-якому випадку, саме тому я віддаю перевагу терміну "надуманий" для таких наборів даних, а також коротке пояснення, що вони, дійсно, обрані з урахуванням гіпотези. "Надуманий" передає сенс, що я не тільки створив синтетичний набір даних, але й зробив це з особливими намірами, що відображають той факт, що моя гіпотеза вже була створена до створення мого набору даних.

$A$ $D$ $x.y$

тл; д-р

Використовуйте будь-який термін, який вам подобається, "синтетичний", "надуманий", "сфабрикований", "вигаданий". Однак термін, який ви використовуєте, недостатній для того, щоб ваші результати не вводили в оману . Переконайтеся, що у звіті вам чітко відомо про те, як з’явилися дані, включаючи ваші очікування щодо даних та причини, чому ви вибрали вибрані вами дані.

— Скотт
джерело

Незважаючи на те, що відповіді тут збігаються і майже всі дають хороші моменти, я вважаю, що це найкраще передає той ключовий момент, що жоден термін не передасть усім читачам наміру збирати дані. Реалії можуть варіюватися від не просто підходящого, але важливого для цієї мети через лінь (погані вступні тексти) до обману та шахрайства. Пояснення, чому ви це робите, може бути хорошою ідеєю.

— Нік Кокс

... причини ...

— Нік Кокс

1

По-перше, немає причин не називати це "набором даних". Не існує загальновизнаних термінів для даних "підроблені" проти "імітованих" проти ... Якщо мета полягає в тому, щоб бути повністю зрозумілою, краще насправді присвятити речення, а не слово, щоб визначити, що таке цей набір даних. Після цього ви можете розслабити позначення і просто посилатися на свої дані як дані.

"Синтетичний", "штучний" не відрізняє від інших модельованих наборів даних MCMC від "вибірки", що імітуються. Використання генератора квазі випадкових чисел із фіксованим насінням (як би диктувало правильне навчання) також створює синтетичний або штучний набір даних.

Якщо суть курітування набору даних для конкретної ілюстрації, а не генерація екземпляра чи реалізація з імовірнісної моделі, я вважаю, що краще назвати такий набір даних " прикладом набору даних ". Такі дані схожі з квартетом Anscombe: абсолютно абстрактні та неправдоподібні, але мають на меті ілюструвати точку.

— АдамО
джерело

1

У біології іноді демонструють аналізи, використовуючи набір даних міфічних тварин. Незалежно від того, чи чітко зазначено, що дані імітуються, залежить від автора / рецензента.

Посібник еколога щодо моделі тварин, 2009

Ці навчальні посібники описують низку кількісних генетичних аналізів на популяції грифонів (відображаючи компроміс між упередженнями птахів та ссавців авторів). Оскільки грифон є міфічним звіром, надані дані обов'язково були змодельовані.

Дисперсія з фіксованим ефектом та оцінка повторюваності та спадковості: питання та рішення, 2017

Щоб проілюструвати це, повернемося до набору даних Єдинорога Wilson (2008). Відомий факт, що у єдинорогів довжина рогів змінюється залежно від індивідуальної маси тіла (нахил: β = 0,403 для повної моделі, включаючи вік, стать та їх взаємодію).

— DA Wells
джерело

1

Цікавий підхід! Я думаю, що це може бути чудовим для навчання статистики студентів біології. Однак, представляючи громадськість, я не впевнений, чи

— справить

0

Інтуїтивно я б перейшов до терміна "Дані про манекен", в тому ж сенсі, що "Lorem ipsum ..." називається "текст манекена". Слово "Манекен" досить загальне і просте для розуміння для людей різного походження, і тому рідше трактується читачами менш статистичного походження.

— Матійс
джерело

2

Якщо це в регресійному контексті, я б уникнув перевантаження "манекена", щоб у вас не було фіктивних змінних, що кодують дані фіктивних даних.

— Метт Крауз

Я погоджуюсь, я б особисто цього уникав, оскільки "Манекен" вже має набір регресії. Зважаючи на те, що існує достатня кількість термінів, можливо, краще уникати тих термінів, які можуть означати різні речі для різних людей.

— Самір Рахід Заїм

0

Дані є латинськими для наведених даних , які використовуються в сучасні часи як скорочення для заданого набору записаних фактів . Таким чином, посилання на сфабриковані записи як на певні факти буде відкритим протиріччям.

Однак через все більш широке використання даних для посилань просто на записи - незалежно від того, як оригінальна презумпція записів є фактами - ми із задоволенням розуміємо один одного, коли говоримо про записи, які можуть бути, а можуть і не бути правдивими - отже, реальні / підроблені дані.

Я підсумую свій досвід способів вирішення сфабрикованих записів нижче. Використовувана мітка залежить від того, чи можна припустити, що ми говоримо про дані як сфабриковані записи, які мають виглядати досить реалістично, щоб забезпечити подальший аналіз, або дані як обчислювальне навантаження.

У колах з питань аналітики / наукових даних / стратегічних консультацій люди найчастіше звертаються до сфабрикованого набору записів, створених на основі реалістичних припущень, як синтетичних даних, а також періодично моделюють дані . Сфабриковані записи, створені за допомогою сирих припущень, називаються набором даних про іграшки .
Серед інженерів програмного забезпечення підроблені дані , фіктивні дані , складені дані та макетні дані є частими мітками, які в основному натякають на записи, що не обов'язково мають реалістичні властивості, а лише обмінюються основними властивостями з вихідними даними (вікові дані завжди чисельні) , адреси електронної пошти завжди містять рядки, що містять "@").
Академічні дослідники називали б реалістичний набір сфабрикованих записів псевдоданими або імітованими даними . У деяких колах, якщо сформований набір спостережень є результатом симуляції Монте-Карло, це може називатися мовленнєво як Монте-Карло . Напівреалістичні записи зазвичай використовуються для ілюстративних цілей або тестування альтернативних гіпотез і називаються набором даних про іграшки

— фамаргар
джерело

2

"Монте-Карло" - назва методу, тому "розмовне" ім'я було б дуже оманливим.

— Тім

@Tim дійсно, це може сприйматися як оманливе. Однак мова - це лише інструмент, заснований на консенсусі в громаді, як спосіб посилатися на щось. Настільки , що ми маємо в виду на цьому сайті для запису і вимірювань, враховуючи (англійська мова для Латинської даних ). Якби я прийняв вашу точку зору, я вважав би, що розгляд імітованих вимірювань є фальшивим, оскільки вони є дуже сумнівними.

— famargar

Я сподіваюся, що зараз ви побачите, що посилання на "симуляцію Монте-Карло" як просто "Монте-Карло" - це сучасна версія посилань на "дані спостереження" як "дані". Я відредагував свою відповідь, щоб включити це та інші міркування щодо значення та фактичного вживання слова «дані».

— famargar

1

"Академічні дослідники називають реалістичний набір сфабрикованих записів найчастіше як псевдодані": я не пригадую, щоб коли-небудь бачив цей термін за 40 і більше років академічних досліджень. "Академіки, як правило, не користуються нереальними записами": вибачте, але це здається досить неправильним. Вчені в багатьох, багатьох галузях використовують моделювання декількох різних видів. Навіть нереалістичне моделювання може бути корисним, наприклад, мінливість нормальних проб є важливим контекстом для оцінки ненормативності.

— Нік Кокс

@ NickCox Псевдодату часто використовують у фізиці, і я бачив це в біології та статистиці. Було б цікаво дізнатися, яке ваше поле і як ваше поле відноситься до симуляцій. Що стосується нереальних даних, я зробив різницю між нереальними та напівреалістичними. Я пропустив ваш випадок використання?

— famargar