Я використовую інше слово залежно від способу використання даних. Якщо я виявив, що складений набір даних лежить навколо, і підтвердив свій алгоритм на ньому, то слово "синтетичний" чудово.
Однак часто, коли я використовую цей тип даних, я вигадував ці дані з певним наміром демонструвати можливості мого алгоритму. Іншими словами, я винайшов дані для конкретної мети - отримати «хороші результати». За таких обставин мені подобається термін "надуманий" разом із поясненням моїх очікувань щодо даних. Це тому, що я не хочу, щоб хтось помилявся, думаючи, що я вказав свій алгоритм на якийсь довільний синтетичний набір даних, який я виявив, що лежить навколо, і він справді спрацював добре. Якщо у мене є дані, які вибрали вишні (до того, що насправді складають) спеціально для того, щоб мій алгоритм добре працював, я говорю так. Це тому, що такі результати свідчать про те, що мій алгоритм можепрацюють добре, але дають лише дуже слабкі докази того, що алгоритм можна очікувати, що він добре працює в цілому . Слово "надуманий" справді добре підсумовує той факт, що я вибрав дані, маючи на увазі "хороші результати", апріорі.
"це створює враження шахрайських даних?"
Ні, але важливо бути зрозумілим про джерело будь-якого набору даних та ваші апріорні очікування як експериментатора, коли повідомляєте про свої результати на будь-якому наборі даних. Термін "шахрайство" явно включає аспект того, що щось прикрили чи відверто брехали. Спосіб № 1 уникнути вчинення шахрайства в науці - це просто бути чесним та відвертим щодо характеру ваших даних та ваших очікувань. Іншими словами, якщо ваші дані сфабриковані, і ви не зможете сказати стільки ж будь-яким способом , і є якесь очікування, що дані не сфабриковані, або, що ще гірше, ви стверджуєте, що дані збираються в якомусь нефабрикованому виді Зрозуміло, тоді це"шахрайство". Не роби цього. Якщо ви хочете використовувати якийсь синонім для терміна "виготовлений", який "звучить краще", наприклад "синтетичний", ніхто вас не винуватить, але в той же час я не думаю, що хтось не помітить різниці, крім вас.
Бічна примітка:
Менш очевидними є обставини, коли хтось стверджує, що мав апріорні очікування, які насправді є спеціальними поясненнями . Це також шахрайський аналіз даних.
Існує небезпека цього, коли вибирати дані спеціально з наміром "демонструвати" можливості алгоритму, що часто трапляється з синтетичними даними.
DHHDD
HDHD
З цим не виникає проблем, якщо ви будете чесними та відвертими щодо того, що зробили. Якщо ви пройшли болі, щоб створити набір даних, який дає "хороші результати", скажіть так. Поки ви повідомляєте читача про кроки, які ви здійснили в процесі аналізу даних, у них є інформація, необхідна для ефективного зважування доказів для або проти ваших гіпотез. Коли ви не чесні або не відверті , це може створити враження, що ваші докази сильніші, ніж є насправді. Коли ви СВІДОМО менш чесного і відвертої заради створення Вашого свідоцтва видається сильнішим , ніж на самому справі, то , що, дійсно, шахрайський.
У будь-якому випадку, саме тому я віддаю перевагу терміну "надуманий" для таких наборів даних, а також коротке пояснення, що вони, дійсно, обрані з урахуванням гіпотези. "Надуманий" передає сенс, що я не тільки створив синтетичний набір даних, але й зробив це з особливими намірами, що відображають той факт, що моя гіпотеза вже була створена до створення мого набору даних.
ADx.y
тл; д-р
Використовуйте будь-який термін, який вам подобається, "синтетичний", "надуманий", "сфабрикований", "вигаданий". Однак термін, який ви використовуєте, недостатній для того, щоб ваші результати не вводили в оману . Переконайтеся, що у звіті вам чітко відомо про те, як з’явилися дані, включаючи ваші очікування щодо даних та причини, чому ви вибрали вибрані вами дані.