Ця відповідь зосереджена на другому питанні, але в процесі з'явиться часткова відповідь на перше питання (вказівки щодо процедури забезпечення якості та контролю якості).
На сьогодні найкраще, що ви можете зробити, це перевірити якість даних під час спроби введення. Користувацькі перевірки та звіти трудомісткі, тому їх слід зарезервувати для подальшого процесу, як тільки це можливо.
Ось декілька принципів, вказівок та пропозицій, що випливають із великого досвіду (із створенням та створенням багатьох баз даних, порівнянних та значно більших за ваші). Вони не правила; не потрібно дотримуватися їх, щоб бути успішними та ефективними; але всі вони знаходяться з відмінних причин, і вам слід подумати над тим, щоб від них відхилитися.
Окремий введення даних від усіх інтелектуально вимагаючих заходів . Не вимагайте від операторів введення даних одночасно нічого перевіряти, рахувати що-небудь тощо. Обмежуйте свою роботу створенням факсимільного файлу даних, що читається на комп'ютері, більше нічого. Зокрема, цей принцип передбачає, що форми введення даних повинні відображати формат, у якому ви спочатку отримуєте дані, а не формат, у якому ви плануєте зберігати дані. Пізніше перетворити один формат в інший порівняно просто, але це схильний до помилок процес спроби перетворення під час руху під час введення даних.
Створіть слід аудиту даних : щоразу, коли що-небудь зроблено з даними, починаючи з етапу введення даних, документуйте це та записуйте процедуру таким чином, щоб полегшити процес повернення назад і перевірити, що пішло не так (адже все піде не так). Розгляньте можливість заповнення полів часових відміток, ідентифікаторів операторів введення даних, ідентифікаторів джерел для вихідних даних (таких як звіти та їхні сторінки) тощо. Зберігання коштує дешево, але час для виявлення помилки дорогий.
Автоматизуйте все. Припустимо, що будь-який крок доведеться переробляти (у найгірший можливий час, згідно із Законом Мерфі), і планувати його відповідно. Не намагайтеся зараз економити час, зробивши вручну кілька «простих кроків».
Зокрема, створіть підтримку для введення даних : зробіть передню частину для кожної таблиці (навіть електронна таблиця може зробити непогано), яка забезпечує чіткий, простий, рівномірний спосіб отримання даних. У той же час передній кінець повинен примусити ваш "бізнес" правила: "тобто він повинен виконати стільки простих перевірок дійсності. (Наприклад, рН повинен бути від 0 до 14; підрахунки повинні бути позитивними.) В ідеалі використовуйте СУБД для здійснення перевірки реляційної цілісності (наприклад, кожен вид, пов'язаний з вимірюванням, дійсно існує в базі даних).
Постійно рахуйте речі і переконайтеся, що підрахунки точно узгоджуються. Наприклад, якщо дослідження повинно вимірювати атрибути 10 видів, переконайтеся (як тільки введення даних завершиться), що 10 видів справді повідомляються. Хоча перевірка підрахунків проста та неінформативна, вона чудово виявляє дублювані та пропущені дані.
Якщо дані цінні та важливі, розгляньте самостійне подвійне введення всього набору даних . Це означає, що кожен елемент буде введено в окремий час двома різними людьми, які не взаємодіють. Це чудовий спосіб ловити помилки на помилках, відсутні дані тощо. Перехресна перевірка може бути повністю автоматизована. Це швидше, краще вловлювати помилки та ефективніше, ніж 100% ручна подвійна перевірка. (Введення даних "люди" може включати такі пристрої, як сканери з OCR.)
Використовуйте СУБД для зберігання та управління даними. Електронні таблиці чудово підходять для підтримки введення даних, але якнайшвидше дістаньте свої дані з електронних таблиць або текстових файлів і в реальну базу даних. Це запобігає всіляким підступним помилкам, додаючи багато підтримки для автоматичної перевірки цілісності даних. Якщо потрібно, використовуйте статистичне програмне забезпечення для зберігання та управління даними, але серйозно подумайте про використання спеціальної СУБД: це зробить кращу роботу.
Після того, як всі дані будуть введені та автоматично перевірені, намалюйте фотографії : зробіть відсортовані таблиці, гістограми, розсіювачі тощо, і перегляньте їх усі. Вони легко автоматизуються з будь-яким повноцінним статистичним пакетом.
Не просіть людей робити повторювані завдання, які може виконувати комп’ютер . Комп'ютер набагато швидше і надійніше. Увійдіть у звичку писати (і документувати) маленькі сценарії та невеликі програми, щоб виконувати будь-які завдання, які неможливо виконати негайно. Вони стануть частиною вашого аудиторського сліду, і вони дозволять легко переробляти роботу. Використовуйте будь-яку платформу, якою вам подобається, і яка підходить до цього завдання. (Протягом багатьох років, залежно від того, що було в наявності, я використовував широкий спектр таких платформ, і всі вони були ефективними на своєму шляху, починаючи від програм C і Fortran, через сценарії AWK і SED, сценарії VBA для Excel і Word та користувацькі програми, написані для реляційних систем баз даних, ГІС та платформ статистичного аналізу, таких як R і Stata.)
Якщо ви будете дотримуватися більшості цих рекомендацій, приблизно 50% -80% роботи над введенням даних у базу даних буде розробляти базу даних та писати допоміжні сценарії. Незвичайно отримати 90% за рахунок такого проекту та бути менш ніж 50% завершеним, але все-таки закінчити вчасно: як тільки все буде налаштовано та протестовано, введення даних та перевірка можуть бути надзвичайно ефективними.