Я вивчаю деякі дані геномного покриття, які в основному є довгим списком (кілька мільйонів значень) цілих чисел, кожне говорить про те, наскільки добре (або "глибоко") ця позиція в геномі охоплена.
Я хотів би шукати "долини" в цих даних, тобто регіони, які значно "нижчі", ніж їх навколишнє середовище.
Зауважте, що розмір долин, які я шукаю, може становити від 50 баз до кількох тисяч.
Які парадигми ви б рекомендували використовувати для пошуку цих долин?
ОНОВЛЕННЯ
Деякі графічні приклади даних:
ОНОВЛЕННЯ 2
Визначення, що таке долина, - це, звичайно, одне із питань, з якими я стикаюся. Це для мене очевидні:
але є кілька складніших ситуацій. Загалом, я вважаю 3 критерії: 1. (середнє? Максимальне?) Покриття у вікні щодо середнього показника в усьому світі. 2. Покриття у вікні (...) щодо його безпосереднього оточення. 3. Наскільки велике вікно: якщо я бачу дуже низьке покриття для короткого прольоту, це цікаво, якщо я бачу дуже низьке покриття для тривалого періоду, це також цікаво, якщо я бачу м'яке низьке покриття для короткого прольоту, це не дуже цікаво , але якщо я бачу м'яке низьке покриття на тривалий проміжок - це .. Так це поєднання довжини сапна і його покриття. Чим довше воно, тим вище я дозволяю бути покриттям і досі вважаю його долиною.
Дякую,
Дейв