У мене виникають труднощі з тим, щоб згенерувати Python для роботи, коли він відповідає тексту, що охоплює кілька рядків. Приклад тексту: (\ \ n - це новий рядок)
some Varying TEXT\n
\n
DSJFKDAFJKDAFJDSAKFJADSFLKDLAFKDSAF\n
[more of the above, ending with a newline]\n
[yep, there is a variable number of lines here]\n
\n
(repeat the above a few hundred times).
Я хотів би зафіксувати дві речі: частину 'some_Varying_TEXT' і всі рядки великого тексту, що надходить на два рядки під одним захопленням (я можу викреслити символи нового рядка пізніше). Я спробував декілька підходів:
re.compile(r"^>(\w+)$$([.$]+)^$", re.MULTILINE) # try to capture both parts
re.compile(r"(^[^>][\w\s]+)$", re.MULTILINE|re.DOTALL) # just textlines
і безліч варіацій цього документа без удачі. Остання, здається, відповідає рядкам тексту один за одним, а це не те, що я дійсно хочу. Я можу спіймати першу частину, без проблем, але я не можу наздогнати 4-5 рядків великого тексту. Я хотів би, щоб match.group (1) був some_Varying_Text, а група (2) була line1 + line2 + line3 + тощо, поки не з’явиться порожній рядок.
Якщо хтось цікавий, його повинна бути послідовність амінокислот, що складають білок.
>
символу. Чи слід?