У мене є файл, який виглядає приблизно так:
gene ID protein
Solyc06g062540 (Z) PYROPHOSPHATASE 3 (PTHR20889:SF0)
Solyc10g075050 ALBUMIN SUPERFAMILY (PTHR33076:SF11)
Solyc07g061760 SUBFAMILY (PTHR24177:SF35)
Файл розміщений на вкладках; існує вкладка між першим стовпцем (ідентифікатор гена) та другим стовпцем (назва білка). (Назва білка може містити пробіли, але не вкладки.) Ім'я білка містить рядок у дужках, наприклад (PTHR33076:SF11)
,; це ідентифікатор білка . Я хочу зберегти перший стовпець і видалити все, що знаходиться у другому стовпці, крім ідентифікатора білка (та його дужок, що додаються). Таким чином, результат виглядатиме так:
Solyc06g062540 (PTHR20889:SF0)
Solyc10g075050 (PTHR33076:SF11)
Solyc07g061760 (PTHR24177:SF35)
Як я можу це зробити? Я позначив усі ідентифікатори в круглих дужках за допомогою функції «позначити» та ввівши (\w+\d+:\w+\d+)
для виділення всіх ідентифікаторів у дужках, але не можу цим маніпулювати. Як зауваження, деякі назви білків мають інші скобкові рядки (наприклад, дивіться перший рядок, де міститься ім'я білка (Z)
, а також значення, яке я хочу). Я не хочу їх зберігати.