Найкращий спосіб зняти розділові знаки з рядка

636

Схоже, має бути простіший спосіб, ніж:

import string
s = "string. With. Punctuation?" # Sample string 
out = s.translate(string.maketrans("",""), string.punctuation)

Є там?

python string punctuation

— Лоуренс Джонстон
джерело

3

Здається мені досить прямо. Чому ти хочеш це змінити? Якщо ви хочете, що це простіше, просто загорніть те, що ви написали, у функції.

— Hannes Ovrén

2

Що ж, просто здавалося, що хакером є використання побічного ефекту str.translate для виконання роботи. Я думав, що може бути щось на кшталт str.strip (символів), яке працювало на всю струну, а не лише ті межі, які я пропустив.

— Лоуренс Джонстон

2

Залежить і від даних. Використання цього даних, де є імена серверів із підкресленнями як частини імені (досить поширене в деяких місцях), може бути поганим. Просто будьте впевнені, що ви знаєте ці дані та що це конатеїни, або ви могли б вирішити проблему з набором проблем.

— EBGreen

54

Залежить також від того, що ви називаєте пунктуацією. " The temperature in the O'Reilly & Arbuthnot-Smythe server's main rack is 40.5 degrees." містить точно ОДИН розділовий символ, другий "".

— Джон Махін

37

Я здивований, що ніхто не згадав, що string.punctuationвзагалі не містить неанглійські розділові знаки. Я думаю про。，！？： × “” 〟тощо.

— Клімент

929

З точки зору ефективності ви не збираєтесь бити

s.translate(None, string.punctuation)

Для вищих версій Python використовуйте наступний код:

s.translate(str.maketrans('', '', string.punctuation))

Він виконує необроблені рядкові операції на C із таблицею пошуку - не так багато, що буде перемогти це, але записати власний код C.

Якщо швидкість не турбує, ще один варіант:

exclude = set(string.punctuation)
s = ''.join(ch for ch in s if ch not in exclude)

Це швидше, ніж s.replace з кожним символом, але не виконуватиме так само, як нечисті підходи python, такі як регулярні вирази або string.translate, як видно з наведених нижче термінів. Для подібного типу проблеми, якщо зробити це на якомога нижчому рівні, окупається.

Код часу:

import re, string, timeit

s = "string. With. Punctuation"
exclude = set(string.punctuation)
table = string.maketrans("","")
regex = re.compile('[%s]' % re.escape(string.punctuation))

def test_set(s):
    return ''.join(ch for ch in s if ch not in exclude)

def test_re(s):  # From Vinko's solution, with fix.
    return regex.sub('', s)

def test_trans(s):
    return s.translate(table, string.punctuation)

def test_repl(s):  # From S.Lott's solution
    for c in string.punctuation:
        s=s.replace(c,"")
    return s

print "sets      :",timeit.Timer('f(s)', 'from __main__ import s,test_set as f').timeit(1000000)
print "regex     :",timeit.Timer('f(s)', 'from __main__ import s,test_re as f').timeit(1000000)
print "translate :",timeit.Timer('f(s)', 'from __main__ import s,test_trans as f').timeit(1000000)
print "replace   :",timeit.Timer('f(s)', 'from __main__ import s,test_repl as f').timeit(1000000)

Це дає такі результати:

sets      : 19.8566138744
regex     : 6.86155414581
translate : 2.12455511093
replace   : 28.4436721802

— Брайан
джерело

27

Дякую за інформацію про час, я думав про те, щоб зробити щось подібне сам, але ваше написано краще, ніж все, що я зробив би, і тепер я можу використовувати його як шаблон для будь-якого майбутнього коду часу, який я хочу написати :).

— Лоуренс Джонстон

29

Чудова відповідь. Ви можете спростити її, видаливши таблицю. Документи кажуть: "встановіть аргумент таблиці на" None "для перекладів, які видаляють лише символи" ( docs.python.org/library/stdtypes.html#str.translate )

— Александрос Марінос,

3

Варто також зазначити, що translate () поводиться по-різному для str та unicode об’єктів, тому вам потрібно бути впевненим, що ви завжди працюєте з одним і тим же типом даних, але підхід у цій відповіді працює однаково добре для обох, що зручно.

— Річард Дж

36

У Python3 table = string.maketrans("","")слід замінити table = str.maketrans({key: None for key in string.punctuation})?

— SparkAndShine

19

Оновити обговорення, як на Python 3.6, regexзараз є найбільш ефективним методом! Це майже в 2 рази швидше, ніж перекладати. Крім того, набори та заміна вже не такі погані! Вони обидва покращилися в 4 рази :)

— Райан Сокласкі

143

Регулярні вирази досить прості, якщо ви їх знаєте.

import re
s = "string. With. Punctuation?"
s = re.sub(r'[^\w\s]','',s)

— Ератосфен
джерело

4

@Outlier Пояснення: замінює символи або пробіли не (^) слова порожнім рядком. Будьте уважні, проте, \ w відповідає, як правило, занадто підкреслення, наприклад

— Маттіас

4

@SIslam Я думаю, що він буде працювати з unicode із встановленим прапором unicode, тобто s = re.sub(r'[^\w\s]','',s, re.UNICODE). Тестуючи його на python 3 на Linux, він працює навіть без прапора, використовуючи букви тамілів, தமிழ்.

— Маттіас

@Matthias Я спробував код з Python 3.6.5 на Mac, вихід тамільських літер виглядає дещо інакше, введення தமிழ் стає தமழ. Я не знаю про Таміл, не впевнений, чи це очікується.

— shiouming

70

Для зручності використання я підсумовую примітку смугових розділових знаків із рядка в Python 2 та Python 3. Будь ласка, зверніться до інших відповідей для детального опису.

Пітон 2

import string

s = "string. With. Punctuation?"
table = string.maketrans("","")
new_s = s.translate(table, string.punctuation)      # Output: string without punctuation

Пітон 3

import string

s = "string. With. Punctuation?"
table = str.maketrans(dict.fromkeys(string.punctuation))  # OR {key: None for key in string.punctuation}
new_s = s.translate(table)                          # Output: string without punctuation

— SparkAndShine
джерело

51

myString.translate(None, string.punctuation)

— піру
джерело

4

ах, я спробував це, але це працює не у всіх випадках. myString.translate (string.maketrans ("", ""), string.punctuation) працює чудово.

— Айдан Кейн

12

Зауважте, що для strPython 3 та unicodePython 2 deletecharsаргумент не підтримується.

— agf

4

myString.translate (string.maketrans ("", ""), string.punctuation) НЕ працюватиме з рядками unicode (дізнався важкий шлях)

— Marc Maxmeister

44

TypeError: translate() takes exactly one argument (2 given):(

— Брайан Тінгл

3

@BrianTingle: подивіться на код Python 3 у моєму коментарі (він передає один аргумент). Перейдіть за посиланням, щоб побачити код Python 2, який працює з unicode та його адаптацією Python 3

— jfs

29

Я зазвичай використовую щось подібне:

>>> s = "string. With. Punctuation?" # Sample string
>>> import string
>>> for c in string.punctuation:
...     s= s.replace(c,"")
...
>>> s
'string With Punctuation'

— С.Лотт
джерело

2

Спотворений однострочнікі: reduce(lambda s,c: s.replace(c, ''), string.punctuation, s).

— jfs

1

чудово, однак не знімає деяких пунктуацій, як довший дефіс

— Володимир Стажилов

25

string.punctuationє лише ASCII ! Більш правильний (але також набагато повільніше) спосіб - використовувати модуль unicodedata:

# -*- coding: utf-8 -*-
from unicodedata import category
s = u'String — with -  «punctation »...'
s = ''.join(ch for ch in s if category(ch)[0] != 'P')
print 'stripped', s

Ви також можете узагальнити та зняти інші типи символів:

''.join(ch for ch in s if category(ch)[0] not in 'SP')

Він також зніме символи, такі, ~*+§$які можуть бути, а можуть і не бути "пунктуаційними", залежно від точки зору.

— Бьорн Ліндквіст
джерело

3

Ви можете:regex.sub(ur"\p{P}+", "", text)

— jfs

На жаль, подібні речі ~не входять до пунктуаційної категорії. Вам також потрібно перевірити категорію «Символи».

— CJ Jackson

24

Не обов'язково простіший, але інший спосіб, якщо ви більше знайомі з родиною.

import re, string
s = "string. With. Punctuation?" # Sample string 
out = re.sub('[%s]' % re.escape(string.punctuation), '', s)

— Вінко Врсалович
джерело

1

Працює, оскільки рядок.пунктуації має послідовність, -. у правильному, висхідному, без прогалини, порядку ASCII. Хоча Python має це право, коли ви намагаєтесь використовувати підмножину string.punctuation, це може бути зупинкою показу через сюрприз "-".

— S.Lott

2

Насправді це все-таки неправильно. Послідовність "\]" трактується як втеча (випадково не закривається], так що минає черговий збій), але залишає \ unescaped. Для запобігання цьому слід використовувати re.escape (string.punctuation).

— Брайан

1

Так, я пропустив це, тому що він працював на прикладі, щоб зробити прості речі, але ви праві, що його слід включити.

— Вінко Врсалович

13

Для значень Python 3 strабо Python 2 unicode,str.translate() приймає лише словник; в цьому відображенні шукаються кодові точки (цілі числа), і все, на що відображено None, видаляється.

Щоб видалити (деякі?) Розділові знаки, скористайтеся:

import string

remove_punct_map = dict.fromkeys(map(ord, string.punctuation))
s.translate(remove_punct_map)

Метод dict.fromkeys()класу робить тривіальним створення карти, встановлення всіх значень на Noneоснові послідовності ключів.

Щоб видалити всі розділові знаки, а не лише пунктуацію ASCII, ваша таблиця повинна бути трохи більшою; див. відповідь Дж. Ф. Себастьяна (версія Python 3):

import unicodedata
import sys

remove_punct_map = dict.fromkeys(i for i in range(sys.maxunicode)
                                 if unicodedata.category(chr(i)).startswith('P'))

— Мартійн Пітерс
джерело

Для підтримки Unicode string.punctuationнедостатньо. Дивіться мою відповідь

— jfs

@JFSebastian: Дійсно, у моїй відповіді були лише ті ж символи, що й голосові. Додана версія вашої таблиці Python 3.

— Martijn Pieters

відповідь, що голосує вгорі, працює лише для рядків ascii. Ваша відповідь чітко заявляє про підтримку Unicode.

— jfs

1

@JFSebastian: працює для рядків Unicode. Це смужка пунктуації ASCII. Я ніколи не стверджував, що він знімає всі розділові знаки. :-) Справа полягала у тому, щоб забезпечити правильну техніку для unicodeоб’єктів проти об’єктів Python 2 str.

— Martijn Pieters

12

string.punctuationпропускає навантаження розділових знаків, які зазвичай використовуються в реальному світі. Як щодо рішення, яке працює для розділових знаків без ASCII?

import regex
s = u"string. With. Some・Really Weird、Non？ASCII。 「（Punctuation）」?"
remove = regex.compile(ur'[\p{C}|\p{M}|\p{P}|\p{S}|\p{Z}]+', regex.UNICODE)
remove.sub(u" ", s).strip()

Особисто я вважаю, що це найкращий спосіб видалити розділові знаки з рядка в Python, оскільки:

Він видаляє всі розділові знаки Unicode
Це легко змінюється, наприклад, ви можете \{S}видалити знаки, якщо ви хочете видалити розділові знаки, але зберігати символи на зразок$ .
Ви можете зрозуміти, що ви хочете зберегти, а що ви хочете видалити, наприклад \{Pd}, вилучите лише тире.
Цей регулярний вираз також нормалізує пробіл. Він відображає вкладки, повернення каретки та інші дивацтва до приємних, єдиних просторів.

Для цього використовуються властивості символів Unicode, про які ви можете прочитати більше у Вікіпедії .

— Зах
джерело

9

Я ще не бачив такої відповіді. Просто використовуйте регулярний вираз; він видаляє всі символи, крім символів слова ( \w) та цифр ( \d), з подальшим символом пробілу ( \s):

import re
s = "string. With. Punctuation?" # Sample string 
out = re.sub(ur'[^\w\d\s]+', '', s)

— Blairg23
джерело

1

\dє надмірним, оскільки є підмножиною \w.

— блхзінг

Число символів вважається підмножиною символів Word? Я думав, що символом Word є будь-який символ, який може побудувати реальне слово, наприклад a-zA-Z?

— Blairg23

Так, "слово" в регулярному виразі включає алфавіти, цифри та підкреслення. Ознайомтесь з описом \wу документації: docs.python.org/3/library/re.html

— blhsing

8

Ось однолінійний для Python 3.5:

import string
"l*ots! o(f. p@u)n[c}t]u[a'ti\"on#$^?/".translate(str.maketrans({a:None for a in string.punctuation}))

— Тім П
джерело

7

Це може бути не найкращим рішенням, але саме так я це зробив.

import string
f = lambda x: ''.join([i for i in x if i not in string.punctuation])

— Девід Вуонг
джерело

6

Ось функція, яку я написав. Це не дуже ефективно, але це просто і ви можете додати або видалити будь-який розділовий знак, який хочете:

def stripPunc(wordList):
    """Strips punctuation from list of words"""
    puncList = [".",";",":","!","?","/","\\",",","#","@","$","&",")","(","\""]
    for punc in puncList:
        for word in wordList:
            wordList=[word.replace(punc,'') for word in wordList]
    return wordList

— Доктор Тавтологія
джерело

5

import re
s = "string. With. Punctuation?" # Sample string 
out = re.sub(r'[^a-zA-Z0-9\s]', '', s)

— Хайтем ХАДАБ
джерело

Схоже, це працювало б лише для символів ASCII.

— avirr

5

Так само, як оновлення, я переписав приклад @Brian в Python 3 і вніс зміни до нього, щоб перемістити крок компіляції регулярних виразів всередині функції. Моя думка тут полягала в тому, щоб час кожного кроку, необхідного для того, щоб функція працювала. Можливо, ви користуєтесь розподіленими обчисленнями і не можете розділити об'єкт регулярного вирівнювання між своїми працівниками, і вам потрібно зробити re.compileкрок на кожного працівника. Також мені було цікаво в часі дві різні реалізації макетранів для Python 3

table = str.maketrans({key: None for key in string.punctuation})

проти

table = str.maketrans('', '', string.punctuation)

Плюс я додав ще один метод використання набору, де я скористався функцією перетину, щоб зменшити кількість ітерацій.

Це повний код:

import re, string, timeit

s = "string. With. Punctuation"


def test_set(s):
    exclude = set(string.punctuation)
    return ''.join(ch for ch in s if ch not in exclude)


def test_set2(s):
    _punctuation = set(string.punctuation)
    for punct in set(s).intersection(_punctuation):
        s = s.replace(punct, ' ')
    return ' '.join(s.split())


def test_re(s):  # From Vinko's solution, with fix.
    regex = re.compile('[%s]' % re.escape(string.punctuation))
    return regex.sub('', s)


def test_trans(s):
    table = str.maketrans({key: None for key in string.punctuation})
    return s.translate(table)


def test_trans2(s):
    table = str.maketrans('', '', string.punctuation)
    return(s.translate(table))


def test_repl(s):  # From S.Lott's solution
    for c in string.punctuation:
        s=s.replace(c,"")
    return s


print("sets      :",timeit.Timer('f(s)', 'from __main__ import s,test_set as f').timeit(1000000))
print("sets2      :",timeit.Timer('f(s)', 'from __main__ import s,test_set2 as f').timeit(1000000))
print("regex     :",timeit.Timer('f(s)', 'from __main__ import s,test_re as f').timeit(1000000))
print("translate :",timeit.Timer('f(s)', 'from __main__ import s,test_trans as f').timeit(1000000))
print("translate2 :",timeit.Timer('f(s)', 'from __main__ import s,test_trans2 as f').timeit(1000000))
print("replace   :",timeit.Timer('f(s)', 'from __main__ import s,test_repl as f').timeit(1000000))

Це мої результати:

sets      : 3.1830138750374317
sets2      : 2.189873124472797
regex     : 7.142953420989215
translate : 4.243278483860195
translate2 : 2.427158243022859
replace   : 4.579746678471565

— кринкер
джерело

4

>>> s = "string. With. Punctuation?"
>>> s = re.sub(r'[^\w\s]','',s)
>>> re.split(r'\s*', s)


['string', 'With', 'Punctuation']

— Пабло Родрігес Берторелло
джерело

2

Відредагуйте додаткові відомості. Відповіді, що містять лише коди, та "спробувати це" не рекомендують, оскільки вони не містять вмісту, який можна шукати, і не пояснюють, чому хтось повинен "спробувати це".

— Парітош

4

Ось рішення без регулярного вираження.

import string

input_text = "!where??and!!or$$then:)"
punctuation_replacer = string.maketrans(string.punctuation, ' '*len(string.punctuation))    
print ' '.join(input_text.translate(punctuation_replacer).split()).strip()

Output>> where and or then

Заміщує розділові знаки пробілами
Замініть декілька пробілів між словами на один пробіл
Видаліть пробіли, якщо такі є із смужкою ()

— ngub05
джерело

4

Однолайн може бути корисним у не дуже строгих випадках:

''.join([c for c in s if c.isalnum() or c.isspace()])

— Дом Грей
джерело

2

#FIRST METHOD
#Storing all punctuations in a variable    
punctuation='!?,.:;"\')(_-'
newstring='' #Creating empty string
word=raw_input("Enter string: ")
for i in word:
     if(i not in punctuation):
                  newstring+=i
print "The string without punctuation is",newstring

#SECOND METHOD
word=raw_input("Enter string: ")
punctuation='!?,.:;"\')(_-'
newstring=word.translate(None,punctuation)
print "The string without punctuation is",newstring


#Output for both methods
Enter string: hello! welcome -to_python(programming.language)??,
The string without punctuation is: hello welcome topythonprogramminglanguage

— Анімеартист з оболонки7
джерело

2

with open('one.txt','r')as myFile:

    str1=myFile.read()

    print(str1)


    punctuation = ['(', ')', '?', ':', ';', ',', '.', '!', '/', '"', "'"] 

for i in punctuation:

        str1 = str1.replace(i," ") 
        myList=[]
        myList.extend(str1.split(" "))
print (str1) 
for i in myList:

    print(i,end='\n')
    print ("____________")

— Ісаяс Вакгарі Кельбесса
джерело

0

Чому ніхто з вас цим не користується?

 ''.join(filter(str.isalnum, s))

Занадто повільно?

— Дехуа Лі
джерело

Зверніть увагу, що це також видалить пробіли.

— Георгій

0

Враховуючи унікод. Код перевірено в python3.

from unicodedata import category
text = 'hi, how are you?'
text_without_punc = ''.join(ch for ch in text if not category(ch).startswith('P'))

— Раджан саха Раджу
джерело

-1

Видаліть стоп-слова з текстового файлу за допомогою Python

print('====THIS IS HOW TO REMOVE STOP WORS====')

with open('one.txt','r')as myFile:

    str1=myFile.read()

    stop_words ="not", "is", "it", "By","between","This","By","A","when","And","up","Then","was","by","It","If","can","an","he","This","or","And","a","i","it","am","at","on","in","of","to","is","so","too","my","the","and","but","are","very","here","even","from","them","then","than","this","that","though","be","But","these"

    myList=[]

    myList.extend(str1.split(" "))

    for i in myList:

        if i not in stop_words:

            print ("____________")

            print(i,end='\n')

— Ісаяс Вакгарі Кельбесса
джерело

-2

Мені подобається використовувати таку функцію:

def scrub(abc):
    while abc[-1] is in list(string.punctuation):
        abc=abc[:-1]
    while abc[0] is in list(string.punctuation):
        abc=abc[1:]
    return abc

— Disk Giant
джерело

1

Це зачистка символів від початку та до кінця; використовувати abc.strip(string.punctuation)замість цього. Це не видалить таких символів посередині .

— Martijn Pieters