Найкращий спосіб зняти розділові знаки з рядка


636

Схоже, має бути простіший спосіб, ніж:

import string
s = "string. With. Punctuation?" # Sample string 
out = s.translate(string.maketrans("",""), string.punctuation)

Є там?


3
Здається мені досить прямо. Чому ти хочеш це змінити? Якщо ви хочете, що це простіше, просто загорніть те, що ви написали, у функції.
Hannes Ovrén

2
Що ж, просто здавалося, що хакером є використання побічного ефекту str.translate для виконання роботи. Я думав, що може бути щось на кшталт str.strip (символів), яке працювало на всю струну, а не лише ті межі, які я пропустив.
Лоуренс Джонстон

2
Залежить і від даних. Використання цього даних, де є імена серверів із підкресленнями як частини імені (досить поширене в деяких місцях), може бути поганим. Просто будьте впевнені, що ви знаєте ці дані та що це конатеїни, або ви могли б вирішити проблему з набором проблем.
EBGreen

54
Залежить також від того, що ви називаєте пунктуацією. " The temperature in the O'Reilly & Arbuthnot-Smythe server's main rack is 40.5 degrees." містить точно ОДИН розділовий символ, другий "".
Джон Махін

37
Я здивований, що ніхто не згадав, що string.punctuationвзагалі не містить неанглійські розділові знаки. Я думаю про。 ,!? : × “” 〟тощо.
Клімент

Відповіді:


929

З точки зору ефективності ви не збираєтесь бити

s.translate(None, string.punctuation)

Для вищих версій Python використовуйте наступний код:

s.translate(str.maketrans('', '', string.punctuation))

Він виконує необроблені рядкові операції на C із таблицею пошуку - не так багато, що буде перемогти це, але записати власний код C.

Якщо швидкість не турбує, ще один варіант:

exclude = set(string.punctuation)
s = ''.join(ch for ch in s if ch not in exclude)

Це швидше, ніж s.replace з кожним символом, але не виконуватиме так само, як нечисті підходи python, такі як регулярні вирази або string.translate, як видно з наведених нижче термінів. Для подібного типу проблеми, якщо зробити це на якомога нижчому рівні, окупається.

Код часу:

import re, string, timeit

s = "string. With. Punctuation"
exclude = set(string.punctuation)
table = string.maketrans("","")
regex = re.compile('[%s]' % re.escape(string.punctuation))

def test_set(s):
    return ''.join(ch for ch in s if ch not in exclude)

def test_re(s):  # From Vinko's solution, with fix.
    return regex.sub('', s)

def test_trans(s):
    return s.translate(table, string.punctuation)

def test_repl(s):  # From S.Lott's solution
    for c in string.punctuation:
        s=s.replace(c,"")
    return s

print "sets      :",timeit.Timer('f(s)', 'from __main__ import s,test_set as f').timeit(1000000)
print "regex     :",timeit.Timer('f(s)', 'from __main__ import s,test_re as f').timeit(1000000)
print "translate :",timeit.Timer('f(s)', 'from __main__ import s,test_trans as f').timeit(1000000)
print "replace   :",timeit.Timer('f(s)', 'from __main__ import s,test_repl as f').timeit(1000000)

Це дає такі результати:

sets      : 19.8566138744
regex     : 6.86155414581
translate : 2.12455511093
replace   : 28.4436721802

27
Дякую за інформацію про час, я думав про те, щоб зробити щось подібне сам, але ваше написано краще, ніж все, що я зробив би, і тепер я можу використовувати його як шаблон для будь-якого майбутнього коду часу, який я хочу написати :).
Лоуренс Джонстон

29
Чудова відповідь. Ви можете спростити її, видаливши таблицю. Документи кажуть: "встановіть аргумент таблиці на" None "для перекладів, які видаляють лише символи" ( docs.python.org/library/stdtypes.html#str.translate )
Александрос Марінос,

3
Варто також зазначити, що translate () поводиться по-різному для str та unicode об’єктів, тому вам потрібно бути впевненим, що ви завжди працюєте з одним і тим же типом даних, але підхід у цій відповіді працює однаково добре для обох, що зручно.
Річард Дж

36
У Python3 table = string.maketrans("","")слід замінити table = str.maketrans({key: None for key in string.punctuation})?
SparkAndShine

19
Оновити обговорення, як на Python 3.6, regexзараз є найбільш ефективним методом! Це майже в 2 рази швидше, ніж перекладати. Крім того, набори та заміна вже не такі погані! Вони обидва покращилися в 4 рази :)
Райан Сокласкі

143

Регулярні вирази досить прості, якщо ви їх знаєте.

import re
s = "string. With. Punctuation?"
s = re.sub(r'[^\w\s]','',s)

4
@Outlier Пояснення: замінює символи або пробіли не (^) слова порожнім рядком. Будьте уважні, проте, \ w відповідає, як правило, занадто підкреслення, наприклад
Маттіас

4
@SIslam Я думаю, що він буде працювати з unicode із встановленим прапором unicode, тобто s = re.sub(r'[^\w\s]','',s, re.UNICODE). Тестуючи його на python 3 на Linux, він працює навіть без прапора, використовуючи букви тамілів, தமிழ்.
Маттіас

@Matthias Я спробував код з Python 3.6.5 на Mac, вихід тамільських літер виглядає дещо інакше, введення தமிழ் стає தமழ. Я не знаю про Таміл, не впевнений, чи це очікується.
shiouming

70

Для зручності використання я підсумовую примітку смугових розділових знаків із рядка в Python 2 та Python 3. Будь ласка, зверніться до інших відповідей для детального опису.


Пітон 2

import string

s = "string. With. Punctuation?"
table = string.maketrans("","")
new_s = s.translate(table, string.punctuation)      # Output: string without punctuation

Пітон 3

import string

s = "string. With. Punctuation?"
table = str.maketrans(dict.fromkeys(string.punctuation))  # OR {key: None for key in string.punctuation}
new_s = s.translate(table)                          # Output: string without punctuation

51
myString.translate(None, string.punctuation)

4
ах, я спробував це, але це працює не у всіх випадках. myString.translate (string.maketrans ("", ""), string.punctuation) працює чудово.
Айдан Кейн

12
Зауважте, що для strPython 3 та unicodePython 2 deletecharsаргумент не підтримується.
agf

4
myString.translate (string.maketrans ("", ""), string.punctuation) НЕ працюватиме з рядками unicode (дізнався важкий шлях)
Marc Maxmeister

44
TypeError: translate() takes exactly one argument (2 given):(
Брайан Тінгл

3
@BrianTingle: подивіться на код Python 3 у моєму коментарі (він передає один аргумент). Перейдіть за посиланням, щоб побачити код Python 2, який працює з unicode та його адаптацією Python 3
jfs

29

Я зазвичай використовую щось подібне:

>>> s = "string. With. Punctuation?" # Sample string
>>> import string
>>> for c in string.punctuation:
...     s= s.replace(c,"")
...
>>> s
'string With Punctuation'

2
Спотворений однострочнікі: reduce(lambda s,c: s.replace(c, ''), string.punctuation, s).
jfs

1
чудово, однак не знімає деяких пунктуацій, як довший дефіс
Володимир Стажилов

25

string.punctuationє лише ASCII ! Більш правильний (але також набагато повільніше) спосіб - використовувати модуль unicodedata:

# -*- coding: utf-8 -*-
from unicodedata import category
s = u'String — with -  «punctation »...'
s = ''.join(ch for ch in s if category(ch)[0] != 'P')
print 'stripped', s

Ви також можете узагальнити та зняти інші типи символів:

''.join(ch for ch in s if category(ch)[0] not in 'SP')

Він також зніме символи, такі, ~*+§$які можуть бути, а можуть і не бути "пунктуаційними", залежно від точки зору.


3
jfs

На жаль, подібні речі ~не входять до пунктуаційної категорії. Вам також потрібно перевірити категорію «Символи».
CJ Jackson

24

Не обов'язково простіший, але інший спосіб, якщо ви більше знайомі з родиною.

import re, string
s = "string. With. Punctuation?" # Sample string 
out = re.sub('[%s]' % re.escape(string.punctuation), '', s)

1
Працює, оскільки рядок.пунктуації має послідовність, -. у правильному, висхідному, без прогалини, порядку ASCII. Хоча Python має це право, коли ви намагаєтесь використовувати підмножину string.punctuation, це може бути зупинкою показу через сюрприз "-".
S.Lott

2
Насправді це все-таки неправильно. Послідовність "\]" трактується як втеча (випадково не закривається], так що минає черговий збій), але залишає \ unescaped. Для запобігання цьому слід використовувати re.escape (string.punctuation).
Брайан

1
Так, я пропустив це, тому що він працював на прикладі, щоб зробити прості речі, але ви праві, що його слід включити.
Вінко Врсалович

13

Для значень Python 3 strабо Python 2 unicode,str.translate() приймає лише словник; в цьому відображенні шукаються кодові точки (цілі числа), і все, на що відображено None, видаляється.

Щоб видалити (деякі?) Розділові знаки, скористайтеся:

import string

remove_punct_map = dict.fromkeys(map(ord, string.punctuation))
s.translate(remove_punct_map)

Метод dict.fromkeys()класу робить тривіальним створення карти, встановлення всіх значень на Noneоснові послідовності ключів.

Щоб видалити всі розділові знаки, а не лише пунктуацію ASCII, ваша таблиця повинна бути трохи більшою; див. відповідь Дж. Ф. Себастьяна (версія Python 3):

import unicodedata
import sys

remove_punct_map = dict.fromkeys(i for i in range(sys.maxunicode)
                                 if unicodedata.category(chr(i)).startswith('P'))

Для підтримки Unicode string.punctuationнедостатньо. Дивіться мою відповідь
jfs

@JFSebastian: Дійсно, у моїй відповіді були лише ті ж символи, що й голосові. Додана версія вашої таблиці Python 3.
Martijn Pieters

відповідь, що голосує вгорі, працює лише для рядків ascii. Ваша відповідь чітко заявляє про підтримку Unicode.
jfs

1
@JFSebastian: працює для рядків Unicode. Це смужка пунктуації ASCII. Я ніколи не стверджував, що він знімає всі розділові знаки. :-) Справа полягала у тому, щоб забезпечити правильну техніку для unicodeоб’єктів проти об’єктів Python 2 str.
Martijn Pieters

12

string.punctuationпропускає навантаження розділових знаків, які зазвичай використовуються в реальному світі. Як щодо рішення, яке працює для розділових знаків без ASCII?

import regex
s = u"string. With. Some・Really Weird、Non?ASCII。 「(Punctuation)」?"
remove = regex.compile(ur'[\p{C}|\p{M}|\p{P}|\p{S}|\p{Z}]+', regex.UNICODE)
remove.sub(u" ", s).strip()

Особисто я вважаю, що це найкращий спосіб видалити розділові знаки з рядка в Python, оскільки:

  • Він видаляє всі розділові знаки Unicode
  • Це легко змінюється, наприклад, ви можете \{S}видалити знаки, якщо ви хочете видалити розділові знаки, але зберігати символи на зразок$ .
  • Ви можете зрозуміти, що ви хочете зберегти, а що ви хочете видалити, наприклад \{Pd}, вилучите лише тире.
  • Цей регулярний вираз також нормалізує пробіл. Він відображає вкладки, повернення каретки та інші дивацтва до приємних, єдиних просторів.

Для цього використовуються властивості символів Unicode, про які ви можете прочитати більше у Вікіпедії .


9

Я ще не бачив такої відповіді. Просто використовуйте регулярний вираз; він видаляє всі символи, крім символів слова ( \w) та цифр ( \d), з подальшим символом пробілу ( \s):

import re
s = "string. With. Punctuation?" # Sample string 
out = re.sub(ur'[^\w\d\s]+', '', s)

1
\dє надмірним, оскільки є підмножиною \w.
блхзінг

Число символів вважається підмножиною символів Word? Я думав, що символом Word є будь-який символ, який може побудувати реальне слово, наприклад a-zA-Z?
Blairg23

Так, "слово" в регулярному виразі включає алфавіти, цифри та підкреслення. Ознайомтесь з описом \wу документації: docs.python.org/3/library/re.html
blhsing

8

Ось однолінійний для Python 3.5:

import string
"l*ots! o(f. p@u)n[c}t]u[a'ti\"on#$^?/".translate(str.maketrans({a:None for a in string.punctuation}))

7

Це може бути не найкращим рішенням, але саме так я це зробив.

import string
f = lambda x: ''.join([i for i in x if i not in string.punctuation])

6

Ось функція, яку я написав. Це не дуже ефективно, але це просто і ви можете додати або видалити будь-який розділовий знак, який хочете:

def stripPunc(wordList):
    """Strips punctuation from list of words"""
    puncList = [".",";",":","!","?","/","\\",",","#","@","$","&",")","(","\""]
    for punc in puncList:
        for word in wordList:
            wordList=[word.replace(punc,'') for word in wordList]
    return wordList

5
import re
s = "string. With. Punctuation?" # Sample string 
out = re.sub(r'[^a-zA-Z0-9\s]', '', s)

Схоже, це працювало б лише для символів ASCII.
avirr

5

Так само, як оновлення, я переписав приклад @Brian в Python 3 і вніс зміни до нього, щоб перемістити крок компіляції регулярних виразів всередині функції. Моя думка тут полягала в тому, щоб час кожного кроку, необхідного для того, щоб функція працювала. Можливо, ви користуєтесь розподіленими обчисленнями і не можете розділити об'єкт регулярного вирівнювання між своїми працівниками, і вам потрібно зробити re.compileкрок на кожного працівника. Також мені було цікаво в часі дві різні реалізації макетранів для Python 3

table = str.maketrans({key: None for key in string.punctuation})

проти

table = str.maketrans('', '', string.punctuation)

Плюс я додав ще один метод використання набору, де я скористався функцією перетину, щоб зменшити кількість ітерацій.

Це повний код:

import re, string, timeit

s = "string. With. Punctuation"


def test_set(s):
    exclude = set(string.punctuation)
    return ''.join(ch for ch in s if ch not in exclude)


def test_set2(s):
    _punctuation = set(string.punctuation)
    for punct in set(s).intersection(_punctuation):
        s = s.replace(punct, ' ')
    return ' '.join(s.split())


def test_re(s):  # From Vinko's solution, with fix.
    regex = re.compile('[%s]' % re.escape(string.punctuation))
    return regex.sub('', s)


def test_trans(s):
    table = str.maketrans({key: None for key in string.punctuation})
    return s.translate(table)


def test_trans2(s):
    table = str.maketrans('', '', string.punctuation)
    return(s.translate(table))


def test_repl(s):  # From S.Lott's solution
    for c in string.punctuation:
        s=s.replace(c,"")
    return s


print("sets      :",timeit.Timer('f(s)', 'from __main__ import s,test_set as f').timeit(1000000))
print("sets2      :",timeit.Timer('f(s)', 'from __main__ import s,test_set2 as f').timeit(1000000))
print("regex     :",timeit.Timer('f(s)', 'from __main__ import s,test_re as f').timeit(1000000))
print("translate :",timeit.Timer('f(s)', 'from __main__ import s,test_trans as f').timeit(1000000))
print("translate2 :",timeit.Timer('f(s)', 'from __main__ import s,test_trans2 as f').timeit(1000000))
print("replace   :",timeit.Timer('f(s)', 'from __main__ import s,test_repl as f').timeit(1000000))

Це мої результати:

sets      : 3.1830138750374317
sets2      : 2.189873124472797
regex     : 7.142953420989215
translate : 4.243278483860195
translate2 : 2.427158243022859
replace   : 4.579746678471565

4
>>> s = "string. With. Punctuation?"
>>> s = re.sub(r'[^\w\s]','',s)
>>> re.split(r'\s*', s)


['string', 'With', 'Punctuation']

2
Відредагуйте додаткові відомості. Відповіді, що містять лише коди, та "спробувати це" не рекомендують, оскільки вони не містять вмісту, який можна шукати, і не пояснюють, чому хтось повинен "спробувати це".
Парітош

4

Ось рішення без регулярного вираження.

import string

input_text = "!where??and!!or$$then:)"
punctuation_replacer = string.maketrans(string.punctuation, ' '*len(string.punctuation))    
print ' '.join(input_text.translate(punctuation_replacer).split()).strip()

Output>> where and or then
  • Заміщує розділові знаки пробілами
  • Замініть декілька пробілів між словами на один пробіл
  • Видаліть пробіли, якщо такі є із смужкою ()

4

Однолайн може бути корисним у не дуже строгих випадках:

''.join([c for c in s if c.isalnum() or c.isspace()])

2
#FIRST METHOD
#Storing all punctuations in a variable    
punctuation='!?,.:;"\')(_-'
newstring='' #Creating empty string
word=raw_input("Enter string: ")
for i in word:
     if(i not in punctuation):
                  newstring+=i
print "The string without punctuation is",newstring

#SECOND METHOD
word=raw_input("Enter string: ")
punctuation='!?,.:;"\')(_-'
newstring=word.translate(None,punctuation)
print "The string without punctuation is",newstring


#Output for both methods
Enter string: hello! welcome -to_python(programming.language)??,
The string without punctuation is: hello welcome topythonprogramminglanguage

2
with open('one.txt','r')as myFile:

    str1=myFile.read()

    print(str1)


    punctuation = ['(', ')', '?', ':', ';', ',', '.', '!', '/', '"', "'"] 

for i in punctuation:

        str1 = str1.replace(i," ") 
        myList=[]
        myList.extend(str1.split(" "))
print (str1) 
for i in myList:

    print(i,end='\n')
    print ("____________")

0

Чому ніхто з вас цим не користується?

 ''.join(filter(str.isalnum, s)) 

Занадто повільно?


Зверніть увагу, що це також видалить пробіли.
Георгій

0

Враховуючи унікод. Код перевірено в python3.

from unicodedata import category
text = 'hi, how are you?'
text_without_punc = ''.join(ch for ch in text if not category(ch).startswith('P'))

-1

Видаліть стоп-слова з текстового файлу за допомогою Python

print('====THIS IS HOW TO REMOVE STOP WORS====')

with open('one.txt','r')as myFile:

    str1=myFile.read()

    stop_words ="not", "is", "it", "By","between","This","By","A","when","And","up","Then","was","by","It","If","can","an","he","This","or","And","a","i","it","am","at","on","in","of","to","is","so","too","my","the","and","but","are","very","here","even","from","them","then","than","this","that","though","be","But","these"

    myList=[]

    myList.extend(str1.split(" "))

    for i in myList:

        if i not in stop_words:

            print ("____________")

            print(i,end='\n')

-2

Мені подобається використовувати таку функцію:

def scrub(abc):
    while abc[-1] is in list(string.punctuation):
        abc=abc[:-1]
    while abc[0] is in list(string.punctuation):
        abc=abc[1:]
    return abc

1
Це зачистка символів від початку та до кінця; використовувати abc.strip(string.punctuation)замість цього. Це не видалить таких символів посередині .
Martijn Pieters
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.