Allen's 데이터 맛집

정규화 표현식 본문

Programming/Python

정규화 표현식

Allen93 2023. 8. 7. 22:30

데이터를 전처리를 할 때 기법으로 많이 쓰이는 정규화 표현식에 대해서 간단하게 알아보겠습니다

간단히 설명하자면 정해져있는 규칙에 따라서 문자를 추출하는 방법이라고 생각하시면 됩니다

 

정규화 표현식

p = re.compile('원하는 형태')

m = p.match('비교할 문자열') : 주어진 문자열의 처음부터 일치하는지 확인.

m = p.search('비교할 문자열') : 주어진 문자열 중에 일차하는게 있는지 확인.

lst = p.findall('비교할 문자열) : 일치하는 모든 것을 리스트 형태로 반환

정규식 예

. : 하나의 문자를 의미.

^ : 문자열의 시작.

$ : 문자열의 끝.

 

#파이썬에서 정규 표현식을 지원하는 re 모듈
import re

p = re.compile('ca.e')

def print_match(m):
    if m:
        print('m.group() : ', m.group())   # 일치하는 문자열 반환
        print('m.string : ' , m.string)    # 입력받은 문자열
        print('m.start() : ', m.start())   # 일차하는 문자열의 시작 index
        print('m.end() :', m.end())        # 일치하는 문자열의 끝 index
        print('m.span() :', m.span())      # 일치하는 문자열의 시작/끝 index
    else:
        print('매칭 되지 않음')

m = p.search('good care')
print_match(m)

lst = p.findall('good care cafe')   # findall : 일치하는 모든 것을 리스트 형태로 반환
print(lst)

>>>m.group() : care

>>>m.string : good care

>>>m.start() : 5

>>>m.end() : 9

>>>m.span() : (5, 9)

>>>['care', 'cafe']

728x90