String에서 숫자(Integer)만 추출하는 방법을 소개합니다.
1. 모든 숫자들을 1개의 문자열로 추출
re.sub()
의 Syntax는 다음과 같습니다.
sub()
는 string
에서 pattern
과 일치하는 문자들을 repl
로 교체합니다.
re.sub(pattern, repl, string)
다음과 같이 sub()
를 사용하여 문자열에서 숫자가 아닌 문자를 모두 제거하고 숫자로 구성된 문자열을 만들 수 있습니다.
import re
string = 'aaa1234, ^&*2233pp'
numbers = re.sub(r'[^0-9]', '', string)
print(numbers)
Output:
12342233
2. 연속된 숫자들을 추출하여 List로 리턴
re.findall(pattern, string)
은 string에서 pattern에 해당하는 내용들을 찾아서 리스트로 리턴합니다.
r'\d+'
는 1회 이상 반복되는 숫자들에 대한 패턴을 의미합니다.
다음과 같이 연속된 숫자들을 하나의 Integer로 추출합니다.
import re
string = 'aaa1234, ^&*2233pp'
numbers = re.findall(r'\d+', string)
print(numbers)
Output:
['1234', '2233']
3. 문자열 패턴 속의 숫자 추출
예를 들어, "Request 12345 Finished"
와 같은 문자열에서 가운데 숫자를 추출하고 싶을 때가 있습니다.
즉, Request (pattern) Finished
와 같은 형식으로, 포맷은 고정되어있는데 가운데 숫자만 달라지는 상황입니다.
이럴 때는, 아래와 같이 정규식으로 가운데 숫자만 읽을 수 있습니다.
import re
str = "Request 12345 Finished."
pattern = "Request ([0-9]+) Finished."
result = re.search(pattern, str)
print(result.group(1))
Output:
12345
참고로, group(1)
는 일치하는 그룹 중에 가장 첫번째 항목을 의미하며, group(0)
은 입력된 문자열을 의미합니다.
group에 대해서 좀 더 알아보기 위해, 아래와 같이 2개 그룹을 갖고 있는 패턴을 만들고 실행 결과를 보면 group(1)과 group(2)가 출력하는 것과, groups()가 출력하는 것이 무엇인지 볼 수 있습니다.
import re
str = "Request 12345 Finished. 67890"
pattern = "Request ([0-9]+) Finished. ([0-9]+)"
result = re.search(pattern, str)
print(result.group(0))
print(result.group(1))
print(result.group(2))
print(result.groups())
Output:
Request 12345 Finished. 67890
12345
67890
('12345', '67890')
4. 숫자 추출 및 낱개로 분리하여 List로 리턴
r'\d'
는 1개의 숫자를 의미합니다.
1개 이상의 반복을 의미하는 +
가 제외된 패턴으로 패턴을 찾으면, 숫자 1개 단위로 추출되어 리스트에 저장됩니다.
import re
string = 'aaa1234, ^&*2233pp'
numbers = re.findall(r'\d', string)
print(numbers)
Output:
['1', '2', '3', '4', '2', '2', '3', '3']
References
Related Posts
- Python - Yaml 파일 파싱하는 방법
- Python - 파일 내용 삭제
- Python - for문에서 리스트 순회 중 요소 값 제거
- Python - 두 리스트에서 공통 요소 값 찾기
- Python - 문자열 앞(뒤)에 0으로 채우기
- Python - 공백으로 문자열 분리
- Python - 중첩 리스트 평탄화(1차원 리스트 변환)
- Python - 16진수 문자열을 Int로 변환
- Python - 두 날짜, 시간 비교
- Python f-string으로 변수 이름, 값 쉽게 출력 (변수명 = )
- Python - nonlocal과 global 사용 방법
- Python 바다코끼리 연산자 := 알아보기
- Python - pip와 requirements.txt로 패키지 관리
- Python - 딕셔너리 보기 좋게 출력 (pprint)
- Python - Requests 사용 방법 (GET/POST/PUT/PATCH/DELETE)
- Python - 온라인 컴파일러 사이트 추천
- Python - os.walk()를 사용하여 디렉토리, 파일 탐색
- Python - 문자열 비교 방법
- Python - Text 파일 읽고 쓰는 방법 (read, write, append)
- Python - 리스트에서 첫번째, 마지막 요소 가져오는 방법
- Python - 두개의 리스트 하나로 합치기
- Python - 리스트의 마지막 요소 제거
- Python - 리스트의 첫번째 요소 제거
- Python 소수점 버림, 4가지 방법
- Python 코드 안에서 버전 확인 방법
- Python 소수점 반올림, round() 예제
- Python - 리스트 평균 구하기, 3가지 방법
- Python - bytes를 String으로 변환하는 방법
- Python - String을 bytes로 변환하는 방법
- Python 버전 확인 방법 (터미널, cmd 명령어)
- Python - 람다(Lambda) 함수 사용 방법
- Python - dict 정렬 (Key, Value로 sorting)
- Python - range() 사용 방법 및 예제
- Python - 리스트를 문자열로 변환
- Python - 문자를 숫자로 변환 (String to Integer, Float)