text 데이터를 처리하다 보면 그 안에 개인정보(phone, email 등) 등의 민감정보가 포함 되어 있는 경우가 있다. 이것들은 정규식(regular expression)을 사용하여 알아 볼 수 없도록 편집 (masking) 할 수 있다.
import re text = '안녕하세요. 문의드릴 것이 있어서 연락드렸습니다. 제 연락처는 010-1234-1234 / thenewth@gmail.com 입니다. 연락가능 하실때 연락 부탁 드립니다. 감사합니다.' phoneRegular = "\d{2,3}-\d{3,4}-\d{4}" emailReqular = "(\w+\.)*\w+@(\w+\.)+[A-Za-z]+" phonePattern = re.compile(phoneRegular) emailPattern = re.compile(emailReqular) #Masking 문자 대신 공백을 사용하면 민감정보 표시 자체를 삭제 할 수 있다. redactedPhoneText = re.sub(phonePattern, "***-****-****", text) redactedEmailText = re.sub(emailPattern , "****@****.***", text) #전화번호 정보 masking 결과 확인 print(redactedPhoneText) #이메일 정보 masking 결과 확인 print(redactedEmailText)
출력한 결과를 확인해 보면 정규식에 해당하는 민감정보가 편집(Masking)된 것을 확인 할 수 있다.