비정형 데이터 중 가장 많이 언급되는 것이 텍스트 데이터입니다. 일반적으로 전처리 코드는 영어를 중심으로 되어 있어서, 한글만을 위한 전처리 도구는 조금 공수를 들여야 하는 경우가 많습니다. 오픈 소스 라이브러리 자료들도 많이 올라와 있지만, 영어보단 활성화되진 않았습니다. 한국어는 영어처럼 띄어쓰기를 기준으로 관사와 명사, 형용사를 분리할 수 없는 독특한 구조를 가진 글자라서 처리할 때 좀 더 까다롭지 않을까란 생각을 합니다 한국어 전처리는 다음과 같은 과정들을 거친다고 생각합니다. 1. 텍스트 데이터 수집 2. 텍스트 cleaning 과정 - 필요없는 텍스트 제거 -불필요한 html 태그 제외 - 문장부호 제거 - 맞춤법 체크 - 띄어쓰기 - 반복되는 문자 정규화 3. 불용어 제거 4. 품사 Tagg..