tokenizer 단어 하나하나 구분
Python lower, replace, re.sub의 사본
토큰화 된 문서 카운트