축약편 | Notion

# 토큰화를 위한 파이프라인을 구성합니다.

tokens = []

for doc in tokenizer.pipe(df['description']):
    doc_tokens = [re.sub(r"[^a-z0-9]", "", token.text.lower().replace('\\n', ' ')) for token in doc]
    tokens.append(doc_tokens)

df['tokens'] = tokens
df['tokens']