sklearn踩坑

2021-05-05发表2021-05-05更新NLP8 分钟读完 (大约1204个字)

sklearn踩坑

这几天在做毕业设计，想做一个微博的情感分析，想着实现两种方式，一是朴素贝叶斯，二是用LSTM。

在做朴素贝叶斯的时候，据网上看到的一些文章说，训练的速度应该是很快的。但是我的训练速度却很慢，分析了一下发现是文本分词、清洗占去了大量的时间。我的语料大概12w行，20MB左右。文本处理需要一分多钟，而朴素贝叶斯的训练时间只需要一秒钟左右。

于是想把文本处理的结果，保存起来，下次直接使用，就不需要每次都多等一分钟了。