这几天在做毕业设计，想做一个微博的情感分析，想着实现两种方式，一是朴素贝叶斯，二是用LSTM。

在做朴素贝叶斯的时候，据网上看到的一些文章说，训练的速度应该是很快的。但是我的训练速度却很慢，分析了一下发现是文本分词、清洗占去了大量的时间。我的语料大概12w行，20MB左右。文本处理需要一分多钟，而朴素贝叶斯的训练时间只需要一秒钟左右。

于是想把文本处理的结果，保存起来，下次直接使用，就不需要每次都多等一分钟了。

持久化#

原始文本的格式（csv格式）：

1
label,review
2
1,更博了，爆照了，帅的呀，就是越来越爱你！生快傻缺[爱你][爱你][爱你]
3
1,@张晓鹏jonathan 土耳其的事要认真对待[哈哈]，否则直接开除。@丁丁看世界 很是细心，酒店都全部OK啦。
4
1,姑娘都羡慕你呢…还有招财猫高兴……//@爱在蔓延-JC:[哈哈]小学徒一枚，等着明天见您呢//@李欣芸SharonLee:大佬范儿[书呆子]
5
1,美~~~~~[爱你]

处理后的文件（csv格式）：

1
label,review
2
1,更博 爆照 帅 的 呀 越来越 爱 生快 傻 缺 [爱你] [爱你] [爱你]
3
1,土耳其 的 事要 认真对待 [哈哈] 直接 开除 是 细心 酒店 都 全部
4
1,姑娘 都 羡慕 呢 招财猫 高兴 [哈哈] 小 学徒 一枚 等 着 明天 见 呢 大佬 范儿 [书呆子]
5
1,美 [爱你]

处理文件的脚本：

1
import random
2
import re
3

4
import jieba
5
import pandas as pd
6

7

8
def trim(text):
9
    """
10
    带有语料清洗功能的分词函数, 包含数据预处理, 可以根据自己的需求重载
11
    使用re保证了一些本来可能会分开的表情图标不分开
12
    return: [str]
13
    """
14
    text = re.sub("\{%.+?%\}", " ", text)           # 去除 {%xxx%} (地理定位, 微博话题等)
15
    # text = re.sub("@.+?( |$)", " ", text)           # 去除 @xxx (用户名)
16
    text = re.sub("@.+?( |:)", " ", text)           # 去除 @xxx (用户名)
17
    text = re.sub("【.+?】", " ", text)              # 去除 【xx】 (里面的内容通常都不是用户自己写的)
18
    text = re.sub("[a-zA-Z0-9]", " ", text)         # 去除字母和数字
19
    icons = re.findall("\[.+?\]", text)             # 提取出所有表情图标
20
    text = re.sub("\[.+?\]", "IconMark", text)      # 将文本中的图标替换为`IconMark`
21

22
    tokens = []
23
    # for k, w in enumerate(jieba.lcut(text)):
24
    jieba.load_userdict('./data/user_dict.txt')
25
    for w in jieba.cut(text):
26
        w = w.strip()
27
        if "IconMark" in w:                         # 将IconMark替换为原图标
28
            for i in range(w.count("IconMark")):
29
                tokens.append(icons.pop(0))
30
        elif w and w != '\u200b' and w.isalpha():   # 只保留有效文本
31
            tokens.append(w)
32
    return tokens
33

34

35
def load_corpus(csvFilePath, stopwordPath):
36
    """
37
    加载语料库，并进行分词，数据清洗，去除停用词
38
    """
39
    # 数据读取
40
    df = pd.read_csv(csvFilePath)
41
    stopword = load_stopword(stopwordPath)
42
    labels, reviews = df['label'].to_list(), df['review'].to_list()
43
    trimedReviews = []
44
    for review in reviews:
45
        # 数据清洗
46
        trimedReview = trim(review)
47
        # 去除停用词
48
        finalReview = []
49
        for word in trimedReview:
50
            if word not in stopword:
51
                finalReview.append(word)
52
        trimedReviews.append(finalReview)
53
    return labels, trimedReviews
54

55
def load_reviews(csvFilePath):
56
    df = pd.read_csv(csvFilePath)
57
    return df['label'], df['review']
58

59
def load_stopword(filePath):
60
    """
61
    加载停用词
62
    """
63
    with open(filePath, encoding='UTF-8') as words:
64
        stopword = [word.strip() for word in words]
65
    return stopword
66

67

68
def data_suffle(labels, reviews):
69
    """
70
    打乱数据
71
    """
72
    join = list(zip(labels, reviews))
73
    random.shuffle(join)
74
    labels, reviews = zip(*join)
75
    return list(labels), list(reviews)
76

77
def pre_trim(csvFilePath, stopwordPath):
78
    """
79
    预处理csv文本，并持久化
80
    """
81
    df = pd.read_csv(csvFilePath)
82
    _, reviews = load_corpus(csvFilePath, stopwordPath)
83
    for index in range(len(reviews)):
84
        reviews[index] = ' '.join(reviews[index])
85
    df['review'] = reviews
86
    df.to_csv(csvFilePath[:-4] + 'Trimed.csv', index=False)
87

88
if __name__ == '__main__':
89
    csvFilePath = '../../corpus/100k/all.csv'
90
    stopwordPath = './data/stopword.txt'
91
    pre_trim(csvFilePath, stopwordPath)

读取文件#

读取文件并分割数据集#

1
import time
2
import pickle
3
import numpy as np
4
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer
5
from sklearn.naive_bayes import MultinomialNB
6
from sklearn.pipeline import Pipeline
7
from utils import load_reviews, data_suffle
8

9
# stopwordPath = './data/stopword.txt'
10
# userDictPath = './data/user_dict.txt'
11
csvFilePath = '../../corpus/100k/allTrimed.csv'
12
modelPath = './data/bayes.model'
13

14
# 载入自定义字典
15
# jieba.load_userdict(userDictPath)
16

17
time_start = time.time()
18

19
labels, reviews = load_reviews(csvFilePath)
20
labels, reviews = data_suffle(labels, reviews)
21

22
# 1/4 分割数据集
23
n = len(labels) // 5
24
labels_train, reviews_train = labels[n:], reviews[n:]
25
labels_test, reviews_test = labels[:n], reviews[:n]
26

27
print(f'Load Corpus Cost {time.time() - time_start:.4f} Sec')

训练模型#

1
time_start = time.time()
2

3
vectorizer = CountVectorizer(max_df=0.8, min_df=5)
4
# ⚠️坑点
5
vec_train = vectorizer.fit_transform([np.str_(review) for review in reviews_train])
6
clf = MultinomialNB().fit(vec_train, labels_train)
7

8
print(f'Train Model Cost {time.time() - time_start:.4f} Sec')

这个地方就是我遇到的问题，如果不将reviews全部转为np.string的话，会报ValueError: np.nan is an invalid document, expected byte or unicode string.错误，但是根据sklearn的文档，似乎并没有说不能传入str类型。

测试模型#

1
vec_test = vectorizer.transform([np.str_(review) for review in reviews_test])
2
pred = clf.predict(vec_test)
3
from sklearn import metrics
4
print(metrics.classification_report(labels_test, pred))
5
print("准确率:", metrics.accuracy_score(labels_test, pred))

预测的准确率还不错，能达到85%以上。