AI 第21天:專案實作:情感分析模型
情感分析是一個經典的自然語言處理(NLP)應用,主要目的是判斷文本內容的情緒傾向(例如:正面、負面或中立)。今天,我們將利用深度學習技術和 LSTM,實作一個簡單的情感分析模型,並使用 IMDb 電影評論數據集作為訓練資料。
課程目標
- 瞭解情感分析模型的構建流程。
- 學習如何處理文本數據並將其轉換為可用於模型訓練的數字格式。
- 使用 TensorFlow/Keras 搭建基於 LSTM 的情感分析模型。
課程內容
1. 專案需求分析
1.1 為什麼選擇 LSTM?
LSTM 擅長處理序列數據,特別適合處理句子或文本中前後文的語義關聯性,因此在情感分析任務中表現良好。
1.2 使用的數據集:IMDb 電影評論數據集
IMDb 數據集是一個包含 50,000 條標註過的電影評論的數據集,其中每條評論被標記為正面(1)或負面(0)。
2. 數據處理
2.1 載入 IMDb 數據集
TensorFlow 提供了內建的 IMDb 數據集,數據已被預處理為整數形式,每個整數對應於字典中的一個單詞。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
import tensorflow as tf
from tensorflow.keras.datasets import imdb
from tensorflow.keras.preprocessing.sequence import pad_sequences
# 設定字典的大小(最常用的 10,000 個單詞)
vocab_size = 10000
max_len = 100 # 每條評論的最大長度
# 載入數據集
(x_train, y_train), (x_test, y_test) = imdb.load_data(num_words=vocab_size)
# 將每條評論填充或截斷為固定長度
x_train = pad_sequences(x_train, maxlen=max_len, padding='post')
x_test = pad_sequences(x_test, maxlen=max_len, padding='post')
print(f"訓練集形狀: {x_train.shape}, 測試集形狀: {x_test.shape}")
3. 模型構建
3.1 LSTM 模型架構
我們將使用嵌入層(Embedding Layer)將整數形式的單詞轉換為向量,然後通過 LSTM 層提取序列特徵,最後輸出分類結果。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, LSTM, Dense, Dropout
# 模型架構
model = Sequential([
Embedding(input_dim=vocab_size, output_dim=128, input_length=max_len), # 嵌入層
LSTM(128, activation='tanh', return_sequences=False), # LSTM 層
Dropout(0.5), # Dropout 層
Dense(64, activation='relu'), # 全連接層
Dropout(0.5),
Dense(1, activation='sigmoid') # 輸出層(使用 sigmoid 進行二分類)
])
# 編譯模型
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
# 查看模型架構
model.summary()
4. 模型訓練與評估
4.1 訓練模型
1
2
3
4
5
6
7
8
# 訓練模型
history = model.fit(
x_train, y_train,
epochs=5,
batch_size=64,
validation_split=0.2,
verbose=1
)
4.2 評估模型性能
1
2
3
# 評估測試集準確率
test_loss, test_acc = model.evaluate(x_test, y_test)
print(f"測試集準確率: {test_acc:.4f}")
5. 模型測試與可視化
5.1 測試單條評論
我們可以測試一條新的評論,將其轉換為數字形式並輸入模型。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
# 測試評論
sample_review = "The movie was absolutely wonderful, I loved it!"
# 將評論轉換為數字
tokenizer = tf.keras.preprocessing.text.Tokenizer(num_words=vocab_size)
tokenizer.fit_on_texts([sample_review])
sequence = tokenizer.texts_to_sequences([sample_review])
padded_sequence = pad_sequences(sequence, maxlen=max_len, padding='post')
# 預測情感
prediction = model.predict(padded_sequence)
print(f"情感分數: {prediction[0][0]:.4f}")
print("預測結果:", "正面" if prediction[0][0] > 0.5 else "負面")
5.2 可視化訓練結果
1
2
3
4
5
6
7
8
9
10
import matplotlib.pyplot as plt
# 繪製訓練和驗證準確率
plt.plot(history.history['accuracy'], label='訓練準確率')
plt.plot(history.history['val_accuracy'], label='驗證準確率')
plt.legend()
plt.title('訓練與驗證準確率')
plt.xlabel('訓練回合')
plt.ylabel('準確率')
plt.show()
6. 延伸學習
6.1 增強模型的技巧
- 調整超參數:增加 LSTM 層數、神經元數量,或調整 Dropout 比例。
- 使用預訓練詞嵌入:如 GloVe 或 Word2Vec,替代隨機初始化的嵌入層。
- 處理多分類情感分析:如擴展至正面、中立、負面三分類。
6.2 深入學習的應用
- 使用更大型的情感分析數據集(如 Twitter 情感分析數據集)。
- 應用情感分析於產品評論或社群媒體分析中,提取用戶意見。
課後作業
- 使用不同的模型架構(如 GRU 或雙向 LSTM)重構模型,並比較性能。
- 搜集自己的文本數據集,嘗試進行情感標註並訓練模型。
- 探索如何優化嵌入層的表示(例如透過微調預訓練詞嵌入)。
如果需要更進階的專案案例或技術細節,歡迎隨時交流!
本文章以 CC BY 4.0 授權