文章

AI 第21天:專案實作:情感分析模型

情感分析是一個經典的自然語言處理(NLP)應用,主要目的是判斷文本內容的情緒傾向(例如:正面、負面或中立)。今天,我們將利用深度學習技術和 LSTM,實作一個簡單的情感分析模型,並使用 IMDb 電影評論數據集作為訓練資料。


課程目標

  1. 瞭解情感分析模型的構建流程。
  2. 學習如何處理文本數據並將其轉換為可用於模型訓練的數字格式。
  3. 使用 TensorFlow/Keras 搭建基於 LSTM 的情感分析模型。

課程內容

1. 專案需求分析

1.1 為什麼選擇 LSTM?

LSTM 擅長處理序列數據,特別適合處理句子或文本中前後文的語義關聯性,因此在情感分析任務中表現良好。

1.2 使用的數據集:IMDb 電影評論數據集

IMDb 數據集是一個包含 50,000 條標註過的電影評論的數據集,其中每條評論被標記為正面(1)或負面(0)。


2. 數據處理

2.1 載入 IMDb 數據集

TensorFlow 提供了內建的 IMDb 數據集,數據已被預處理為整數形式,每個整數對應於字典中的一個單詞。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
import tensorflow as tf
from tensorflow.keras.datasets import imdb
from tensorflow.keras.preprocessing.sequence import pad_sequences

# 設定字典的大小(最常用的 10,000 個單詞)
vocab_size = 10000
max_len = 100  # 每條評論的最大長度

# 載入數據集
(x_train, y_train), (x_test, y_test) = imdb.load_data(num_words=vocab_size)

# 將每條評論填充或截斷為固定長度
x_train = pad_sequences(x_train, maxlen=max_len, padding='post')
x_test = pad_sequences(x_test, maxlen=max_len, padding='post')

print(f"訓練集形狀: {x_train.shape}, 測試集形狀: {x_test.shape}")

3. 模型構建

3.1 LSTM 模型架構

我們將使用嵌入層(Embedding Layer)將整數形式的單詞轉換為向量,然後通過 LSTM 層提取序列特徵,最後輸出分類結果。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, LSTM, Dense, Dropout

# 模型架構
model = Sequential([
    Embedding(input_dim=vocab_size, output_dim=128, input_length=max_len),  # 嵌入層
    LSTM(128, activation='tanh', return_sequences=False),  # LSTM 層
    Dropout(0.5),  # Dropout 層
    Dense(64, activation='relu'),  # 全連接層
    Dropout(0.5),
    Dense(1, activation='sigmoid')  # 輸出層(使用 sigmoid 進行二分類)
])

# 編譯模型
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# 查看模型架構
model.summary()

4. 模型訓練與評估

4.1 訓練模型

1
2
3
4
5
6
7
8
# 訓練模型
history = model.fit(
    x_train, y_train,
    epochs=5,
    batch_size=64,
    validation_split=0.2,
    verbose=1
)

4.2 評估模型性能

1
2
3
# 評估測試集準確率
test_loss, test_acc = model.evaluate(x_test, y_test)
print(f"測試集準確率: {test_acc:.4f}")

5. 模型測試與可視化

5.1 測試單條評論

我們可以測試一條新的評論,將其轉換為數字形式並輸入模型。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

# 測試評論
sample_review = "The movie was absolutely wonderful, I loved it!"

# 將評論轉換為數字
tokenizer = tf.keras.preprocessing.text.Tokenizer(num_words=vocab_size)
tokenizer.fit_on_texts([sample_review])
sequence = tokenizer.texts_to_sequences([sample_review])
padded_sequence = pad_sequences(sequence, maxlen=max_len, padding='post')

# 預測情感
prediction = model.predict(padded_sequence)
print(f"情感分數: {prediction[0][0]:.4f}")
print("預測結果:", "正面" if prediction[0][0] > 0.5 else "負面")

5.2 可視化訓練結果

1
2
3
4
5
6
7
8
9
10
import matplotlib.pyplot as plt

# 繪製訓練和驗證準確率
plt.plot(history.history['accuracy'], label='訓練準確率')
plt.plot(history.history['val_accuracy'], label='驗證準確率')
plt.legend()
plt.title('訓練與驗證準確率')
plt.xlabel('訓練回合')
plt.ylabel('準確率')
plt.show()

6. 延伸學習

6.1 增強模型的技巧

  1. 調整超參數:增加 LSTM 層數、神經元數量,或調整 Dropout 比例。
  2. 使用預訓練詞嵌入:如 GloVe 或 Word2Vec,替代隨機初始化的嵌入層。
  3. 處理多分類情感分析:如擴展至正面、中立、負面三分類。

6.2 深入學習的應用

  • 使用更大型的情感分析數據集(如 Twitter 情感分析數據集)。
  • 應用情感分析於產品評論或社群媒體分析中,提取用戶意見。

課後作業

  1. 使用不同的模型架構(如 GRU 或雙向 LSTM)重構模型,並比較性能。
  2. 搜集自己的文本數據集,嘗試進行情感標註並訓練模型。
  3. 探索如何優化嵌入層的表示(例如透過微調預訓練詞嵌入)。

如果需要更進階的專案案例或技術細節,歡迎隨時交流!

本文章以 CC BY 4.0 授權