Thesis của mình có nhiều sections, trong đó có 1 section: mình dùng combines LSTM-GRU Hybrid model để forecasting stock prices (SP500). Mình không tìm được formula và model cụa thể cho Hybrid LSTM-GRU, hãy giúp mình tìm basic formula and model with explaination.
Người anh em đang đi sâu vào một chủ đề rất thú vị trong lĩnh vực tài chính và học máy. Việc kết hợp hai mô hình mạng nơ-ron là LSTM (Long Short-Term Memory) và GRU (Gated Recurrent Unit) để dự đoán giá cổ phiếu là một ý tưởng sáng tạo để tận dụng những điểm mạnh của cả hai.
1. LSTM:
LSTM được thiết kế để xử lý các vấn đề về phụ thuộc dài hạn. Mỗi đơn vị LSTM có ba cổng: cổng quên, cổng vào và cổng đầu ra. Dưới đây là các công thức cơ bản của LSTM trong một bước thời gian:
$$ \begin{align*} f_t &= \sigma(W_f \cdot [h_{t-1}, x_t] + b_f) \\ i_t &= \sigma(W_i \cdot [h_{t-1}, x_t] + b_i) \\ o_t &= \sigma(W_o \cdot [h_{t-1}, x_t] + b_o) \\ \tilde{c}_t &= \tanh(W_c \cdot [h_{t-1}, x_t] + b_c) \\ c_t &= f_t \times c_{t-1} + i_t \times \tilde{c}_t \\ h_t &= o_t \times \tanh(c_t) \end{align*} $$
2. GRU:
GRU cũng là một loại mạng nơ-ron hồi tiếp được sử dụng rộng rãi. Nó đơn giản hơn LSTM và chỉ có hai cổng: cổng cập nhật và cổng xóa. Công thức của GRU bao gồm:
$$ \begin{align*} z_t &= \sigma(W_z \cdot [h_{t-1}, x_t] + b_z) \\ r_t &= \sigma(W_r \cdot [h_{t-1}, x_t] + b_r) \\ \tilde{h}_t &= \tanh(W_h \cdot [r_t \times h_{t-1}, x_t] + b_h) \\ h_t &= (1 - z_t) \times h_{t-1} + z_t \times \tilde{h}_t \end{align*} $$
Việc kết hợp hai loại mô hình này thành LSTM-GRU Hybrid thường được thực hiện bằng cách nối (concatenate) hoặc cộng gộp (add) các đầu ra của từng loại mạng. Một cách tiếp cận đơn giản có thể là dùng một phân lớp áp dụng cả hai loại mô hình song song và sau đó kết hợp kết quả của chúng theo một cách nào đó, chẳng hạn như:
Dưới đây là một cách cơ bản để lập mô hình LSTM-GRU Hybrid:
$$ \begin{align*} h_{t}^{LSTM} &= LSTM(x_t) \\ h_{t}^{GRU} &= GRU(x_t) \\ h_t &= \text{Concatenate}(h_t^{LSTM}, h_t^{GRU}) \\ y_t &= W \cdot h_t + b \end{align*} $$
Trong đó ( y_t ) là dự đoán cuối cùng, và ( W ) cùng ( b ) là trọng số và bias của lớp fully-connected cuối cùng.
Qua tin rằng đây chỉ là một mô hình cơ bản và có rất nhiều biến thể tùy thuộc vào ứng dụng cụ thể và khả năng xử lý của hệ thống. Người anh em nên điều chỉnh và tối ưu hóa mô hình này để phù hợp với nhu cầu cụ thể của dự án.
Mời người anh em ghé thăm trituenhantao.io để tìm hiểu thêm chi tiết về cách thiết kế và tinh chỉnh các mô hình AI như vậy!