1. 在LLM之前

以下內容是我根據Recurrent Neural Networks (RNNs): A gentle Introduction and Overview這篇論文的讀後重點整理 https://arxiv.org/pdf/1912.05911

在了解Agent之前我們需要先來了解什麼是LLM，但是了解L L M是什麼之前，我們必須先要了解什麼是神經網路！

以下內文圖片皆出自於Recurrent Neural Networks (RNNs): A gentle Introduction and Overview這篇論文

一般神經網路與時序資料的挑戰

神經網路分為兩種，一種是早期的神經網路（ DNN)，另外一種是較現代的遞迴神經網路（ R N N）。

一般神經網路的資料只能單向往前傳，每一筆輸入彼此獨立，互不相干。

適合處理靜態、獨立的資料——比如一張照片、一筆房屋特徵，輸入進去，輸出結果，中間不需要記住前面發生過什麼。

問題出在時序資料。語言、語音、股價這類東西，前後有關聯，長度也不固定。一般 DNN 沒有記憶機制，讀完這個字就忘了上一個字，自然沒辦法處理這種「有順序、有上下文」的資料。這也是後來 RNN 登場的原因。

循環神經網路 (RNN)

RNN 的核心想法很直覺：資料不要一次全部塞進去，而是像讀書一樣，一個時間步、一個時間步依序讀入。文字從左到右、語音從前到後，有先後順序的序列資料，就是為這種架構設計的。

網路裡有一個叫隱藏狀態（Hidden State）的東西，你可以把它想成模型的短期記憶。每走到一個時間步，它會把「現在讀到的輸入」和「上一步留下來的記憶」合在一起，更新成新的狀態，這樣上下文就不會立刻消失。

實務上，模型通常會先經過預訓練（Pre-training）：在真正派上用場之前，利用海量的巨量資料讓它進行大規模的學習與調整。

這個過程主要結合了兩個核心步驟：首先是正向傳播（Forward Propagation），資料由輸入層進入，一層層向後計算出預測結果與誤差損失；接著觸發反向傳播（Backpropagation），利用微積分的連鎖律（Chain Rule），將誤差從輸出層逆向傳回網路中，藉此計算出各層的梯度，並精準調整每一組權重與偏差（Bias）。來回反覆幾輪之後，模型才漸漸摸索出預測的規律。

訓練時主要靠三組權重：處理輸入的、負責記憶在時間步之間傳遞的，以及把隱藏狀態接到輸出的。重點是，不管序列有多長，各時間步共用同一套權重，這也是 RNN 能處理任意長度序列的關鍵。

不過 RNN 並非完美。時間軸上權重反覆相乘，序列一拉長，就容易出現梯度消失或梯度爆炸——模型要嘛忘光遠處的資訊，要嘛數值炸掉，長期記憶始終是個硬傷。

解決失憶問題—LSTM 與 DRNN

為了對付 RNN 的失憶症，LSTM（長短期記憶網路）在內部加了一條細胞狀態（Cell State），像一條長期記憶的傳送帶。它還有三道門——遺忘門、輸入門、輸出門—決定哪些舊資訊該丟、哪些新資訊該留。記憶的更新改用加法而不是一路相乘，梯度比較能沿著時間軸傳回去，長序列上的遺忘問題因此大幅改善。

除了 LSTM，也有人從「堆深度」和「拉長視野」兩個方向改 RNN。

Deep RNN（深度循環神經網路）像疊鬆餅，把多層 RNN 疊在一起。底層抓字面、低階特徵，越往上越能抽象出語意。

Dilated RNN（膨脹循環神經網路）則用跳躍連線，每隔幾個時間步才做一次記憶連結，等於在時間軸上跨步傳遞資訊。路徑變短，長距離特徵比較抓得到，計算上也比較有並行的空間。

捕捉全局特徵—BRNN

標準 RNN 只能單向讀——從過去到現在，看不到後面。但理解一句話，有時候得先知道後面講什麼，回頭才看得懂前面。雙向循環神經網路（BRNN）就是在同一層裡開兩條軌道：正向 RNN 從句頭讀到句尾，逆向 RNN 從句尾倒著讀回句頭。

每個時間步，模型會把兩邊的隱藏狀態拼接（Concatenate）起來，變成一個同時帶有「前面上下文」和「後面上下文」的特徵向量。做語言理解、機器翻譯或語音辨識時，這種全局視角很有幫助，不容易因為只單向閱讀而漏掉關鍵線索。

代價是，逆向那條路必須等整句話讀完才能開始算，所以 BRNN 不適合需要邊聽邊說的即時場景，也沒辦法直接拿來做純文字生成——那類任務還是得靠單向模型。

Seq2seq 與 Transformer 的演進

很多任務的輸入和輸出長度不一樣，比如中翻英、文章摘要。

Seq2seq（序列到序列）引進了 Encoder–Decoder（編碼器-解碼器） 架構來處理：Encoder 負責吃進整段輸入，並將其壓縮、提煉成一個固定長度的語意向量（Context Vector）；而 Decoder 則接手這個向量作為初始線索，開始進行文字接龍，逐步生成目標輸出。

但固定長度的向量很快就變成資訊瓶頸——句子一長，前面的內容容易被擠掉。注意力機制（Attention）解決了這件事：Decoder 每生成一個字，都可以回頭對齊 Encoder 在各個時間步的隱藏狀態，需要哪段就「看」哪段，長文本的品質因此明顯提升。

2017 年的 Transformer 則是更進一步的轉折。它幾乎不靠 RNN 的逐步遞迴，改以自我注意力（Self-Attention）為核心，句子裡的字可以同時互相比較、同時運算，平行度大幅提高值。這套架構後來成為 BERT、GPT 這類現代大語言模型的底層骨幹。

當今天使用者在 ChatGPT 輸入一句提示詞（Prompt）並按下送出，這個「文字旅程」就正式啟動了：

我們輸入的文字首先會被轉化為 Token，並在 Transformer 的多頭自我注意力機制中，同時與句子裡的其他字詞進行全局的比對與權重計算，精準捕捉複雜的前後文語意。

接著，模型會流暢地在後端進行高速的文字接龍，最終在我們的螢幕畫面上，一字字即時且流暢地輸出我們所看到的精準回覆。我們現在熟知的 AI 互動流程，很大程度上，就是站在這條演進路上長出來的成果。