網易首頁 > 網易號 > 正文申請入駐

游戲AI行為決策——MLP（多層感知機/人工神經網絡）

2025-11-04 19:36:42　來源: 侑虎科技UWA

上海舉報

分享至

【USparkle專欄】如果你深懷絕技，愛“搞點研究”，樂于分享也博采眾長，我們期待你的加入，讓智慧的火花碰撞交織，讓知識的傳遞生生不息！

這是侑虎科技第1902篇文章，感謝作者狐王駕虎供稿。歡迎轉發分享，未經作者授權請勿轉載。如果您有任何獨到的見解或者發現也歡迎聯系我們，一起探討。（QQ群：793972859）

作者主頁：

https://home.cnblogs.com/u/OwlCat

你一定聽說過神經網絡的大名，你有想過將它用于游戲AI的行為決策上嗎？其實在（2010年發布的）《最高指揮官2》中就有應用了，今天請允許我班門弄斧一番，與大家一同用C# 實現最經典的神經網絡 —— 多層感知機（Multilayer Perceptron，簡稱MLP）。

一、前言

神經網絡或者深度學習，總給人一種「量子力學」的感覺，總感覺它神秘無比，又無所不能。我未學習神經網絡之前，總以為它是某種能夠修改自身代碼的代碼，否則怎么能做到從「不會」變成「會」的呢？但在親自學習后才會明白，它并沒有做到這種地步，但依舊十分神奇。多層感知機是最基礎的神經網絡，很多其它類別的神經網絡都是在這之上的變形。可以說，學會它是邁入深度學習的第一步。

多層感知機雖說經典，但并不過時。提到神經網絡，大多數人腦海里想到的大概也就是類似這樣的圖片：

這就是一張典型的多層感知機結構圖，看著好像很復雜，但實現它所需要用到的數學原理和編程知識都不難，早年間，研究神經網絡的學者們還用C語言實現呢！

二、什么是多層感知機

現在進入正題，我們先來簡單講講MLP的原理（如果你對此十分熟悉，只是對代碼實現感興趣，那可以跳過這部分）。

既然叫「多層感知機」，那有單個的感知機嗎？那是自然，單個感知機的結構十分簡單：

它其實就是個算式（為方便理解，我將其分成兩部分）：

將傳入感知機的多個輸入x，與對應的權重w相乘（輸入的數量與權重的數量是一樣的，且數量是任意的，本例中用了3個），再加上偏置b就可以得出一個計算值sum。再將這個計算值傳入一個函數f(x)就可得到感知機的最終輸出out。

相信你肯定能理解，只是可能對f(x)函數有些好奇，它具體內容是什么呢？這個函數也被稱為「激活函數」，為什么叫這個名字？這就得提感知機的另一個名字 —— 人工神經元。其實感知機正是受神經元結構啟發而被提出來的：

神經元會通過樹突接受輸入信號并匯總，而神經元對于各個輸入刺激的響應強度并不相同，所以我們給各個輸入設置了相應權重來模擬這個現象。之后，將處理的信息通過軸突傳給末梢（終端）。但實際上，只有匯總的信號強度大于一定程度時神經元才會向末梢傳遞信號，而模擬這個現象的就是「激活函數」。

那偏置b又是模擬什么的？其實它是從數學角度考慮的、方便調整輸入加權和的變量值而已。

既然感知機被稱為「人工神經元」，那多層感知機豈不就是「人工神經網絡」？一點沒錯，我們現在所說的「神經網絡」，基本都是指人工神經網絡，而不是真正的、生物的神經網絡。而「神經網絡」起初就是指多層感知機，只不過現在種類多了，定義也變寬泛了。

結合我們對單個感知機的認識，再看看多層感知機：

但這里的單個感知機（后面用「神經元」來代稱）怎么輸出了多個值（看標藍色的那部分）？這種結構圖可能會誤導某些人，我做個解釋，這里的每一條線并不是輸出，可以看到它是有箭頭的，每條線表示它所指向的那個神經元的一個權重。加上箭頭是為了表示數據傳遞的方向。

不難看出，它就是將多個感知機以層為單位進行了組合，每層都有任意數量（每層的數量可以不同）的感知機，并將一層感知機的輸出作為下一層的輸入，依次套娃下去。像圖中，下一層神經元的權重數量 = 上一層的神經元數量，稱為全連接，是神經網絡中常見的連接方式，本文也只考慮這種連接方式。

這里的「輸入層」其實就是輸入的數據（是的，這一層不是神經元），類似之前的x0、x1、x2；「輸出層」就是用于輸出的神經元所組成的層，有了多個感知機，我們也可以得到多個輸出；夾在「輸入層」與「輸出層」之間的就叫「隱藏層」，因為在實際使用神經網絡時，就只是輸入一組數值作為「輸入層」，再看看「輸出層」得到的結果，并不關心中間的運算。

我們常說的「深度學習」里的「深度」指的就是神經網絡中「隱藏層」的層數（只不過現在這個詞有點被炒作了），當一個神經網絡的隱藏層超過3層時，它就是「深度神經網絡」。

通過改變神經網絡的結構或者調節神經網絡的權重和偏置，我們可以用神經網絡近似任何的函數、甚至是一些摸不著頭腦的規律。

比如影響小明今天玩不玩網游的因素有：今日作業量、心情、本月剩余流量、今天是星期幾，但我們并不知道這些因素與小明玩不玩的具體數學關系，只能大概地推斷：今天小明作業多，不會玩游戲；又或者今天是星期六，雖然作業還有很多，但他還是會玩游戲……可一旦知道具體數學關系，我們就可以通過計算準確預測小明是否會玩游戲，就像我們知道了牛頓力學公式，就可以根據物體的質量和被射出的力來計算它的運動軌跡一樣。

所以我們所關心的、實際所使用的都是這種已經設置好正確權重和偏置的神經網絡，像在與GPT聊天時怕「污染數據庫」這類事就不用操心了。

要如何為神經網絡的各個神經元的各個權重設置正確的值，使它能夠輸出我們預期的結果呢？手動調肯定不現實，所以我們會運用一些數學知識讓程序自行調整權重，這個過程就是「訓練/學習」。

我們會給出一些輸入以及該輸入所對應的正確輸出，比如我們可以記錄小明上個學期玩網游時的各因素值以及不玩時的各因素值，這些作為「訓練集」。然后設計一個「損失函數」評判當前神經網絡的輸出與正確輸出之間的差距。而程序就是不斷地調節各個權重，使差距越來越小，這種調節的根據是「導數」，但在這里我就不展開了。總之，如果訓練得當，神經網絡的損失就會越來越小，直到停在一個值附近，這就是「收斂」。

篇幅所限，我刻意沒有講相關的數學原理，如果你對此感興趣，又或者對MLP的運作仍有困惑，可以看看以下兩個視頻。如果準備好了，下面就進入代碼實現環節吧。

視頻1：

https://www.bilibili.com/video/BV1bx411M7Zx/?spm_id_from=333.999.0.0&vd_source=c9a1131d04faacd4a397411965ea21f4

視頻2：

https://www.bilibili.com/video/BV1o64y1i7yw/?spm_id_from=333.788&vd_source=c9a1131d04faacd4a397411965ea21f4

三、代碼實現

1. 相關數學

關于數學部分，我只進行簡要說明，不講它們的數學原理，也不過多注釋。如果你只是想將神經網絡應用到游戲中，那這部分完全可以不必深究原理，弄清它們應用的場合即可。

a. 初始化權重函數

神經網絡權重的初始化十分重要，它會影響你的神經網絡最后能否訓練成功。這里實現了3種典型的初始化方法：

隨機初始化（std = 0.01）：是比較普通的方法，深度學習新手接觸的第一個初始化方式。
Xavier初始化：適用于激活函數為Sigmoid和Tanh的場合。
He初始化：適用于激活函數為ReLU及其衍生函數，如Leaky ReLU的場合。

這里我還用了枚舉，方便在編輯時切換初始化的方法（后續幾類數學函數也會用這種方法）：

                                                           using System;


 namespaceJufGame.AI.ANN
{
    publicstaticclassInitWFunc
    { 
        publicenum Type
        {
            Random, Xavier, He, None
        }
        public static void InitWeights(Type initWFunc, Neuron neuron)
        {
            switch(initWFunc)
            {
                case Type.Xavier:
                    XavierInitWeights(neuron.Weights);
                    break;
                case Type.He:
                    HeInitWeights(neuron.Weights);
                    break;
                case Type.Random:
                    RandomInitWeights(neuron.Weights);
                    break;
                default:
                    break;
            }
        }
        private static void RandomInitWeights(float[] weightsList)
        {
            var rand = new Random();
            for (int i = 0; i < weightsList.Length; ++i)
            {
                //使用較小的標準差，適合普通的隨機初始化
                weightsList[i] = (float)(rand.NextGaussian() * 0.01); 
            }
        }
        private static void XavierInitWeights(float[] weightsList)
        {
            var rand = new Random();
            var scale = 1f / MathF.Sqrt(weightsList.Length);
            for (int i = 0; i < weightsList.Length; ++i)
            {
                weightsList[i] = (float)(rand.NextDouble() * 2 * scale - scale);
            }
        }
        private static void HeInitWeights(float[] weightsList)
        {
            var rand = new Random();
            var stdDev = MathF.Sqrt(2f / weightsList.Length); //計算標準差
            for (int i = 0; i < weightsList.Length; ++i)
            {   
                //生成服從正態分布的隨機數，并乘以標準差
                weightsList[i] = (float)(rand.NextGaussian() * stdDev); 
            }
        }
        // 用于生成服從標準正態分布的隨機數的輔助方法
        private static double NextGaussian(this Random rand)
        {
            double u1 = 1.0 - rand.NextDouble(); // 生成 [0, 1) 之間的隨機數
            double u2 = 1.0 - rand.NextDouble();
            // 使用 Box-Muller 變換生成正態分布的隨機數
            return Math.Sqrt(-2.0 * Math.Log(u1)) * Math.Sin(2.0 * Math.PI * u2); 
        }
    }
}

b. 激活函數

一般神經網絡中所有隱藏層都使用同一種激活函數，輸出層根據問題需求可能會使用和隱藏層不一樣的激活函數。激活函數都有非線性且可導的特點，我也實現了一些典型的激活函數：

直接輸出（Identify）：不做處理直接輸出，用于輸出層。
Sigmoid：早期的主流，現在一般用于輸出層需要將輸出值限制在0~1的場合，或者是只有兩個輸出的二分問題。
Tanh：相當于Sigmoid的改造，將輸出限制在了-1~1。
ReLU：當今的主流激活函數，長得十分友好，甚至不用加減運算。一般選它準沒錯。
Leaky ReLU：ReLU的改造，使得對負數輸入也有響應，但并沒有說它一定好于ReLU。如果你用ReLU訓練出現問題，可以換這個試試。
Softmax：把一系列輸出轉為總和為1的小數，并且維持彼此的大小關系，相當于把輸出結果轉為了概率。適用于多分類問題，但一定要搭配交叉熵損失函數使用。

                                                           using System;

 namespaceJufGame.AI.ANN
{
    publicstaticclassActivationFunc
    {
        private delegate float FuncCalc(float x);
        privatestatic FuncCalc curAcFunc;
        publicenum Type
        {
            Identify, Softmax, Tanh, Sigmoid, ReLU, LeakyReLU
        }  
        //按層使用激活函數計算
        public static void Calc(Type funcType, Layer layer)
        {
            if(funcType == Type.Softmax)
            {
                Softmax_Calc(layer);
            }
            else
            {
                curAcFunc = funcType switch
                {
                    Type.Sigmoid => Sigmoid_Calc,
                    Type.Tanh => Tanh_Calc,
                    Type.ReLU => ReLU_Calc,
                    Type.LeakyReLU => LeakyReLU_Calc,
                    _ => Identify_Calc,
                };
                for(int i = 0; i < layer.Neurons.Length; ++i)
                {
                    layer.Output[i] = curAcFunc(layer.Neurons[i].Sum);
                }
            }
        }
        //根據傳入下標index選取層中神經元，并進行求導
        public static float Diff(Type funcType, Layer layer, int index)
        {
            return funcType switch
            {
                Type.Softmax => Softmax_Diff(layer, index),
                Type.Sigmoid => Sigmoid_Diff(layer, index),
                Type.Tanh => Tanh_Diff(layer, index),
                Type.ReLU => ReLU_Diff(layer, index),
                Type.LeakyReLU => LeakyReLU_Diff(layer, index),
                _ => Identify_Diff(),
            };   
        }

         #region 直接輸出
        private static float Identify_Calc(float x)
        {
            return x;
        }
        private static float Identify_Diff()
        {
            return1;
        }
        #endregion

         #region Softmax
        private static void Softmax_Calc(Layer layer)
        {
            var neurons = layer.Neurons;
            var expSum = 0.0f;
            for(int i = 0; i < neurons.Length; ++i)
            {
                layer.Output[i] = MathF.Exp(neurons[i].Sum);
                expSum += layer.Output[i];
            }
            for(int i = 0; i < neurons.Length; ++i)
            {
                layer.Output[i] /= expSum;
            }
        }
        private static float Softmax_Diff(Layer outLayer, int index)
        {
            return outLayer.Output[index] * (1 - outLayer.Output[index]);
        }
        #endregion

         #region Sigmoid
        private static float Sigmoid_Calc(float x)
        {
            return1.0f / (1.0f + MathF.Exp(-x));
        }
        private static float Sigmoid_Diff(Layer outLayer, int index)
        {
            return outLayer.Output[index] * (1 - outLayer.Output[index]);
        }
        #endregion

         #region Tanh
        private static float Tanh_Calc(float x)
        {
            var expVal = MathF.Exp(-x);
            return (1.0f - expVal) / (1.0f + expVal);
        }
        private static float Tanh_Diff(Layer outLayer, int index)
        {
            return1.0f - MathF.Pow(outLayer.Output[index], 2.0f);
        }
        #endregion

         #region ReLU
        public static float ReLU_Calc(float x)
        {
            return x > 0 ? x : 0;
        }
        public static float ReLU_Diff(Layer outLayer, int index)
        {
            return outLayer.Neurons[index].Sum > 0 ? 1 : 0;
        }
        #endregion

         #region LeakyReLU
        private static float LeakyReLU_Calc(float x)
        {
            return x > 0 ? x : 0.01f * x;
        }
        private static float LeakyReLU_Diff(Layer outLayer, int index)
        {
            return outLayer.Neurons[index].Sum > 0 ? 1 : 0.01f;
        }
        #endregion
    }
}

c. 更新權重函數

權重的更新涉及一些「超參數」，比如學習率、最大迭代次數等。這些參數是程序不會進行更新的，只能人工提前設置好。在神經網絡的學習中，學習率的值很重要，過小會導致訓練費時；過大則會導致學習發散而不能正確進行。但好在后面人們想出來更好的權重更新函數，它們對「超參數」的依賴會減小很多。我們所實現的有：

SGD：隨機梯度下降，最簡單的一種更新方法，但有時并不是這么高效，容易陷入局部最優解。
Movement：基于物理上的動量概念，它會在更新權重的過程中考慮先前的更新步驟，需要為每個權重設置額外參數（用m表示）來記錄「動量」。
AdaGrad：運用了學習率衰減的技巧，為每個權重適當地調整學習率，相當于給每個權重都設置了獨立的學習率，也需要額外參數（用v表示）記錄。
Adam：將Movment與AdaGrad結合了起來，通過組合二者的優點，有望實現參數空間的高效搜索。

當然，上述4個方法各有優劣，可以優先考慮SGD和Adam。

順帶一提，權重的更新都是建立在「梯度」之上的，「梯度」可以理解為對神經網絡整體權重的變化趨勢。你想，有這么多權重要更新，有時訓練一個樣本A后，會要求權重w0+ = 0.01、w1- = 0.05以減小誤差，但訓練下一個樣本B時，又要求w0- = 0.02、w1+ = 0.04，一個訓練集有這么多樣本，要以哪個樣本訓練時產生的權重變化為準呢？

答案是累加每個樣本帶來的誤差并取平均值。如果覺得還不清楚，可以看看這個視頻：

https://www.bilibili.com/video/BV16x411V7Qg/?spm_id_from=333.999.0.0&vd_source=c9a1131d04faacd4a397411965ea21f4

還有一點，偏置b也是隨著權重更新的，它可以視為一個輸入始終為1，權重為b的權重。在后續的實現中，我將偏置放在儲存權重的列表的最后一位。（但后來才知道不提倡這種寫法。）

                                                           using System;

 namespaceJufGame.AI.ANN
{
    publicstaticclassUpdateWFunc
    {
        privateconstfloat MinDelta = 1e-7f;
        privateconstfloat beta1 = 0.9f;
        privateconstfloat beta2 = 0.999f;
        private delegate void UpdateLayer(Neuron curNeuron, float learningRate, int curEpochs, int samplesCount);
        publicenum Type
        {
            SGD, Momentum, AdaGrad, Adam
        }
        public static void UpdateNetWeights(Type type, NeuralNet net, int samplesCount)
        {
            UpdateLayer updateLayerFunc = type switch
            {
                Type.Momentum => Momentum_UpdateW,
                Type.AdaGrad => AdaGrad_UpdateW,
                Type.Adam => Adam_UpdateW,
                _ => SGD_UpdateW,
            };
            var curLayer = net.OutLayer;
            for(int j = 0; j < curLayer.Neurons.Length; ++j)
            {
                updateLayerFunc(curLayer.Neurons[j], net.LearningRate, net.CurEpochs ,samplesCount);
            }
            for(int i = 0; i < net.HdnLayers.Length; ++i)
            {
                curLayer = net.HdnLayers[i];
                for(int j = 0; j < curLayer.Neurons.Length; ++j)
                {
                    updateLayerFunc(curLayer.Neurons[j], net.LearningRate, net.CurEpochs, samplesCount);
                }    
            }
        }

         #region 各參數損失貢獻計算
        //計算各參數對損失的貢獻程度（也是各參數的變化的值）
        public static void CalcDelta(NeuralNet net, float[] input)
        {
            var lastInput = input;
            for(int i = 0; i < net.HdnLayers.Length; ++i)
            {
                var curLayer = net.HdnLayers[i];
                CalcLayerDelta(curLayer, lastInput);
                lastInput = curLayer.Output;
            }
            CalcLayerDelta(net.OutLayer, lastInput);
        }
        private static void CalcLayerDelta(Layer curLayer, float[] lastInput)
        {
            for(int j = 0, k; j < curLayer.Neurons.Length; ++j)
            {
                var curNeuron = curLayer.Neurons[j];
                for(k = 0; k < lastInput.Length; ++k)
                {
                    //通過反向傳播時神經元的損失，計算每個權重的貢獻貢獻并累加
                    curNeuron.WeightParams["Delta"][k] += curNeuron.Params["Error"] * lastInput[k];
                }
                //同理計算偏置的損失貢獻
                curNeuron.WeightParams["Delta"][k] += curNeuron.Params["Error"];
            }
        }
        #endregion

         #region SGD
        private static void SGD_UpdateW(Neuron curNeuron, float learningRate, int curEpochs, int samplesCount)
        {
            for(int k = 0; k < curNeuron.Weights.Length; ++k)
            {
                var gradient = curNeuron.WeightParams["Delta"][k] / samplesCount;
                curNeuron.Weights[k] -= learningRate * gradient;
                curNeuron.WeightParams["Delta"][k] = 0;
            }    
        }
        #endregion

         #region Momentum
        private static void Momentum_UpdateW(Neuron curNeuron, float learningRate, int curEpochs, int samplesCount)
        {
            for(int k = 0; k < curNeuron.Weights.Length; ++k)
            {
                var gradient = curNeuron.WeightParams["Delta"][k] / samplesCount;
                curNeuron.WeightParams["m"][k] = beta1 * curNeuron.WeightParams["m"][k] - learningRate * gradient;
                curNeuron.Weights[k] += curNeuron.WeightParams["m"][k];
                curNeuron.WeightParams["Delta"][k] = 0;
            }
        }
        #endregion

         #region AdaGrad
        private static void AdaGrad_UpdateW(Neuron curNeuron, float learningRate, int curEpochs, int samplesCount)
        {
            for(int k = 0; k < curNeuron.Weights.Length; ++k)
            {
                var gradient = curNeuron.WeightParams["Delta"][k] / samplesCount;
                curNeuron.WeightParams["v"][k] += gradient * gradient;
                curNeuron.Weights[k] -= learningRate * gradient / MathF.Sqrt(curNeuron.WeightParams["v"][k] + MinDelta);
                curNeuron.WeightParams["Delta"][k] = 0;
            }
        }
        #endregion

         #region  Adam
        private static void Adam_UpdateW(Neuron curNeuron, float learningRate, int curEpochs, int samplesCount)
        {
            for(int k = 0; k < curNeuron.Weights.Length; ++k)
            {
                var gradient = curNeuron.WeightParams["Delta"][k] / samplesCount;
                curNeuron.WeightParams["m"][k] = beta1 * curNeuron.WeightParams["m"][k] + (1 - beta1) * gradient;
                curNeuron.WeightParams["v"][k] = beta2 * curNeuron.WeightParams["v"][k] + (1 - beta2) * gradient * gradient;
                var mHat = curNeuron.WeightParams["m"][k] / (1 - MathF.Pow(beta1, curEpochs));
                var vHat = curNeuron.WeightParams["v"][k] / (1 - MathF.Pow(beta2, curEpochs));
                curNeuron.Weights[k] -= learningRate * mHat / (MathF.Sqrt(vHat) + MinDelta);
                curNeuron.WeightParams["Delta"][k] = 0;
            }
        }
        #endregion
    }
}

d. 損失函數

損失函數用來衡量輸出與正確值之間的差距，這里實現的是最常用的兩個損失函數：

均方差函數：簡單實用，形式如下：

交叉熵函數：主要用在多分類問題上，配合Softmax使用：

                                                           using System;

 namespaceJufGame.AI.ANN
{
    publicstaticclassLossFunc
    {
        privateconstfloat MinDelta = 1e-7f;
        publicenum Type
        {
            MeanSqurad, CrossEntropy,
        }
        public static float Calc(Type type, float[] targetOut, Layer outLayer)
        {
            return type switch
            {
                Type.MeanSqurad => MeanSquradErr_Calc(targetOut, outLayer),
                _ => CrossEntropy_Calc(targetOut, outLayer),
            };
        }
        public static void Diff(Type type, float[] targetOut, Layer outLayer)
        {
            switch(type)
            {
                case Type.MeanSqurad:
                    MeanSquradErr_Diff(targetOut, outLayer);
                    break;
                case Type.CrossEntropy:
                    CrossEntropy_Diff(targetOut, outLayer);
                    break;
            };
        }

         private static float MeanSquradErr_Calc(float[] targetOut, Layer outLayer)
        {
            var errSum = 0.0f;
            for(int i = 0; i < targetOut.Length; ++i)
            {
                errSum += MathF.Pow(outLayer.Output[i] - targetOut[i], 2);
            }
            return errSum / (2 * targetOut.Length);
        }
        private static void MeanSquradErr_Diff(float[] targetOut, Layer outLayer)
        {
            for(int i = 0; i < targetOut.Length; ++i)
            {
                var curNeuron = outLayer.Neurons[i];
                curNeuron.Params["Error"] = outLayer.Output[i] - targetOut[i];
            }
        }

         private static float CrossEntropy_Calc(float[] targetOut, Layer outLayer)
        {
            var errSum = 0.0f;
            for(int i = 0; i < targetOut.Length; ++i)
            {
                //加上一個極小值再取log，放置出現log(0)報錯
                errSum -= targetOut[i] * MathF.Log(outLayer.Output[i] + MinDelta);
            }
            return errSum;
        }
        private static void CrossEntropy_Diff(float[] targetOut, Layer outLayer)
        {
            for(int i = 0; i < targetOut.Length; ++i)
            {
                var curNeuron = outLayer.Neurons[i];
                //用Output[i]的前提：神經網絡的輸出經過了softmax處理
                curNeuron.Params["Error"] = outLayer.Output[i] - targetOut[i];
            }
        }
    }
}

2. 感知機（神經元）

簡單地對神經元結構進行實現，只是神經元在訓練時，需要為自身或者自身的權重記錄一些額外信息，所以多了WeightParams和Params備以記錄。

為什么不記錄激活函數的計算結果out?

因為在訓練過程中常常要以層為單位統一處理激活函數的計算結果，故而將out都記錄在層中了。（實際上Python中許多深度學習框架庫都是以層為最小單位構建神經網絡的，這有利于進行矩陣運算，但在我們的實現中，一來沒用到矩陣運算，二來是希望能讓大家更直接地看到神經網絡訓練、計算的細節，所以我們以單個神經元作為最小的單位。）

為什么沒有激活函數f(x)？

因為我們之前說過，神經網絡的隱藏層都是使用同一種激活函數，頂多輸出層用的不太一樣。也就是說我們只需要記錄兩個函數的類型，所以讓后續實現的神經網絡類記下就行了，沒必要每個神經元都記錄，浪費空間。

                                                           using System;
using System.Collections.Generic;
using UnityEngine;


 namespaceJufGame.AI.ANN
{
    [Serializable] // 方便在編輯器頁面查看
    publicclassNeuron
    {
        //神經元權重列表，末位放置偏置b
        publicfloat[] Weights => weights;
        //加權和
        publicfloat Sum => sum;
        //為各個權重分配的額外參數
        public Dictionary WeightParams{ get; privateset; }
        //為神經元本身分配的額外參數
        public Dictionary Params{ get; privateset; }
        [SerializeField]privatefloat[] weights;
        privatefloat sum;
        public Neuron(int weightCount)
        {
            weights = newfloat[weightCount + 1];//末尾放偏置
        }
        /// 
        /// 初始化訓練所需參數列表，僅在訓練時調用
        /// 
        public void InitCache()
        {
            Params = new Dictionary
            {
                ["Error"] = 0,//該值用來記錄，每次更新時的累計損失
            };
            WeightParams = new Dictionary
            {
                //記錄權重待變化值
                ["Delta"] = newfloat[weights.Length],
                //Momentum和Adam中，用于記錄權重變化的「動量」
                ["m"] = newfloat[weights.Length],
                //AdaGrad和Adam中，用于記錄權重獨立學習率
                ["v"] = newfloat[weights.Length],           
            };
        }
        //計算Sum
        public float CalcSum(float[] input)
        {
            int i;
            sum = 0;
            for(i = 0; i < input.Length; ++i)
            {
                sum += weights[i] * input[i];//加權和
            }
            sum += weights[i];//加上權重
            return Sum;
        }
    }
}

3. 層

沒有太多必要說的，就是嵌套調用了包含的各神經元的函數，比如層的計算就是各個神經元的計算，其它同理。

                                                           using System;
using UnityEngine;


 namespaceJufGame.AI.ANN
{
    [Serializable]
    publicclassLayer
    {
        public Neuron[] Neurons => neurons;//存儲神經元
        publicfloat[] Output => output;//存儲各神經元激活函數輸出
        [SerializeField] private Neuron[] neurons;
        [SerializeField] privatefloat[] output;
        public Layer(int neuronCount)
        {
            output = newfloat[neuronCount];
            neurons = new Neuron[neuronCount];
        }
        //對層中的每個神經元的權重進行初始化
        public void InitWeights(int weightCount, InitWFunc.Type initType)
        {
            for(int i = 0; i < neurons.Length; ++i)
            {
                neurons[i] = new Neuron(weightCount);
                InitWFunc.InitWeights(initType, neurons[i]);
            }
        }
        //初始化層中每個神經元的額外參數
        public void InitCache()
        {
            for(int i = 0; i < neurons.Length; ++i)
            {
                neurons[i].InitCache();
            }
        }
        //計算該層，實際上就是計算所有神經元的加權和，并求出激活函數的輸出
        public float[] CalcLayer(float[] inputData, ActivationFunc.Type acFuc)
        {
            for(int i = 0; i < neurons.Length; ++i)
            {
                neurons[i].CalcSum(inputData);
            }
            ActivationFunc.Calc(acFuc, this);
            return output;
        }
    }
}

4. 多層感知機（神經網絡）

神經網絡也一樣，是對層的各個功能的再度包裝，只是多了些超參數成員變量。

為什么沒有輸入層？

因為輸入層其實就只是輸入的數值，沒必要單獨設置一個層（Python中許多深度學習框架也是這樣的）。

怎么讀取輸出？

直接讀取輸出層的輸出列表即可。

                                                           using System;
using UnityEngine;

 namespaceJufGame.AI.ANN
{
    [Serializable]
    publicclassNeuralNet
    {
        publicfloat TargetError = 0.0001f;//預期誤差，當損失函數的結果小于它時，就停止訓練
        publicfloat LearningRate = 0.01f;//學習率
        publicint CurEpochs;//記錄當前迭代的次數
        public ActivationFunc.Type hdnAcFunc;//隱藏層激活函數類型
        public ActivationFunc.Type outAcFunc;//輸出層激活函數類型
        public Layer[] HdnLayers => hdnLayers;//隱藏層
        public Layer OutLayer => outLayer;//輸出層
        [SerializeField] private Layer[] hdnLayers;
        [SerializeField] private Layer outLayer;

         public NeuralNet(int hdnLayerCount, int[] neuronsOfLayers, int outCount, 
            ActivationFunc.Type hdnAcFnc, ActivationFunc.Type outAcFnc,
            float targetError = 0.0001f, float learningRate = 0.01f)
        {
            outLayer = new Layer(outCount);
            hdnLayers = new Layer[hdnLayerCount];
            for(int i = 0, j = 0; i < hdnLayerCount; ++i)
            {
                hdnLayers[i] = new Layer(neuronsOfLayers[j]);
            }
            hdnAcFunc = hdnAcFnc;
            outAcFunc = outAcFnc;
            TargetError = targetError;
            LearningRate = learningRate;
        }
        //初始化各神經元權重
        public void InitWeights(int inputDataCount, InitWFunc.Type initType)
        {
            int neuronNum = inputDataCount;
            for(int i = 0; i < HdnLayers.Length; ++i)
            {
                hdnLayers[i].InitWeights(neuronNum, initType);
                neuronNum = HdnLayers[i].Neurons.Length;
            }
            outLayer.InitWeights(neuronNum, initType);
        }
        //初始化各神經元額外參數列表
        public void InitCache()
        {
            for(int i = 0; i < HdnLayers.Length; ++i)
            {
                hdnLayers[i].InitCache();
            }
            outLayer.InitCache();
        }
        //計算神經網絡
        public float[] CalcNet(float[] inputData)
        {
            var curInput = inputData;
            for(int j = 0; j < hdnLayers.Length; ++j)
            {
                curInput = hdnLayers[j].CalcLayer(curInput, hdnAcFunc);
            }
            return outLayer.CalcLayer(curInput, outAcFunc);
        }
    }
}

至此，神經網絡就搭建完成了，并沒有想象的那么復雜。

5. 訓練器

先實現一個訓練器的基類……等等，明明就一種神經網絡，為什么還要有基類，直接寫不好嗎？

其實最初是打算實現多種神經網絡的，但后來考試臨近，不得不轉移重心，最終只實現了最簡單的MLP。Unity本身也已經可以導入ONNX模型，如果要在游戲里想實現圖像識別這類復雜功能的話，導入模型似乎更方便，所以實現更多神經網絡的必要性就值得考慮了。當然，這些文末會再進行討論。

先來看看這個基類有哪些東西：

                                                           using UnityEngine;

 namespaceJufGame.AI.ANN
{
    publicabstractclassTraining
    {
        public NeuralNet TrainingNet;//需要訓練的神經網絡
        publicfloat[][] InputSet => inputSet;//訓練輸入集

         /*沒有「訓練輸出集」是因為并非所有類型的神經網絡都需要「訓練輸出」
        所以它不是基類必需的，當然，這些就是題外話了*/

         protectedfloat[][] inputSet;
        [SerializeField] protectedint maxEpochs;//最大迭代次數

         public Training(NeuralNet initedNet, int maxEpochs)
        {
            this.maxEpochs = maxEpochs;
            TrainingNet = initedNet;
        }

         public void SetInput(float[][] inputSet)//設置訓練輸入集
        {
            this.inputSet = inputSet;
        }
        public abstract bool IsTrainEnd();//是否訓練完成
        public abstract void Train(); //不斷訓練神經網絡
        public abstract void Train_OneTime();//訓練（迭代）一次神經網絡

         //打印神經網絡輸出的結果，調試用的
        public static void DebugNetRes(NeuralNet net, float[][] testInput)
        {
            for(int i = 0; i < testInput.GetLength(0); ++i)
            {
                var res = net.CalcNet(testInput[i]);
                for(int j = 0; j < res.Length; ++j)
                {
                    Debug.Log("檢驗結果 " + i + " = " + res[j]);
                }
            }
        }
    }
}

最后，就是真正用來訓練的類了，我們將采用最常見梯度下降法進行訓練。其中涉及前向傳播和反向傳播，我稍作解釋：

前向傳播（Forward Propagation）：傳入訓練輸入樣本計算出當前神經網絡模型的輸出，并進一步計算損失（損失函數的計算結果其實在反向傳播中并沒有用，只是給開發者看的，用來判斷當前訓練情況）。

反向傳播（Backward Propagation）：從損失函數開始，用鏈式求導法則，反向（輸出層?隱藏層?輸入層）計算每個神經元的損失（下圖中的δ、代碼中的Params["Error"]）。通過神經元的損失，可以計算出神經元的每個參數（權重、偏置）的損失貢獻（權重更新函數代碼中的WeightParams["Delta"]）并一直累加，直到訓練集被讀取完。這時，我們就說完成了一次訓練迭代。

完成一次迭代后（不是訓練完一個樣本后），將累加的損失除以訓練樣本數取得均值，再用權重更新函數對各參數進行更新。

這一迭代過程反復進行，直到損失函數計算的誤差達到可容許范圍（也就是小于預期損失）或達到最大訓練次數，詳情可看《解讀反向傳播算法（圖與公式結合）》[1]（但注意！該文章為了方便講解，訓練完一個樣本就開始更新權重了），實現如下：

                                                           using UnityEngine;


 namespaceJufGame.AI.ANN
{
    [System.Serializable]
    publicclassBPNN : Training
    {
        publicfloat[][] OutputSet => outputSet;
        [SerializeField] privatefloat meanError = float.MaxValue;
        [SerializeField] private LossFunc.Type errorFunc;
        [SerializeField] private UpdateWFunc.Type updateWFunc;
        privatefloat[][] outputSet;
        public BPNN(NeuralNet initedNet, LossFunc.Type errorFunc, UpdateWFunc.Type updateWFunc, int maxEpochs): base(initedNet,maxEpochs)
        {
            this.errorFunc = errorFunc;
            this.updateWFunc = updateWFunc;
        }
        public void SetOutput(float[][] outputSet)
        {
            this.outputSet = outputSet;
        }
        public override bool IsTrainEnd()//判斷是否訓練完成
        {
            return meanError < TrainingNet.TargetError 
                || maxEpochs < TrainingNet.CurEpochs;
        }
        public override void Train()
        {
            meanError = float.MaxValue;
            while(!IsTrainEnd())
            {
                Train_OneTime();
            }
        }
        public override void Train_OneTime()
        {
            int samplesCount = inputSet.GetLength(0);//記下樣本數量
            ++TrainingNet.CurEpochs;//更新迭代次數
            meanError = 0;
            for(int i = 0; i < samplesCount; ++i)
            {
                ForWard(i);
                Backpropagation();
                UpdateWFunc.CalcDelta(TrainingNet, inputSet[i]);
            }
            UpdateWFunc.UpdateNetWeights( updateWFunc, TrainingNet, samplesCount);
            meanError /= samplesCount;//取樣本誤差均值作為本次迭代的誤差
            #if UNITY_EDITOR
            Debug.Log($"誤差：{meanError}");//調試時用的
            #endif
        }
        private void ForWard(int trainIndex)
        {
            var outLayer = TrainingNet.OutLayer;
            TrainingNet.CalcNet(inputSet[trainIndex]);
            meanError = LossFunc.Calc(errorFunc, outputSet[trainIndex], outLayer);
            /*這里圖省事，將反向傳播的第一步一并計算了*/
            LossFunc.Diff(errorFunc, outputSet[trainIndex], outLayer);//損失函數求導
            for(int i = 0; i < outLayer.Neurons.Length; ++i)//輸出層激活函數求導
            {
                outLayer.Neurons[i].Params["Error"] *= ActivationFunc.Diff(TrainingNet.outAcFunc, outLayer, i);
            }
        }
        private void Backpropagation()
        {
            var lastLayer = TrainingNet.OutLayer;
            for(int i = TrainingNet.HdnLayers.Length - 1; i > -1; --i)
            {
                var curLayer = TrainingNet.HdnLayers[i];
                for(int j = 0; j < curLayer.Neurons.Length; ++j)
                {
                    var curNeuron = curLayer.Neurons[j];
                    //每次計算損失時要清零，避免上次迭代結果產生的干擾
                    curNeuron.Params["Error"] = 0;
                    for(int k = 0; k < lastLayer.Neurons.Length; ++k)
                    {
                        var lastNeuron = lastLayer.Neurons[k];
                        curNeuron.Params["Error"] += lastNeuron.Params["Error"] * lastNeuron.Weights[j];
                    }
                    curNeuron.Params["Error"] *= ActivationFunc.Diff(TrainingNet.hdnAcFunc, curLayer, j);
                }
                lastLayer = curLayer;
            }
        }
    }
}

四、使用教程

一切都準備就緒了，那要怎么運轉這個神經網絡呢？我們創建一個繼承了MonoBehavior的腳本，并聲明下面三個公開的字段：

                                                           using UnityEngine;
using JufGame.AI.ANN;


 public class TrainANN : MonoBehaviour
{
    public int inputCount;
    public BPNN bp;
    public InitWFunc.Type initW;
}

將它掛載在場景的任一物體上，不出意外的話，你可以在編輯器看到神經網絡類的許多關鍵變量都可以顯示出來（如果你的沒有，就要注意是否遺漏[System.Serializable]或設置成了私有類）：

我們再完善下腳本，設置好訓練輸入和輸出（以「異或」運算為例），使得神經網絡能在Unity運行時逐幀訓練：

                                                           public classTrainANN : MonoBehaviour
{
    publicint inputCount;
    public BPNN bp;
    public InitWFunc.Type initW;

     privatefloat[][] inSet = //異或運算的輸入
    {
        newfloat[]{1, 0},
        newfloat[]{1, 1},
        newfloat[]{0, 0},
        newfloat[]{0, 1},
    };
    privatefloat[][] outSet = //異或運算的輸出
    {
        newfloat[]{1},
        newfloat[]{0},
        newfloat[]{0},
        newfloat[]{1},
    };

     private void Awake()
    {
        ...

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.