飽和樣條和特征選擇藝術設計專業(yè)
1. 簡介 樣條具有連續(xù)性約束的分段多項式廣泛用于擬合數據1,5.1。分段多項式的一個問題是它們的行為超出了它們的邊界結點,并且(典型地)在該范圍之外沒有限制地增長1,5.2。這種不穩(wěn)定性使得推斷是危險的; 從業(yè)人員必須注意避免查詢訓練數據范圍附近或之外的樣條模型。平滑樣條算法2 - 4通過擬合自然樣條來改善這個問題,該自然樣條在邊界結點之后降低到較低階的多項式。最常用的各種光滑樣條是三次光滑樣條(在邊界結外部減少到線性的三度樣條)以及線性平滑樣條,這些樣條一直保持不變。我們提出的飽和樣條與線性平滑樣條密切相關。平滑樣條使用或二次方復雜度概念,因此可以用預先確定的密集結點集合擬合模型1,5.4。另一方面,自適應回歸樣條5使用型懲罰,這可以導致自適應選擇結點的稀疏集合。然而,自適應回歸樣條不會在最大結點范圍之外降低到較低程度,因此可能會出現不穩(wěn)定性。我們提出擬合自適應回歸樣條曲線,其中對某個區(qū)間之外的樣條曲線的程度有明確的約束。我們稱這些樣條為飽和樣條。雖然我們采用的方法可以擴展到擬合具有任意導數約束的樣條曲線,但在本文中,我們將重點放在擬合數據范圍之外平坦(恒定)的線性樣條; 我們在8中提到對更高階樣條的擴展。我們證明飽和樣條繼承了自適應回歸樣條的結點選擇屬性,同時其行為與數據邊界附近的自然樣條相似。在飽和樣條坐標函數擬合廣義相加模型6的背景下,我們還展示了我們方法的一個非常重要的好處:飽和約束自然導致變量選擇。我們不僅通過結點選擇來控制每個坐標函數的復雜性,而且在飽和條件下,變量上沒有結點表示變量不在模型中。對于自適應樣條,這是不正確的,因為線性項是未被去除的,因此每個變量總是在模型中。缺乏特征選擇會傷害可解釋性,并且在某些情況下會導致泛化。我們提出的飽和約束排除了線性函數,并且與自適應樣條型懲罰配合,鼓勵坐標函數相同為零。因此,廣義相加模型適合于飽和樣條組件函數通常僅依賴于少數輸入特征。 像平滑樣條曲線和自適應回歸樣條一樣,飽和樣條曲線是解決某些自然函數回歸問題的方法。我們將飽和樣條擬合問題作為一個凸空問題上的凸優(yōu)化問題來解決,粗略地說就是擬合函數的二階導數。據我們所知,這種方法是新穎的。然后,我們將經典的條件梯度方法7和8應用于這個問題。在我們算法的每次迭代中,都會產生一個原子量度;此外,我們可以統一限制樣條函數中結點個數對應的原子個數。(當我們操縱原子測量時,我們在有限總變差的所有測量空間上解決問題。)與標準坐標下降方法相反,在條件梯度方法的每次迭代中,調整兩個結點的權重。在完全校正步驟中,我們用和簡單的線性約束來求解有限維凸優(yōu)化問題。數值實驗表明該方法在實際中非常有效。我們的優(yōu)化方法可以利用熱啟動,即它可以對擬合函數使用初始猜測。這使我們能夠有效地計算整個正則化路徑,其代價通常只是解決正則化參數的一個值的問題的一小部分。由于我們的算法是基于條件梯度法,我們可以使用9的框架來計算一個可證明的次優(yōu)近似正則化路徑。當擬合廣義相加模型時,正則化路徑具有吸引人的特征:在正則化參數的臨界值處,新的回歸因子被帶入(或偶爾出于)模型,或新的結點被添加到(或從中刪除) 的現有坐標函數,因此我們的方法結合了特征選擇和結點選擇。2. 單變量函數擬合我們希望從數據集擬合一個連續(xù)的有界函數 要做到這一點,我們將選擇來最小化數據的不匹配或損失函數,但要受到鼓勵中規(guī)則性的約束條件以及我們在下面描述的額外約束條件和飽和度的限制。損失由以下公式給出:其中是非負的,二次可微的,并且在它的第一個參數中是嚴格凸的。典型的損失函數包括(標準回歸,),或者(邏輯回歸,其中)。損失是函數的凸函數,僅取決于數據點處的的值。損失越小,越符合給定的數據。我們通過限制非負正則化泛函的值來約束函數是簡單的。在本文中,我們將作為的微分的總變化量,一個的凸函數。對于一個二次可微函數,我們已知, (1)即正則化是二階導數的范數。(正如我們在下一節(jié)中所討論的那樣,總變差的現代定義把這種平等擴展到不可微函數。)我們對施加的總變差限是,其中是我們用來折衷模型的參數擬合度和模型規(guī)律。這種正則化約束隱含地約束幾乎無處不在,其導數具有有限的總變差。我們的模型將受到另一個約束,即它飽和(在區(qū)間0,1之外),這意味著它是0,1之外兩個區(qū)間上的(可能不同的)常量:對,;對,。換句話說,在0,1的標稱數據范圍外延伸為一個常數。就導數而言,這相當于要求存在且在0,1之外為零。那么該擬合問題可以描述為; 滿足 (2),對,其中為正則化參數。要確定的變量是函數,它是連續(xù)函數的矢量空間中的有限總變差的導數。這個擬合問題是一個無限維凸優(yōu)化問題。在應用中,問題(2)解決了一系列值,這產生了正則化路徑。最終模型是使用一個保留集或交叉驗證來選擇的。對于,必須是常數,并且問題(2)減少到適合數據的最佳常數。隨著增加,的約束更小,并且我們的擬合模型變得更復雜; 最終我們期望過度擬合。例如,在回歸的情況下,對于滿足的損失函數和具有不同的數據,對于足夠大的來說,擬合函數是插值數據的分段線性函數。3. 樣條函數和有界變差函數在本節(jié)中,我們探討擬合問題與一次樣條的連接,即分段線性連續(xù)函數,其形式如下 , (3)其中。我們假設是不同的,并將它們稱為結點或簡單結。標量是權重,是偏移量。我們將映射稱為鉸鏈函數,因此一階樣條是鉸鏈函數的有限線性組合加上一個常數。3.1 有界變差函數一個右連續(xù)函數是有界變差的,當且僅當在0,1上存在一個有符號的度量,滿足 , (4)其中,對,否則等于0。度量是唯一的;我們可以認為它是的導數。 也就是說,(4)基本上是微積分的第二個基本定理,其中被代替。我們也有。(這稱為度量的總變差。)我們將使用符號來作為它的記號,以強調與有限維情況的相似性,或者當是可微的情況:.當度量是原子的時候,函數是分段常數,在的支持下的點處發(fā)生跳躍。3.2 樣條函數和有界變差導數現在假設具有有界變差的右連續(xù)導數。從(4),運用以及微積分的基本定理,我們有 (5) (6). (7)這表明任何這樣的函數是鉸鏈函數的一個(可能是無限的)線性組合加上一個常數(即)。在這種情況下,度量可以被認為是的二階導數。當是原子并且在有限集上被支持時,也就是說,是形式(3)的一階樣條,其中。因此,一階樣條完全對應于度量(大致二階導數)具有有限支持的情況。我們引入記號 (8) 來表示從度量導出的函數。粗略地說,這是度量的雙重積分或與度量有關的鉸鏈函數的(可能有無限個的)線性組合。從到的映射是線性的,那么我們有。圖1顯示了一個的簡單例子,它的一階導數和它的(原子度量)二階導數。 圖1:由原子度量產生的和。正則化函數就是中尖峰的絕對值之和。需要特別注意的是,中所有尖峰的(帶符號)和為零:也就是說,這意味著飽和。3.3 通過優(yōu)化度量擬合樣條確定,我們可以通過最小化0,1上的有界測度和常數來解決擬合問題(2)。度量是的二階導數,常數對應于??傋儾钫齽t化約束對應于。當時,飽和度條件成立;為了確保當時,我們需要換句話說,的飽和度對應于具有總(凈)質量零的。因此(2)可以改寫為 滿足, (9)有界測度在0,1上,同時。這里會稍微多用一些記號:我們現在(以及本文的其余部分)認為是上的函數。 在上面,是將映射到由(8)給出的向量的線性算子。顯然是線性的,因為它是函數:對的積分。我們將直接應用條件梯度法來解決這個問題。為了獲得關于優(yōu)化問題的直覺(9),我們可以認為它是標準lasso的無限維模擬10。 lasso是優(yōu)化問題 滿足 (10)的解決方案。這里是中的一個向量,是一個矩陣。忽略常數項,我們看到,(9)看起來非常類似于(10),其中起著的作用;的確,本質上是一個有行和無限多列的矩陣。我們對lasso的直覺表明,應該有屬于(9)的解是稀疏的,這意味著是原子的。就而言,稀疏性意味著存在一維樣條的原始函數擬合問題(2)的解。事實確實如此。定理1表明存在(9)的原子解,其支持不超過個點;換句話說,是一個具有的一階樣條。此外,在實際中(9)的解將會支持遠遠少于個點。定理1. 固定和,為(右連續(xù))的有界總變差,并且在0,1之外為常數。那么就存在一個一階飽和樣條(最多有個結點),它在上與相匹配,并滿足。證明: 不失一般性,我們假設。令。由于約束了總變差,所以在0,1上存在一個度量,使得:也就是說,是一個無限多結的樣條。我們的想法是使用Caratheodory的凸包理論來看到,因為我們只關心在有限數量函數上的作用(基本上,我們只關心在上的值),所以我們可以用一種可在有限的點上支持的度量來替代。為了使這個想法嚴謹,請注意矢量必須位于(凸)組的凸包中,因為。凸包的Caratheodory定理確保了可以表示為從選取的最多個點的凸組合。讓這些個點由它們的標記表示,以及它們的權重,我們定義得到: 這里。因為,我們有。 #對于本文的其余部分,我們將忽略常數項。使用我們提供的算法來處理常量項并不難,但這樣做確實會增加一些符號復雜性。也可以最小化,因為它不影響正則化項;由此產生的問題在中仍然是凸的。4. 擬合樣條的條件梯度法在本節(jié)中,我們概述了求解(9)(因此也是(2)的算法。為此,我們簡要回顧一下經典的條件梯度法7和8中提出的測量理論版本。我們需要解決的優(yōu)化問題(9)(沒有常數項c)是: 滿足, (11).正如上一節(jié)所述,(11)是一個衡量空間的凸優(yōu)化問題。我們密切關注8中采用的方法,并直接對這個問題應用條件梯度法。這種方法的主要好處是我們可以將注意力限制在原子度量上,即的形式為.通過簡單地存儲成對的的列表,這種形式的度量在計算機中很容易表示。定理1確保我們需要存儲的結的數量是絕對有界的,即我們的算法運行在有界存儲器中。當我們操縱原子測量時,我們解決了所有有界測量的問題(11)。關于有限支持的原子測量值需要注意的一點是我們可以很容易地對結點位置固定的權重進行優(yōu)化,因為這對應于適用于任何標準算法的有限維凸優(yōu)化問題。我們的算法利用了這個事實,并且在每次迭代之間交替添加結對并對權重進行優(yōu)化。在后一步驟中,結可以(并且事實上最終必須)被去除。在附加和可選步驟中,結點可以在0,1內連續(xù)移動,或者連續(xù)移動到相鄰的數據點。理論上的收斂不需要這一步,但可以在實踐中改善收斂性和最終解決方案的稀疏性。4.1 條件梯度法條件梯度法(CGM)解決了形式為 滿足, (12)的約束凸優(yōu)化問題,變量。在上面,我們總是假定(凸)函數是可微分的。在CGM的每次迭代中,我們在當前迭代處形成函數的標準線性逼近:這里是函數在點方向d上的方向導數,定義為:我們在這里使用方向導數可能會令人驚訝:對于上的可微函數,總是等于。方向導數對度量的凸函數的直接適用性促使我們傾向于使用它。的凸性意味著是的下界,即: . (13)在CGM的下一步中,我們在可行集上最小化這個一階近似:.點稱為的條件梯度。請注意,在上提供了一個下界:.特別地,我們可以限制點的次優(yōu)性: . (14)圖2:函數在點處的條件梯度法的單次迭代示意圖。集合是由實線表示的區(qū)間-0.25,1.25,一階近似值繪制為在處與相切的虛線。條件梯度是點-0.25??梢钥吹剑ㄈ?),這個界限減少到零,這意味著它可以用作(非啟發(fā)式)終止標準。確定之后,有幾個更新的選項。在本文中,我們將使用CGM的完全校正變體,它選擇在的凸包上來最小化。請注意,隨著增長,這最后一步可能會變得計算密集,并且實際上限制了條件梯度方法對這一步在計算上可行的問題的適用性。一種選擇是一旦在最小化步驟中未選擇先前的條件梯度,就刪除先前的條件梯度。Caratheodory定理確保我們需要跟蹤的先前的條件梯度集合然后以為界。然而,在實踐中,算法通常在迭代之前終止。算法1.完全校正條件梯度法對,.1、 線性化:.2、 最小化:.3、 更新:.4.2 度量的條件梯度在本小節(jié)中,我們將條件梯度法應用于無窮維問題(11),我們在此重復: 滿足, (15).首先我們將表明,條件梯度即度量,可以被選擇為恰好支持兩個點,并且可以在時間上線性地計算。目標函數在點處的度量s方向上的方向導數由下式給出:然后,我們可以將中的內積與中的積分互換: . (16)令。請注意在的情況下,僅僅是殘差,是殘差與位于的單個鉸鏈函數之間的相關性。條件梯度是以下優(yōu)化問題的解決方案: 滿足, (17).如果沒有積分約束條件,我們可以期望有一個解(17),即單點質量:目標函數是標量值函數與有界度量的積分。我們將證明(17)總是有一個解決方案正好支持兩點。此外,我們將顯示這兩點可以按時間線性計算。首先,我們將為(17)構造一個特定的可行點,然后我們將顯示它達到最優(yōu)值。令.定義.達到的目標值是.我們將證明,對于(17)而言,任何可行的度量的目標值都低于或對于(11)是最優(yōu)的。將分解為兩個相互獨立的非負測度的差值:。那么,當是可行的時,我們有達到的目標值可以如下所示:假設。那么上面的論證意味著是(11)的條件梯度,因此(14)意味著是最優(yōu)的。否則,我們有這意味著這證明了我們的斷言。請注意,發(fā)現和在0,1上包含兩個單獨的優(yōu)化問題,而不是0,10,1上的一個。這些問題很容易通過網格來解決,但是在這種情況下,如果我們有權訪問數據點的排序矢量,它們可以在時間上精確地按時間線性地求解。為了看到這一點,我們對上面的擴展了的目標函數:如果對進行排序,我們可以精確地計算每對連續(xù)數據點之間的最小值,因為這只是計算一段時間內線性函數的最小值。因此,在數據的一次傳遞中,我們可以精確地計算整體最小值。在計算和之后,我們可以使用(14)來限制的次優(yōu)性:通過選擇條件梯度,完全校正步驟是一個有限維凸問題。修復到目前為止遇到的結點位置,通過求解下面的優(yōu)化問題我們至少可以做到完全修正算法。 (18)這相當于中的以下優(yōu)化問題: (19) 我們可以使用任何現有的算法來解決這個問題11,12。在我們的實現中,為了簡單起見,我們使用條件梯度法和線搜索。通過以不斷增加的序列進行熱啟動,我們可以高效地計算近似的規(guī)則化路徑。事實上,我們甚至可以使用9的方法提供可證明的次優(yōu)路徑。4.3 收斂正如在ADCG 8收斂的情況下,立即從一般的Banach空間7,13,14中的條件梯度法證明。條件梯度法的收斂取決于曲率參數。是一個常數,所有和滿足以下不等式:為了我們的目的,僅僅是和。有限的一個簡單的充分條件是在Lipschitz梯度下可積。如果是有限的,則條件梯度方法以至少的速率收斂(根據函數值),其中是迭代計數器。5. 廣義相加模型單變量樣條的一個自然應用是將廣義相加模型6擬合為多元數據:。也就是說,擬合以下形式的函數:其中每個是從到的簡單函數(這里是向量的第個坐標)。 我們可以在標量情況下模擬我們的方法,其優(yōu)化問題如下: (20)這里是標量情況下使用相同正則化參數,即在標量情況下,可以表明總是有一個最優(yōu)的,每個坐標函數都是一階飽和樣條。這使得我們可以將(20)改寫為一個優(yōu)于度量的優(yōu)化問題。與標量情況相比,唯一的變化是該度量超過了集合每個結現在都附加到特定的坐標上。換句話說,我們搜索以下形式的函數:我們再次在的范數和正則化項之間具有平等性:那么與(11)類似的是: (21) 標量情況下的條件梯度算法立即推廣到擬合廣義相加模型唯一的區(qū)別是我們現在需要為同一個坐標找到一對結點。這涉及在0,1上解決對非凸優(yōu)化問題同樣可以通過網格化或對訓練數據進行排序來完成。擬合廣義相加模型時,飽和樣條曲線比標準自適應樣條曲線更具優(yōu)勢。在擬合廣義相加模型時,飽和約束的增加(在0,1之外是常數)自然會導致變量選擇。我們所說的變量選擇是指函數通常恰好為0。這是因為飽和約束意味著線性坐標函數不再逃避正則化(事實上,它們是不可能的)。這與沒有飽和約束的標準自適應樣條設置非常不同。在這種情況下,線性函數,即完全避開了正則化,因此基本上總是包含在模型中。線性函數在飽和約束下不是自由的(實際上,在函數0之外,它們是不可行的)。當我們求解(21)時,我們同時擬合非線性坐標函數,同時做可變選擇。6. 相關現有成果平滑樣條也可以解釋為無限維優(yōu)化問題1,5.4。實際上,(一階)平滑樣條解決了問題 (22)其中(22)的解也是在0,1之外飽和的一階自然樣條。然而,(22)和(2)的解決方案是非常不同的。粗略地說,(22)類似于嶺回歸,而(2)類似于lasso。也就是說,(22)擬合具有與數據點一樣多的節(jié)點的函數,而(2)通常適合幾何節(jié)點很少的樣條函數。另一種自適應但不飽和的樣條是自適應回歸樣條5。這些樣條函數也可以作為函數回歸問題 (23)的解決方案,其中請注意,(2)沒有飽和約束。求解(23)(對于一階樣條)的算法基于定理1的擴展,這表明在數據點上實際上支持(23)的解決方案。因此可以使用lasso算法來找到解決方案。這也表明解決我們的問題的一個非常簡單的方法(9):我們將個結點固定為數據的值,并且求解有限維凸優(yōu)化問題以找到權重。雖然像GLMNet 15這樣簡單的坐標下降方法由于飽和約束不會立即適用,但可以修改它們以處理約束。這種方法可行,但可能比我們的要慢得多,因為在實踐中,對于正則化參數的有用值,結點的數目通常遠小于,而對于個基函數的有限維問題的條件非常不好。這就是說,我們提出的算法對于分段線性情況可以被解釋為有限維問題的前向有效集方法,其中我們避免明確評估所有基函數。我們測量理論方法的一個優(yōu)點是,它立即推廣到高階樣條,其中的支持不需要在數據點上,我們將在9中看到。在這種情況下(9)是真正無限維的,但我們的算法仍然可以直接應用。趨勢濾波是一種非參數函數估計技術,首先在16中介紹,這與自適應樣條非常相似。事實上,如17所述,常數或分段線性情況下的趨勢濾波估計與自適應樣條估計完全相同。趨勢過濾越來越普遍,因為它承認了非常有效強大的算法17,18。事實上,這些算法中的一些(尤其是適合GAMs的算法19)可能適用于有效擬合飽和趨勢濾波器估計,這將受益于飽和樣條的特征選擇屬性和趨勢濾波的計算效率。有許多用樣條函數擬合廣義相加模型的方法。一種方法(參見20)是使用(6)的組lasso版本:擴展這個想法,21使用重疊組lasso來促進零、線性和非線性項之間的選擇。這些方法和我們的方法之間的差異類似于標準組lasso和lasso之間的差異。雖然兩者都進行特征選擇,但懲罰函數(6)不會在每個坐標函數內進行結點選擇。在22中討論了一種非常類似的擬合樣條的方法,它不需要結點選擇(但不包含飽和度)。7. 實例實施細節(jié):我們在Rust語言中提供了一個簡單的,未優(yōu)化的實現。 我們算法的運行時間由完全校正步驟決定,即求解有限維凸優(yōu)化問題(19)。 我們使用近似牛頓法和標準條件梯度法來求解(19),并使用精確的分解。準確地說,在每次迭代中,我們形成目標函數的二階近似,然后我們使用有(精確的)行搜索的標準條件梯度方法來最小化(超過約束集)。 請注意,這是一個固定步長為1的牛頓步驟:如GLMNET 15中所述,為了提高速度,我們省略了行搜索。我們選擇使用近端牛頓法,因為它相對簡單;其他標準凸面優(yōu)化算法可能會給出更好的實際性能,特別是當數據點數量非常大時。在所有的例子中,我們仿射地預處理數據,使得所有訓練特征位于0,1中,并且將相同的變換應用于測試特征(因此可能具有0,1之外的值)。所有的劃分都是按照標準化的特點。對于骨密度和鮑魚數據集,我們選擇來最小化驗證集上的錯誤。對于垃圾郵件和ALS數據集,我們使用交叉驗證來估計。我們從訓練集中提取一個大小為100的隨機子集并訓練其余數據。對于每個隨機驗證/訓練分離,我們估計以最小化保持誤差,并將我們的最終估計作為50次試驗的平均值。 圖三:對于正則化參數的3個值,飽和樣條符合骨密度數據(顯示為散點)。頂部:;中間:;底部:。7.1 骨密度我們從一個簡單的1,5.4中的單變量數據集開始。該數據集的響應變量是女性青少年的兩次醫(yī)生訪視之間脊柱骨密度的變化與年齡的函數關系。有259個數據點,其中我們保留了120個用于驗證的數據點,剩下139個數據點,以適應飽和脊柱。我們從平方損失開始。結果如圖3所示,對于正則化參數的三個值。散點是訓練數據,實線是我們算法的飽和樣條擬合。該圖表明了與優(yōu)化樣條曲線的復雜性之間的明確聯系。樣本外驗證建議設置,從而驗證RMSE為0.036。為了證明我們提出的方法與更一般的損失函數一起工作,我們將30個模擬的異常值添加到訓練集并且擬合了偽Huber損耗23,這是對Huber損失函數的平滑近似:其中是在絕對值損失和平方損失之間插值的參數。對于我們的實驗,我們取;粗略地說,平方和線性損耗之間的轉換發(fā)生在附近。結果如圖4所示。這些圖表明我們的算法可以擬合除平方損失之外的損失,并且證實了偽Huber損失比基本平方損失函數對異常值更加強大。事實上,在驗證集上,最小二乘法擬合的最小RMSE為0.096,而偽Huber擬合達到0.038,僅比在將訓練數據加入異常值之前獲得的擬合稍差。 雖然這個一維問題非常容易,但它顯示了自適應樣條罰款在平滑樣條上的一個優(yōu)點:最優(yōu)模型只有5個結點。圖4:對于平方損失函數(左)和偽Huber損失函數(右)的模擬異常值,飽和樣條擬合骨密度數據(以散點表示),每個值用于最小化測試集上RMSE的值。7.2 鮑魚數據集我們用飽和樣條坐標函數的廣義加法模型擬合來自UCI Machine Learning Repository 24的鮑魚數據集。數據包括鮑魚8個特征的4177個觀察值以及目標變量鮑魚的年齡。我們將400個數據點作為驗證集合保留,剩下3777個數據點以適合模型。第一個特征(標記為性別)有三個值:雄性,雌性和少年,編碼值為0,1,2;其他7個是(直接)實數。任務是從特征中估計鮑魚的年齡。交叉驗證表明我們選擇了,它實現了驗證集合RMSE為2.131。由于特征數量很少,我們可以繪制整個廣義相加模型。每個圖表顯示的一個坐標函數作為0,1中標準化特征的函數。顯示了三個值的坐標函數,中間值對應于最小化交叉驗證RMSE的值。當坐標函數為零時,即模型中未使用該特征時,它將顯示為藍色。我們可以看到,在強正則化()的情況下,幾個坐標不被使用;對于最佳模型(),使用所有特征,其中一些特征僅具有小的影響??吹叫砸蛩厝绾芜M入最佳模型是很有趣的。它對于男性或女性都是中性的,但是從其年齡預測中為少年鮑魚減去一小部分固定量。這個數據集足夠小,我們可以使用粗網格0,1與標準自適應樣條進行比較。對于這個實驗,我們使用GLMNET 15來擬合具有標準自適應樣條組件函數的GAM。標準自適應GAM擬合沒有變量選擇,實現了驗證集合RMSE為2.137,并沒有比飽和樣條模型差得多。然而,我們的算法選擇了更少的節(jié)點。擬合GLMNET時結節(jié)數量的增加可能是由于網格問題的條件不佳造成的。圖5:用于使樣條廣義相加模型飽和的坐標函數適合于鮑魚數據以獲得正則化參數的三個值。圖6:飽和樣條廣義相加模型的驗證誤差符合垃圾郵件數據集與調整參數。7.3 垃圾郵件我們將電子郵件分類為垃圾郵件和非垃圾郵件的兩類,并從ESL獲取數據集1。該數據集包含來自4601封電子郵件的57個詞頻特征,以及其標簽為垃圾郵件或非垃圾郵件。遵循ESL中的方法1,我們對特征進行對數轉換,并使用標準訓練/驗證分割,訓練集為3065,測試集為1536個樣本。我們擬合了具有標準邏輯損失的飽和樣條廣義加法模型。圖6顯示了驗證錯誤與正則化參數的關系。交叉驗證表明選擇。為了說明非線性坐標函數的好處,我們還包含了使用線性模型(使用GLMNet 15擬合)獲得的最佳驗證誤差。在正則化參數的情況下,該模型選擇57個特征中的55個。我們注意到我們的飽和樣條廣義加法模型比ESL的許多方法略微勝過1。例如,平滑樣條曲線產生5.3的誤差,而我們的模型誤差率遠低于5。圖7顯示了的模型的坐標函數(一些)。坐標函數使用非常少的節(jié)點,使其易于解釋。為了比較,我們使用標準自適應樣條坐標函數來擬合GAM。為此,我們用20個節(jié)點對每個維度進行網格劃分,并用GLMNET 15解決由此產生的有限維問題。請注意,自適應樣條不會懲罰線性函數,因此不會選擇特征。自適應樣條的最小誤差為4.8,比飽和樣條要差得多。圖7:的16個坐標函數,每個標有相應的特征名稱。圖8:驗證ALS數據集與正則化參數的MSE。7.4 ALS我們嘗試使用這個數據集來預測醫(yī)學患者的ALS(肌萎縮側索硬化癥)的進展速度,通過功能評分的變化率來衡量,這是對功能障礙的測量。該數據集被分成1197個實例的訓練集和625個額外患者的驗證集。每個數據點的維數為369。我們用一個最小二乘目標函數擬合了一個具有飽和樣條函數的廣義加法模型。在25,17.2之后,我們使用均方差來衡量表現。我們使用交叉驗證來估計的最優(yōu)值,其中保留大小為100個示例和50個樣本;這個程序建議。圖8顯示了驗證誤差與正則化參數;通過交叉驗證選擇的的值實現了低誤差。在同一圖上,我們還使用增強回歸樹和隨機森林顯示25的結果。最優(yōu)飽和樣條GAM模型只選擇了369個特征中的50個,而增強回歸樹使用了267。飽和樣條GAM模型與增強回歸樹和隨機森林相當。這是令人驚訝的,因為飽和樣條GAM沒有交互條件。它還使用了少得多的功能,進一步提高了解釋能力。我們再次使用具有標準自適應樣條坐標功能的GAM(使用GLMNET)來展示飽和度的優(yōu)勢。標準自適應樣條擬合實現了0.547的MSE,比其他任何模型都差得多。我們推測這是因為非線性函數導致立即過擬合。事實上,去除未經去除的線性函數并僅用鉸鏈擬合模型就可以得到與飽和樣條擬合非常相似的性能,這表明飽和度的主要優(yōu)勢在于去除未經去除的線性函數。飽和樣條的實用優(yōu)勢:這些實驗表明,飽和樣條曲線在小分類和回歸數據集上十分有效。 此外,實驗證明飽和樣條展示結點選擇和特征選擇在擬合GAMs的情況下。 雖然飽和樣條曲線比平滑樣條曲線(選擇完全密集的結集)選擇更少的節(jié)點并不奇怪,但我們的算法選擇的節(jié)數比即使與GLMNET適合的自適應樣條曲線也有點令人驚訝。最后,垃圾郵件和ALS數據集展示了自適應樣條曲線比自適應樣條曲線飽和的一個主要優(yōu)勢:它們同時執(zhí)行非線性坐標函數擬合和特征選擇。這有助于泛化性能和可解釋性。特別是,對于ALS數據集,飽和樣條GAM通過僅選擇36個可用特征中的50個來實現自適應樣條GAM的一半測試MSE。8.高階樣條在本文的大部分研究中,我們關注函數回歸問題(2),對一階導數和對零導數(函數本身)的飽和約束有一個總變差約束。在本節(jié)中,我們考慮對高階導數的約束,導致高階樣條的解。 (24)我們考慮以為指標的非參數函數估計問題族。這是函數回歸問題(2)的類比,其中對第階導數的總變差約束和對第階導數的飽和約束。本文中的飽和樣條情形是(24)的特例,其中。廣泛使用的立方自然樣條對應于。注意,不同于自然樣條,自然樣條只為和的某些值定義,而這里對和沒有約束。我們現在表明高階飽和樣條一般解決(24)。由于是有界,所以存在一個度量那么對某些我們有:在上面,所有迭代的積分發(fā)生次。請注意,對于所有,的約束意味著多項式項單獨為零。 所以,我們有:對于,我們可以消除非線性,即對于,只是的多項式的積分。我們可以從積分中將包含的項取出,得到x的多項式,其系數是的前個矩的非零倍數:同樣地,我們注意到,由于這個多項式對于無限多點都是零,所有的系數必須為零。就度量而言,這意味著:這表明的第階導數飽和的約束條件轉化為約束的所有時刻直到第個時刻。雖然條件梯度變得更加復雜,但增加了更多的矩約束條件,但本文采用的方法仍然可以應用于(24),只要相當?。?4)的條件梯度步驟包含在上的非凸優(yōu)化問題。這是因為我們至少需要個點質量來滿足時間約束。因此,擬合線性飽和的二次樣條曲線非常容易事實上,這樣做的代碼與擬合分段線性飽和樣條曲線的代碼基本相同但由于附加的線性條件,擬合到常數的二次樣條稍微困難一些對度量的約束。然而,對于較大的和值,我們不能再希望通過分析找到條件梯度,并且必須求助于遞歸網格或其他全局優(yōu)化算法來查找新節(jié)點的位置。圖9:前兩幅圖分別顯示了時的條件梯度,其中和。虛線表示點質量的位置:當時,條件梯度由三個點質量組成。底部的圖表顯示了相應的度量。9.變體和擴展雖然飽和度往往是一個自然的先驗,但我們在本文中采用的方法也可以應用于(9)上的其他(凸)變體。例如,我們可以添加約束條件,即擬合的函數是單調非遞減的,或者在給定的時間間隔內取值。一個簡單的算法擴展就是在8的精神中加入非凸優(yōu)化。在每次迭代中,我們調整原子量度的權重,但我們也可以調整結點位置。(19)中的目標在中是非凸的,但我們仍然可以試圖找到一個局部最小值。只要我們不增加目標函數,算法仍然保證收斂8。在一階樣條的情況下,我們可以使用這樣的事實,即結點可以在不失一般性的情況下選擇在數據點上以對結點位置進行離散調整。為了擬合矢量值函數,例如在多類別分類中,我們需要擴展(9)以使用矢量值度量。這是組lasso的自然測量理論模擬。在多變量擬合問題中,特征之間存在顯著相互作用的問題可能會出現廣義相加模型。一種可能的解決方案是使用單層神經網絡:即學習形式為的函數。在上面,被限制在單位球中。但是,這種形式的網絡的條件梯度步驟是NP-hard 26。然而,在許多實際應用中,我們可能預期交互的程度是有限的。也就是說,每個都有界限基數。如果我們假設,即我們只適合配對相互作用,我們仍然可以應用條件梯度方法。在這種情況下,擬合函數是由基本元素形成的變量對的函數的和,其中(連續(xù))參數為和以及(指數)參數為和(即,)。(僅適用于當足夠小時)。這些函數捕獲(成對)變量之間的非線性關系。10.結論在本文中,我們提出了修改自適應樣條回歸模型即飽和約束。我們證明飽和樣條函數繼承自適應樣條的結點選擇,并且在廣義相加模型的背景下具有非常重要的質量:特征選擇。這允許飽和樣條廣義相加模型保持可解釋性,并且(至關重要)在應用于多元數據時避免過擬合。我們還提出了一種基于標準條件梯度法求解任意凸損失飽和樣條估計問題的簡單有效算法。最后,我們將我們的算法應用于多個數據集,展示了最終模型的簡單性。