一区二区三区在线-一区二区三区亚洲视频-一区二区三区亚洲-一区二区三区午夜-一区二区三区四区在线视频-一区二区三区四区在线免费观看

腳本之家,腳本語言編程技術(shù)及教程分享平臺!
分類導(dǎo)航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

服務(wù)器之家 - 腳本之家 - Python - 特征臉(Eigenface)理論基礎(chǔ)之PCA主成分分析法

特征臉(Eigenface)理論基礎(chǔ)之PCA主成分分析法

2021-01-21 00:17兔死機 Python

這篇文章主要為大家詳細介紹了特征臉理論基礎(chǔ)之PCA主成分分析法,具有一定的參考價值,感興趣的小伙伴們可以參考一下

在之前的博客 人臉識別經(jīng)典算法一:特征臉方法(eigenface)里面介紹了特征臉方法的原理,但是并沒有對它用到的理論基礎(chǔ)pca做介紹,現(xiàn)在做補充。請將這兩篇博文結(jié)合起來閱讀。以下內(nèi)容大部分參考自斯坦福機器學習課程:http://cs229.stanford.edu/materials.html

假設(shè)我們有一個關(guān)于機動車屬性的數(shù)據(jù)集{x(i);i=1,...,m}(m代表機動車的屬性個數(shù)),例如最大速度,最大轉(zhuǎn)彎半徑等。假設(shè)x(i)本質(zhì)上是n維的空間的一個元素,其中n<<m,但是n對我們來說是未知的。假設(shè)xi和xj分別代表車以英里和公里為單位的最大速度。顯然這兩個屬性是冗余的,因為它們兩個是有線性關(guān)系而且可以相互轉(zhuǎn)化的。因此如果僅以xi和xj來考慮的話,這個數(shù)據(jù)集是屬于m-1維而不是m維空間的,所以n=m-1。推廣之,我們該用什么方法降低數(shù)據(jù)冗余性呢?

首先考慮一個例子,假設(shè)有一份對遙控直升機操作員的調(diào)查,用x(i)1(1是下標,原諒我這操蛋的排版吧)表示飛行員i的飛行技能,x(i)2表示飛行員i喜歡飛行的程度。通常遙控直升飛機是很難操作的,只有那些非常堅持而且真正喜歡駕駛的人才能熟練操作。所以這兩個屬性x(i)1和x(i)2相關(guān)性是非常強的。我們可以假設(shè)兩者的關(guān)系是按正比關(guān)系變化的,如下圖里的u1所示,數(shù)據(jù)散布在u1兩側(cè)是因為有少許噪聲。

特征臉(Eigenface)理論基礎(chǔ)之PCA主成分分析法

接下來就是如何計算u1的方向了。首先我們需要預(yù)處理數(shù)據(jù)。

1.令特征臉(Eigenface)理論基礎(chǔ)之PCA主成分分析法

2.用x(i)-μ替代x(i)

3.求特征臉(Eigenface)理論基礎(chǔ)之PCA主成分分析法

4.用x(i)j/σj替代x(i)j

步驟1-2其實是將數(shù)據(jù)集的均值歸零,也就是只取數(shù)據(jù)的偏差部分,對于本身均值為零的數(shù)據(jù)可以忽略這兩步。步驟3-4是按照每個屬性的方差將數(shù)據(jù)重新度量,也可以理解為歸一化。因為對于不同的屬性(比如車的速度和車座數(shù)目)如果不歸一化是不具有比較性的,兩者不在一個量級上。如果將pca應(yīng)用到圖像上的話是不需要步驟3-4的,因為每個像素(相當于不同的屬性)的取值范圍都是一樣的。

數(shù)據(jù)經(jīng)過如上處理之后,接下來就是尋找數(shù)據(jù)大致的走向了。一種方法是找到一個單位向量u,使所有數(shù)據(jù)在u上的投影之和最大,當然數(shù)據(jù)并不是嚴格按照u的方向分布的,而是分布在其周圍??紤]下圖的數(shù)據(jù)分布(這些數(shù)據(jù)已經(jīng)做了前期的預(yù)處理)。

特征臉(Eigenface)理論基礎(chǔ)之PCA主成分分析法

下圖中,星號代表數(shù)據(jù),原點代表數(shù)據(jù)在單位向量u上的投影(|x||u|cosθ)

特征臉(Eigenface)理論基礎(chǔ)之PCA主成分分析法

從上圖可以看到,投影得到的數(shù)據(jù)仍然有很大的方差,而且投影點離原點很遠。如果采取與上圖u垂直的方向,則可以得到下圖:

特征臉(Eigenface)理論基礎(chǔ)之PCA主成分分析法

這里得到的投影方差比較小,而且離原點也更近。

上述u的方向只是感性的選擇出來的,為了將選擇u的步驟正式確定下來,可以假定在給定單位向量u和數(shù)據(jù)點x的情況下,投影的長度是xtu。舉個例子,如果x(i)是數(shù)據(jù)集中的一個點(上圖中的一個星號),那它在u上的投影xtu就是圓點到原點的距離(是標量哦)。所以,為了最大化投影的方差,我們需要選擇一個單位向量u來最大化下式:

特征臉(Eigenface)理論基礎(chǔ)之PCA主成分分析法

明顯,按照||u||2=1(確保u是單位向量)來最大化上式就是求特征臉(Eigenface)理論基礎(chǔ)之PCA主成分分析法的主特征向量。而特征臉(Eigenface)理論基礎(chǔ)之PCA主成分分析法其實是數(shù)據(jù)集的協(xié)方差矩陣。

做個總結(jié),如果我們要找數(shù)據(jù)集分布的一維子空間(就是將m維的數(shù)據(jù)用一維數(shù)據(jù)來表示),我們要選擇協(xié)方差矩陣的主特征向量。推廣之,如果要找k維的子空間,那就應(yīng)該選擇協(xié)方差矩陣的k個特征向量u1,u2,...,uk。ui(i=1,2,...,k)就是用來表征數(shù)據(jù)集的新坐標系。

為了在u1,u2,...,uk的基礎(chǔ)上表示x(i),我們只需要計算

特征臉(Eigenface)理論基礎(chǔ)之PCA主成分分析法

其中x(i)是屬于n維空間的向量,而y(i)給出了基于k維空間的表示。因此說,pca是一個數(shù)據(jù)降維算法。u1,u2,...,uk稱為數(shù)據(jù)的k個主成分。

介紹到這里,還需要注意一些為題:

1、為什么u要選擇單位向量

選擇單位向量是為了統(tǒng)一表示數(shù)據(jù),不選成單位的也可以,但各個向量長度必須統(tǒng)一,比如統(tǒng)一長度為2、3等等。

2、各個u要相互正交

如果u不正交,那么在各個u上的投影將含有冗余成分

2、為什么要最大化投影的方差

舉個例子,如果在某個u上的投影方差為0,那這個u顯然無法表示原數(shù)據(jù),降維就沒有意義了。

以上就是本文的全部內(nèi)容,希望對大家的學習有所幫助,也希望大家多多支持服務(wù)器之家。

原文鏈接:http://blog.csdn.net/smartempire/article/details/22938315

延伸 · 閱讀

精彩推薦
主站蜘蛛池模板: 2018高清国产一道国产 | 久久免费资源福利资源站 | 精品综合久久久久久88小说 | 免费特黄视频 | 国产成人手机在线 | 日韩一区在线观看 | 四虎在线成人免费网站 | 99视频在线观看视频 | jizz女16处 | 我与岳乱短篇小说 | 第一次处破女18分钟 | 蜜桃久久久亚洲精品成人 | 亚洲欧美日韩国产一区二区精品 | 久久三级视频 | 国产在线观看人成激情视频 | 荡娃艳妇系列小说 | 国产香蕉97碰碰久久人人 | 色综合视频一区二区三区 | 欧美日韩国产一区二区三区欧 | bl超h 高h 污肉快穿np | 日本小视频网站 | 香港三级系列在线播放 | 毛片在线免费观看网站 | 无遮掩60分钟从头啪到尾 | 欧美一区二区三区精品国产 | 欧美一区二区三区精品影视 | 国产绳艺在线播放 | 图片专区亚洲欧美另类 | 亚洲精品色图 | 无遮免费网站在线入口 | 1024国产基地永久免费 | 日韩精品成人免费观看 | 亚洲精品在线播放 | 免费网站视频 | 亚洲视频在线观看地址 | 亚洲欧美激情日韩在线 | 亚洲国产综合久久久无码色伦 | 91精品国产高清久久久久久io | 免费尤物视频 | 国产精品久久免费观看 | 婷婷天天|