CCDCMOS圖像傳感器基礎與應用.ppt
《CCDCMOS圖像傳感器基礎與應用.ppt》由會員分享,可在線閱讀,更多相關《CCDCMOS圖像傳感器基礎與應用.ppt(298頁珍藏版)》請在裝配圖網(wǎng)上搜索。
第6章 視頻壓縮技術,6.1 視頻壓縮的基本原理 6.2 靜止圖像壓縮 6.3 活動圖像編碼 6.4 音頻壓縮的原理和標準 思考題和習題,6.1 視頻壓縮的基本原理,6.1.1 視頻信號壓縮的可能性 視頻數(shù)據(jù)中存在著大量的冗余, 即圖像的各像素數(shù)據(jù)之間存在極強的相關性。 利用這些相關性, 一部分像素的數(shù)據(jù)可以由另一部分像素的數(shù)據(jù)推導出來, 結果視頻數(shù)據(jù)量能極大地壓縮, 有利于傳輸和存儲。 視頻數(shù)據(jù)主要存在以下形式的冗余。,1. 空間冗余 視頻圖像在水平方向相鄰像素之間、 垂直方向相鄰像素之間的變化一般都很小, 存在著極強的空間相關性。 特別是同一景物各點的灰度和顏色之間往往存在著空間連貫性, 從而產生了空間冗余, 常稱為幀內相關性。,2. 時間冗余 在相鄰場或相鄰幀的對應像素之間, 亮度和色度信息存在著極強的相關性。 當前幀圖像往往具有與前、 后兩幀圖像相同的背景和移動物體, 只不過移動物體所在的空間位置略有不同, 對大多數(shù)像素來說, 亮度和色度信息是基本相同的, 稱為幀間相關性或時間相關性。,3. 結構冗余 在有些圖像的紋理區(qū), 圖像的像素值存在著明顯的分布模式。 如方格狀的地板圖案等。 已知分布模式, 可以通過某一過程生成圖像, 稱為結構冗余。 4. 知識冗余 有些圖像與某些知識有相當大的相關性。 如人臉的圖像有固定的結構, 嘴的上方有鼻子, 鼻子的上方有眼睛, 鼻子位于臉部圖像的中線上。 這類規(guī)律性的結構可由先驗知識得到, 此類冗余稱為知識冗余。,5. 視覺冗余 人眼具有視覺非均勻特性, 對視覺不敏感的信息可以適當?shù)厣釛墶?在記錄原始的圖像數(shù)據(jù)時, 通常假定視覺系統(tǒng)是線性的和均勻的, 對視覺敏感和不敏感的部分同等對待, 從而產生了比理想編碼(即把視覺敏感和不敏感的部分區(qū)分開來編碼)更多的數(shù)據(jù), 這就是視覺冗余。 人眼對圖像細節(jié)、 幅度變化和圖像的運動并非同時具有最高的分辨能力。,人眼視覺對圖像的空間分解力和時間分解力的要求具有交換性, 當對一方要求較高時, 對另一方的要求就較低。 根據(jù)這個特點, 可以采用運動檢測自適應技術, 對靜止圖像或慢運動圖像降低其時間軸抽樣頻率, 例如每兩幀傳送一幀; 對快速運動圖像降低其空間抽樣頻率。,另外, 人眼視覺對圖像的空間、 時間分解力的要求與對幅度分解力的要求也具有交換性, 對圖像的幅度誤差存在一個隨圖像內容而變的可覺察門限, 低于門限的幅度誤差不被察覺, 在圖像的空間邊緣(輪廓)或時間邊緣(景物突變瞬間)附近, 可覺察門限比遠離邊緣處增大3~4倍, 這就是視覺掩蓋效應。,根據(jù)這個特點, 可以采用邊緣檢測自適應技術, 對于圖像的平緩區(qū)或正交變換后代表圖像低頻成分的系數(shù)細量化, 對圖像輪廓附近或正交變換后代表圖像高頻成分的系數(shù)粗量化; 當由于景物的快速運動而使幀間預測編碼碼率高于正常值時進行粗量化, 反之則進行細量化。 在量化中, 盡量使每種情況下所產生的幅度誤差剛好處于可覺察門限之下, 這樣能實現(xiàn)較高的數(shù)據(jù)壓縮率而主觀評價不變。,6. 圖像區(qū)域的相同性冗余 在圖像中的兩個或多個區(qū)域所對應的所有像素值相同或相近, 從而產生的數(shù)據(jù)重復性存儲, 這就是圖像區(qū)域的相似性冗余。 在這種情況下, 記錄了一個區(qū)域中各像素的顏色值, 與其相同或相近的區(qū)域就不再記錄各像素的值。 矢量量化方法就是針對這種冗余圖像的壓縮方法。,7. 紋理的統(tǒng)計冗余 有些圖像紋理盡管不嚴格服從某一分布規(guī)律, 但是在統(tǒng)計的意義上服從該規(guī)律, 利用這種性質也可以減少表示圖像的數(shù)據(jù)量, 稱為紋理的統(tǒng)計冗余。 電視圖像信號數(shù)據(jù)存在的信息冗余為視頻壓縮編碼提供了可能。,6.1.2 視頻信號的數(shù)字化和壓縮 模擬電視信號(包括視頻和音頻)通過取樣、 量化后編碼 為二進制數(shù)字信號的過程稱為模數(shù)變換(A/D變換)或脈沖編碼調制(PCM, Pulse Coding Modulation), 所得到的信號也稱為PCM信號, 其過程可用圖6-1(a)表示。 若取樣頻率等于fs、 用n比特量化, 則PCM信號的碼率為nfs(比特/s)。 PCM編碼既可以對彩色全電視信號直接進行, 也可以對亮度信號和兩個色差信號分別進行, 前者稱為全信號編碼, 后者稱為分量編碼。,PCM信號經(jīng)解碼和插入濾波恢復為模擬信號, 如圖6-1(b)所示, 解碼是編碼的逆過程, 插入濾波是把解碼后的信號插補為平滑、 連續(xù)的模擬信號。 這兩個步驟合稱為數(shù)模變換(D/A變換)或PCM解碼。,圖 6-1 電視信號的數(shù)字化和復原 (a) A/D變換; (b) D/A變換,1. 奈奎斯特取樣定理 理想取樣時, 只要取樣頻率大于或等于模擬信號中最高頻率的兩倍, 就可以不失真地恢復模擬信號, 稱為奈奎斯特取樣定理。 模擬信號中最高頻率的兩倍稱為折疊頻率。 2. 亞奈奎斯特取樣 按取樣定理, 若取樣頻率fs小于模擬信號最高頻率fmax的2倍會產生混疊失真, 但若巧妙地選擇取樣頻率, 令取樣后頻譜中的混疊分量落在色度分量和亮度分量之間, 就可用梳狀濾波器去掉混疊成分。,3. 均勻量化和非均勻量化 在輸入信號的動態(tài)范圍內, 量化間隔幅度都相等的量化稱為均勻量化或線性量化。 對于量化間距固定的均勻量化, 信噪比隨輸入信號幅度的增加而增加, 在強信號時固然可把噪波淹沒掉, 在弱信號時, 噪波的干擾就十分顯著。 為改善弱信號時的信噪比, 量化間距應隨輸入信號幅度而變化, 大信號時進行粗量化, 小信號時進行細量化, 也就是采用非均勻量化(或稱非線性量化)。,非均勻量化有兩種方法, 一是把非線性處理放在編碼器前和解碼器后的模擬部分, 編、 解碼仍采用均勻量化, 在均勻量化編碼器之前, 對輸入信號進行壓縮, 這樣等效于對大信號進行粗量化, 小信號進行細量化; 在均勻量化解碼器之后, 再進行擴張, 以恢復原信號。 另一種方法是直接采用非均勻量化器, 輸入信號大時進行粗量化(量化間距大) , 輸入信號小時細量化(量化間距小)。 也有采用若干個量化間距不等的均勻量化器, 當輸入信號超過某一電平時進入粗間距均勻量化器, 低于某一電平時進入細間距量化器, 稱為準瞬時壓擴方式。,通常用Q表示量化, 用Q-1表示反量化。 量化過程相當于由輸入值找到它所在的區(qū)間號, 反量化過程相當于由量化區(qū)間號得到對應的量化電平值。 量化區(qū)間總數(shù)遠遠少于輸入值的總數(shù), 所以量化能實現(xiàn)數(shù)據(jù)壓縮。 很明顯, 反量化后并不能保證得到原來的值, 因此量化過程是一個不可逆過程, 用量化的方法來進行壓縮編碼是一種非信息保持型編碼。 通常這兩個過程均可用查表方法實現(xiàn), 量化過程在編碼端完成, 而反量化過程則在解碼端完成。,對量化區(qū)間標號(量化值)的編碼一般采用等長編碼方法。 當量化分層總數(shù)為K時, 經(jīng)過量化壓縮后的二進制數(shù)碼率為lbK比特/量值。 在一些要求較高的場合, 可采用可變字長編碼如哈夫曼編碼或算術編碼來進一步提高編碼效率。,6.1.3 ITU-R BT.601分量數(shù)字系統(tǒng) 數(shù)字視頻信號是將模擬視頻信號經(jīng)過取樣、 量化和編碼后形成的。 模擬電視有PAL、 NTSC等制式, 必然會形成不同制式的數(shù)字視頻信號, 不便于國際數(shù)字視頻信號的互通。 1982年10月, 國際無線電咨詢委員會(CCIR, Consultative Committee for International Radio)通過了第一個關于演播室彩色電視信號數(shù)字編碼的建議, 1993年變更為ITU-R(國際電聯(lián)無線電通信部分, International Telecommunications Union-Radio communications Sector)BT.601分量數(shù)字系統(tǒng)建議。,BT.601建議采用了對亮度信號和兩個色差信號分別編碼的分量編碼方式, 對不同制式的信號采用相同的取樣頻率13.5 MHz, 與任何制式的彩色副載波頻率無關, 對亮度信號Y的取樣頻率為13.5 MHz。 由于色度信號的帶寬遠比亮度信號的帶寬窄, 對色度信號U和V的取樣頻率為6.75 MHz。 每個數(shù)字有效行分別有720個亮度取樣點和360×2個色差信號取樣點。 對每個分量的取樣點都是均勻量化, 對每個取樣進行8比特精度的PCM編碼。,這幾個參數(shù)對525行、 60場/秒和625行50場/秒的制式都是相同的。 有效取樣點是指只有行、 場掃描正程的樣點有效, 逆程的樣點不在PCM編碼的范圍內。 因為在數(shù)字化的視頻信號中, 不再需要行、 場同步信號和消隱信號, 只要有行、 場(幀)的起始位置即可。 例如, 對于PAL制, 傳輸所有的樣點數(shù)據(jù), 大約需要200 Mb/s的傳輸速率, 傳輸有效樣點只需要160 Mb/s左右的速率。 色度信號的取樣率是亮度信號取樣率的一半, 常稱作4∶2∶2格式, 可以理解為每一行里的Y、 U、 V的樣點數(shù)之比為4∶2∶2。,6.1.4 熵編碼 熵編碼(Entropy Coding)是一類無損編碼, 因編碼后的平均碼長接近信源的熵而得名。 熵編碼多用可變字長編碼(VLC, Variable Length Coding)實現(xiàn)。 其基本原理是對信源中出現(xiàn)概率大的符號賦以短碼, 對出現(xiàn)概率小的符號賦以長碼, 從而在統(tǒng)計上獲得較短的平均碼長。 所編的碼應是即時可譯碼, 某一個碼不會是另一個碼的前綴, 各個碼之間無需附加信息便可自然分開。,1. 霍夫曼(Huffman)編碼 霍夫曼(Huffman)編碼是一種可變長編碼, 編碼方法如圖6-2所示。 (1) 將輸入信號符號以出現(xiàn)概率由大至小為序排成一列。 (2) 將兩處最小概率的符號相加合成為一個新概率, 再按出現(xiàn)概率的大小排序。 (3) 重復步驟(2), 直至最終只剩兩個概率。 (4) 編碼從最后一步出發(fā)逐步向前進行, 概率大的符號賦予“0”碼, 另一個概率賦予“1”碼, 直至到達最初的概率排列為止。,圖 6-2 霍夫曼(Huffman)編碼,2. 算術編碼 霍夫曼編碼的每個代碼都要使用一個整數(shù)位, 如果一個符號只需要用2.5位就能表示, 但在霍夫曼編碼中卻必須用3個符號來表示, 因此它的效率較低。 與其相比, 算術編碼并不是為每個符號產生一個單獨的代碼, 而是使整條信息共用一個代碼, 增加到信息上的每個新符號都遞增地修改輸出代碼。,假設信源由4個符號S1、 S2、 S3和S4組成, 其概率模型如表6-1所示。 把各符號出現(xiàn)的概率表示在如圖6-3所示的單位概率區(qū)間之中, 區(qū)間的寬度代表概率值的大小, 各符號所對應的子區(qū)間的邊界值, 實際上是從左到右各符號的累積概率。 在算術編碼中通常采用二進制的小數(shù)來表示概率, 每個符號所對應的概率區(qū)間都是半開區(qū)間, 如S1對應[0, 0.001), S2對應[0.001, 0.011)。 算術編碼所產生的碼字實際上是一個二進制小數(shù)值的指針, 該指針指向所編的符號所對應的概率區(qū)間。,表6-1 信源概率模型和算術編碼過程,圖 6-3 算術編碼過程示意圖,若將符號序列S3S3S2S4進行算術編碼, 序列的第一個符號為S3, 我們用指向圖6-3中第3個子區(qū)間的指針來代表這個符號, 由此得到碼字0.011。 后續(xù)的編碼將在前面編碼指向的子區(qū)間內進行。 將[0.011, 0.111)區(qū)間再按符號的概率值劃分成4份, 對第二個符號S3, 指針指向0.1001,碼 字串變?yōu)?.1001。 然后S3所對應的子區(qū)間又被劃分為4份, 開始對第3個符號進行編碼……。,算術編碼的基本法則如下: (1) 初始狀態(tài): 編碼點(指針所指處)C0=0, 區(qū)間寬度A0=1。 (2) 新編碼點: Ci= Ci-1 + Ai-1×Pi。 式中, Ci-1是原編碼點; Ai-1是原區(qū)間寬度; Pi所編符號對應的累積概率。 新區(qū)間寬度Ai= Ai-1×pi 式中, pi為所編符號對應的概率。,根據(jù)上述法則, 對序列S3S3S2S4進行算術編碼的過程如下: 第一個符號S3: C1=C0+A0×P1=0+1×0.011=0.011 A1=A0×p1=1×0.1=0.1 [0.011,0.111] 第二個符號S3: C2=C1+A1×P2 =0.011+0.1×0.011=0.1001 A2=A1×p2=0.1×0.1=0.01 [0.1001,0.1101],第三個符號S2: C3=C2+A2×P3=0.1001+0.01×0.001=0.10011 A3=A2×p3=0.01×0.01=0.0001 [0.10011,0.10101] 第四個符號S4: C4=C3+A3×P4=0.10011+0.0001×0.111=0.1010011 A4=A3×p4=0.0001×0.001=0.0000001 [0.1010011,0.10101),3. 游程編碼 游程編碼(RLC, Run Length Coding)是一種十分簡單的壓縮方法, 它將數(shù)據(jù)流中連續(xù)出現(xiàn)的字符用單一的記號來表示。 例如, 字符串5310000000000110000000012000000000000可以壓縮為5310-10110-08120-12, 其中, “-”后面兩個數(shù)字是“-”前面數(shù)字的連續(xù)個數(shù)。 游程編碼的壓縮率不高, 但編碼、 解碼的速度快, 仍被得到廣泛的應用, 特別是在變換編碼后再進行游程編碼, 有很好的效果。,6.1.5 預測編碼和變換編碼 1. DPCM原理 基于圖像的統(tǒng)計特性進行數(shù)據(jù)壓縮的基本方法就是預測編碼。 它是利用圖像信號的空間或時間相關性, 用已傳輸?shù)南袼貙Ξ斍暗南袼剡M行預測, 然后對預測值與真實值的差——預測誤差進行編碼處理和傳輸。 目前用得較多的是線性預測方法, 全稱為差值脈沖編碼調制(DPCM, Differential Pulse Code Modulation), 簡稱為DPCM。,利用幀內相關性(像素間、 行間的相關)的DPCM稱為幀內預測編碼。 如果對亮度信號和兩個色差信號分別進行DPCM編碼, 對亮度信號采用較高的取樣率和較多位數(shù)編碼, 對色差信號用較低的取樣率和較少位數(shù)編碼, 構成時分復合信號后再進行DPCM編碼, 這樣做使總碼率更低。,利用幀間相關性(鄰近幀的時間相關性)的DPCM被稱為幀間預測編碼, 因幀間相關性大于幀內相關性, 其編碼效率更高。 若把這兩種DPCM組合起來, 再配上變字長編碼技術, 能取得較好的壓縮效果。 DPCM是圖像編碼技術中研究得最早, 且應用最廣的一種方法, 它的一個重要的特點是算法簡單, 易于硬件實現(xiàn)。 圖6-4(a)是它的示意圖, 編碼單元主要包括線性預測器和量化器兩部分。,編碼器的輸出不是圖像像素的樣值f(m, n), 而是該樣值與預測值g(m, n)之間的差值, 即預測誤差e(m, n)的量化值E(m, n)。 根據(jù)圖像信號統(tǒng)計特性的分析, 給出一組恰當?shù)念A測系數(shù), 使預測誤差主要分布在“0”附近, 經(jīng)非均勻量化, 采用較少的量化分層, 圖像數(shù)據(jù)得到壓縮。 而量化噪聲又不易被人眼所覺察, 圖像的主觀質量并不明顯下降。 圖6-4(b)是DPCM解碼器, 其原理和編碼器剛好相反。,圖 6-4 DPCM原理 (a) DPCM編碼器; (b) DPCM解碼器,DPCM編碼性能主要取決于預測器的設計, 預測器設計要確定預測器的階數(shù)N以及各預測系數(shù)。 圖6-5是一個4階預測器的示意圖, 圖6-5(a)表示預測器所用的輸入像素和被預測像素之間的位置關系, 圖6-5(b)表示預測器的結構。,圖 6-5 四階預測器 (a) 輸入像素和預測像素; (b) 預測器構成,2. 變換編碼原理 圖像變換編碼是將空間域里描述的圖像, 經(jīng)過某種變換(如傅立葉變換、 離散余弦變換、 沃爾什變換等)在變換域中進行描述。 這樣可以將圖像能量在空間域的分散分布變?yōu)樵谧儞Q域的相對集中分布, 便于用“Z”(zig-zag)字形掃描、 自適應量化、 變長編碼等進一步處理, 完成對圖像信息的有效壓縮。,先從一個實例來看一個域的數(shù)據(jù)變換到另一個域后其分布是如何改變的。 以1×2像素構成的子圖像, 即相鄰兩個像素組成的子圖像為例, 每個像素3比特編碼, 取0~7共8個灰度級, 兩個像素有64種可能的灰度組合, 由圖6-6(a)中的64個坐標點表示。 一般圖像相鄰像素之間存在著很強的相關性, 絕大多數(shù)的子圖像中相鄰兩像素灰度級相等或很接近, 也就是說在x1=x2直線附近出現(xiàn)的概率大, 如圖6-6(a)中的陰影區(qū)所示。,現(xiàn)在將坐標系逆時針旋轉45°, 如圖6-6(b)所示。 在新的坐標系y1、 y2中, 概率大的子圖像區(qū)位于y1軸附近。 表明變量y1、 y2之間的聯(lián)系比變量x1、 x2之間的聯(lián)系在統(tǒng)計上更加獨立, 方差也重新分布。 在原來坐標系中子圖像的兩個像素具有較大的相關性, 能量的分布也比較分散,,兩者具有大致相同的方差, 而在變換后的坐標系中, 子圖像的兩個像素之間的相關性大大減弱, 能量分布向y1軸集中, y1的方差也遠大于y2, 這種變換后坐標軸上方差不均勻分布正是正交變換編碼能夠實現(xiàn)圖像數(shù)據(jù)壓縮的理論根據(jù)。 若按照人的視覺特性, 只保留方差較大的那些變換系數(shù)分量, 就可以獲得更大的數(shù)據(jù)壓縮比, 這就是視覺心理編碼的方法。,圖 6-6 變換編碼的物理意義 (a) 子圖像在陰影區(qū)的概率較大; (b) 旋轉變換后,把一個n×n像素的子圖像看成n2維坐標系中的一個坐標點, 在n2維坐標系中每一個坐標點對應于n2個像素。 這個坐標點各維的數(shù)值是其對應的n2個像素的灰度組合。 圖像在n2維變換域中, 相關性大大下降。 因此用變換后的系數(shù)進行編碼, 比直接用圖像數(shù)據(jù)編碼能獲得更大的數(shù)據(jù)壓縮。,變換編碼將被處理數(shù)據(jù)按照某種變換規(guī)則映射到另一個域中去處理, 圖像編碼采用二維正交變換的方式, 若將整個圖像作為一個二維矩陣, 變換編碼的計算量太大。 所以將一幅圖像分成一個個小圖像塊, 通常是8×8或16×16小方塊, 每個圖像塊可以看成為一個二維數(shù)據(jù)矩陣, 變換編碼以這些小圖像塊為單位進行, 變換編碼把統(tǒng)計上密切相關的像素構成的矩陣通過線性正交變換, 變成統(tǒng)計上較為相互獨立, 甚至完全獨立的變換系數(shù)所構成的矩陣。,信息論的研究表明, 變換前后圖像的信息量并無損失, 可以通過反變換得到原來的圖像值。 統(tǒng)計分析表明, 正交變換后, 數(shù)據(jù)的分布向新坐標系中的少數(shù)坐標集中, 集中于少數(shù)的直流或低頻分量的坐標點。 正交變換并不壓縮數(shù)據(jù)量, 但它去除了大部分相關性, 數(shù)據(jù)分布相對集中, 可以依據(jù)人的視覺特性, 對變換系數(shù)進行量化, 允許引入一定量的誤差, 只要它們在重建圖像中造成的圖像失真不明顯, 或者能達到所要求的觀賞質量就行。 量化可以增加許多不用編碼的0系數(shù), 然后再對量化后的系數(shù)施行變長編碼。,3. 離散余弦變換(DCT) 在常用的正交變換中, DCT(Discrete Cosine Transform)變換的性能接近最佳, 是一種準最佳變換。 DCT變換矩陣與圖像內容無關, 是因為它構造成對稱的數(shù)據(jù)序列, 避免了子圖像輪廓處的跳躍和不連續(xù)現(xiàn)象。 DCT變換也有快速算法(FDCT), 在圖像編碼的應用中, 大都采用二維DCT變換。,對于一般圖像, 在二維DCT的變換域中, 幅值較大的系數(shù)集中在低頻域, 圖6-7是一幅圖像上的兩個8×8像素矩陣及其二維DCT系數(shù)矩陣。 圖6-7(a)是背景區(qū)域的一小塊圖像, 它的系數(shù)矩陣左上角的50為DCT系數(shù)的直流分量, 它標志著該像素塊的亮度平均值, 其余系數(shù)皆為零, 說明在變換域中系數(shù)的分布是相當集中的。 圖6-7(b)為細節(jié)較多的區(qū)域里的一小塊圖像, 其系數(shù)的分布集中的程度要差一些。,圖 6-7 圖像塊的DCT變換 (a) 背景部分圖像塊的DCT; (b) 細節(jié)部分圖像塊的DCT,圖 6-8 Z字形掃描,對自然景物圖像的統(tǒng)計表明, DCT系數(shù)矩陣的能量集中在反映水平和垂直低頻分量的左上角。 量化以后, DCT系數(shù)矩陣變得稀疏, 位于矩陣右下角的高頻分量系數(shù)大部分被量化為零。 游程編碼的思想是, 用適當?shù)膾呙璺绞綄⒁蚜炕亩SDCT系數(shù)矩陣變換為一維序列, 所用的掃描方式應使序列中連零的數(shù)目盡量多, 或者說使連零的游程盡量長, 對游程的長度進行游程編碼(RLC, Run Length Coding)以替代逐個地傳送這些零值, 就能進一步實現(xiàn)數(shù)據(jù)壓縮。 常用的Z(zig-zag)字形掃描如圖6-8所示。,游程編碼的方法是將掃描得到的一維序列轉化為一個由二元數(shù)組(run, level)組成的數(shù)組序列, 其中run表示連零的長度, level表示這串連零之后出現(xiàn)的一個非零值。 當剩下的所有系數(shù)都為零時, 用一個符號EoB(End of Block)來表示。,4. 混合編碼 混合編碼是近年來廣泛采用的方法, 這種方法充分利用各種單一壓縮方法的長處, 以期在壓縮比和效率之間取得最佳的平衡。 如廣泛流行的JPEG和MPEG壓縮方法都是典型的混合編碼方案。,6.2 靜止圖像壓縮,靜止圖像是指內容不變的圖像, 也可能是不活動場景圖像或活動場景圖像在某一瞬時的“凍結”圖像。 靜止圖像編碼是指對單幅圖像的編碼。 靜止圖像用于傳送文件、 模型、 圖片和現(xiàn)場的實況監(jiān)視圖像。 實況監(jiān)視每隔一定時間間隔更換一幅新的圖像, 可以不連續(xù)地看到現(xiàn)場的情況, 是一種準實時的監(jiān)視。,靜止圖像編碼有以下要求: (1) 清晰度 靜止圖像中的細節(jié)容易被觀察到, 要求有更高的清晰度。 (2) 逐漸浮現(xiàn)的顯示方式 在窄帶傳輸時為了減少等待時間, 要求編碼能提供逐漸浮現(xiàn)的顯示方式, 即先傳模糊的整幅圖像, 再逐漸變清晰。 (3) 抗干擾 一幅圖像的傳輸時間較長, 各種干擾噪聲顯示時間較長, 影響觀看, 要求編碼與調制方式都有較強的抗干擾能力。,圖6-9是靜止圖像編碼傳輸系統(tǒng)示意圖。 攝像機攝取的全電視信號, 經(jīng)數(shù)據(jù)采集卡捕獲一幀圖像, 數(shù)字化后存放在幀存儲器中。 也可用數(shù)字攝像機直接得到數(shù)字圖像。 編碼器對存放在幀存儲器中數(shù)字圖像進行壓縮編碼, 因時間充裕可采用較復雜的算法提高壓縮比, 保持較高的清晰度。 經(jīng)調制后送到信道中傳輸。 接收的過程則相反, 信號經(jīng)解調、 解碼后送幀存儲器, 然后以一定的方式讀出, 經(jīng)D/A變換后在顯示屏上顯示, 或被拷貝下來。,圖 6-9 靜止圖像數(shù)字傳輸系統(tǒng),靜止圖像的主要編碼方法是DPCM和變換編碼, 由于小波變換編碼在靜止圖像的壓縮中取得了重大進展, 在新標準JPEG2000和MPEG-4中均采用小波變換編碼。,6.2.1 JPEG標準 JPEG是國際標準化組織(ISO, International Organization for Standardization)/國際電工技術委員會(IEC, International Electrotechnical Commission)和ITU-T的聯(lián)合圖片專家小組(Joint Photographic Experts Group)的縮寫。 1991年3月JPEG建議(ISO/IEC10918號標準)“多灰度靜止圖像的數(shù)字壓縮編碼(通常簡稱為JPEG標準)”正式通過, 這是一個適用于彩色和單色多灰度或連續(xù)色調靜止數(shù)字圖像的壓縮標準, 包括無損壓縮及基于離散余弦變換和霍夫曼編碼的有損壓縮兩個部分?;綣PEG算法操作可分成6個步驟, 如圖6-10所示。,圖 6-10 JPEG算法步驟,1. 彩色坐標轉換 彩色坐標轉換是要去掉數(shù)據(jù)冗余量, 不屬于JPEG算法, JPEG是獨立于彩色坐標的。 壓縮可采用不同坐標(如RGB、 YUV、 YIQ等)的圖像數(shù)據(jù)。,2. 離散余弦變換 JPEG采用8×8子塊的二維離散余弦變換算法。 在編碼器的輸入端, 把原始圖像(U、 V的像素是Y的一半)順序地分割成一系列8×8的子塊。 在8×8圖像塊中, 像素值變化緩慢, 具有較低的空間頻率。 進行二維8×8離散余弦變換可以將圖像塊的能量集中在極少數(shù)系數(shù)上, DCT的(0, 0)元素是塊的平均值, 其他元素表明在每個空間頻率下的譜能為多少。 一般地, 離原點(0, 0)越遠, 元素衰減得越快。,3. 量化 為了達到壓縮數(shù)據(jù)的目的, 對DCT系數(shù)需作量化處理。 量化的作用是在保持一定質量的前提下, 丟棄圖像中對視覺效果影響不大的信息。 量化是多對一映射, 是造成DCT編碼信息損失的根源。 JPEG標準中采用線性均勻量化器, 量化過程為對64個DCT系數(shù)除以量化步長并四舍五入取整, 量化步長由量化表決定。,量化表元素因DCT系數(shù)位置和彩色分量的不同而取不同的值。 量化表為8×8矩陣, 與DCT變換系數(shù)一一對應。 量化表一般由用戶規(guī)定(JPGE標準中給出了參考值), 可根據(jù)人類視覺系統(tǒng)和壓縮圖像類型的特點進行優(yōu)化, 并作為編碼器的一個輸入。 量化表中元素為1~255之間的任意整數(shù), 其值規(guī)定了所對應DCT系數(shù)的量化步長。 DCT變換系數(shù)除以量化表中對應位置的量化步長并舍去小數(shù)部分后, 多數(shù)變?yōu)榱悖?從而達到了壓縮的目的。 表6-2和表6-3分別給出了JPEG標準所推薦的亮度量化表和色度量化表。,表6-2 JPEG亮度量化步長,表6-3 JPEG色度量化步長,4. 差分編碼 64個變換數(shù)經(jīng)量化后, DCT的(0, 0)元素是直流分量(DC系數(shù)), 即空間域中64個圖像采樣值的均值, 相鄰8×8子塊之間的DC系數(shù)一般有很強的相關性, 變化應該較緩慢, JPEG標準對DC系數(shù)采用DPCM編碼(差分編碼)方法, 即對相鄰像素塊之間的DC系數(shù)的差值進行編碼能將它們中的大多數(shù)數(shù)值減小。,5. 游程編碼 其余63個交流分量(AC系數(shù))采用游程編碼。 如果從左到右, 從上到下地掃描塊, 零元素不集中, 因此采用從左上角開始沿對角線方向Z字形掃描。 量化后的AC系數(shù)通常會有許多零值。 6. 熵編碼 為了進一步壓縮數(shù)據(jù), 對DC碼和AC游程編碼的碼字再作統(tǒng)計特性的熵編碼, JPEG標準建議采用霍夫曼編碼和自適應二進制算術編碼。,6.2.2 JPEG2000標準 JPEG2000是JPEG工作組制定的最新的靜止圖像壓縮編碼的國際標準, 標準號為ISO/IECl5444(ITU-TT.800), 并于2000年底公布。 JPEG2000主要由6個部分組成。 第一部分為編碼的核心部分, 提供優(yōu)秀的壓縮性能和壓縮靈活性, 提供隨機訪問碼流的機制;,第二部分為編碼擴展; 第三部分為Motion JPEG2000(MJP2000); 第四部分為一致性測試; 第五部分為參考軟件; 第六部分為復合圖像文件格式。,1. JPEG2000采用了小波變換(DWT) JPEG基本算法中的基于子塊的DCT被離散小波變換(DWT, Discrete Wavelet Transform)取代。 DWT自身具有多分辨率圖像表示性能, 它可以在大范圍去掉圖像的相關性, 將圖像能量分布更好地集中, 使壓縮效率得到提高。,一個圖像可以被分成若干大小相等的片(tile), 片的具體尺寸可以由用戶根據(jù)應用需要來決定, 片包括所有的圖像分量, 假設圖像有3個分量(YUV)且圖像被分成4個片, 實際上指的是對應的4個Y片, 4個U片和4個V片, 即每個片由3個分量片組成。 各個分量片獨立編、 解碼, 可以從碼流中單獨提取某個或某些片, 解碼后重建圖像。 這種片劃分和片獨立編碼的機制有利于從碼流中提取和解碼某個圖像區(qū)域。,圖 6-11 DWT對靜止圖像進行三級分解 一級分解示意圖; (b) 二級分解示意圖; (c) 三級分解示意圖,對分量片做不同級別的小波變換, 小波變換的作用是對圖像進行多分辨率分解, 即把原始圖像分解成不同空間、 不同頻率的子圖像, 這些子圖像實際上是由小波變換后產生的系數(shù)構成, 即系數(shù)圖像。 對一個原始圖像或分量片進行3級小波分解的例子如圖6-11所示, 每一級分解都把圖像分解成4個不同空間、 不同頻帶的子圖像(也稱為子帶圖像或子帶分量)。 低頻分量LL(包含圖像的低頻信息, 即圖像的主要特征, 低頻分量可再次分解);水平分量LH(包含較多的水平邊緣信息); 垂直分量HL(包含較多的垂直邊緣信息); 對角分量HH(包含水平和垂直邊緣信息)。,從圖6-11可以看出, 分解級數(shù)越多, 圖像分辨率等級越多, 每一級分解圖像的分辨率降為前一級的一半。 在解碼端, 如果只想得到低于原始圖像分辨率圖像, 就只需對部分的子帶圖像(子帶分量)進行解碼。,小波變換本身并不具有數(shù)據(jù)壓縮能力, 變換前, 原始圖像的數(shù)據(jù)量(像素值的個數(shù))與變換后各系數(shù)的數(shù)據(jù)量(系數(shù)個數(shù))相等, 變換的意義在于使圖像的能量分布(頻域內的系數(shù)分布)發(fā)生了改變, 圖像的主要能量集中在低頻區(qū) (LL區(qū)), 而水平、 垂直、 對角線部分的高頻能量較少。 通過量化, 把大量幅值較小系數(shù)抑制為零, 從而壓縮數(shù)據(jù)量, 要進一步大幅度壓縮數(shù)據(jù)量, 還需進行合適的編碼處理(如算術編碼), 用更少的比特表示那些量化后不為零的小波系數(shù)。,2. JPEG2000同時支持有損和無損壓縮 小波變換可以使用可逆的Le Gall(5, 3)濾波器, 也可以使用不可逆的Daubechies(9, 7)雙正交濾波器。 可逆濾波器支持無損編碼, 不可逆濾波器不支持無損編碼但能達到更高的壓縮比。,3. JPEG2000支持RoI處理 在處理圖像時, 往往對部分感興趣區(qū)域(RoI, Region of Interest)有較高的質量要求, 希望是無損壓縮。 為了得到較高的壓縮效率, 把圖像的其他部分看成是背景, 進行壓縮比較高的有損壓縮。 在傳輸圖像碼流時, RoI區(qū)域可先于圖像的其他部分被傳輸, 如果壓縮碼流被截取, 則在一定程度上可保證RoI的質量。,JPEG2000系統(tǒng)為RoI區(qū)域產生一個RoI模板, 用來標志RoI區(qū)域。 選擇適當?shù)谋壤蜃觭, 將位于RoI模板區(qū)域之外的背景量化系數(shù)的幅值除以2s, 得到的數(shù)值小于RoI模板中最小的量化系數(shù)幅值。 這樣處理后, 位于RoI模板內的量化系數(shù)所處的位平面高于背景系數(shù)所處的位平面, 在進行位平面算術編碼的時候, 先對RoI域中的量化系數(shù)編碼, 然后再對背景系數(shù)編碼。 因為RoI區(qū)域的位平面高于背景區(qū)域, RoI區(qū)域的壓縮碼流位于整個碼流的前端, 當碼流被截斷時RoI區(qū)域中的數(shù)據(jù)在一定程度上受到保護, 保證了RoI的重構質量。,在解碼器端, 將解碼后的量化系數(shù)與RoI閾值相比較, 若小于RoI閾值, 則判定是背景系數(shù), 對其進行反向比例放大, 即乘以2s, 進行恢復, 得到重構時所需的小波量化系數(shù)。,4. 可隨機獲取部分壓縮碼流 JPEG2000系統(tǒng)將碼流分層組織, 每一層含有一定的質量信息, 在前面層的基礎上改善圖像質量。 在網(wǎng)絡上進行圖像瀏覽時, 可先傳送第一層, 給用戶一個較粗的圖像, 然后再傳送第二層, 圖像質量在第一層的基礎上得到改善, 這樣一層一層地傳輸下去, 可得到不同質量的重構圖像。 如果傳輸了所有的層, 則可獲得完整的圖像壓縮碼流。 JPEG2000由于采用了這種思想, 使得壓縮生成的碼流具有質量可分級性和分辨率可分級性。,5. 隨機存取圖像某個區(qū)域 有時只需得到巨幅圖像的部分區(qū)域, JPEC2000標準利用小波變換的局部特性, 可識別部分圖像區(qū)域在子帶上的映射。 每個碼塊是獨立進行編碼的, 通過選取含有此部分圖像區(qū)域信息的碼塊壓縮碼流, 進行解碼, 可以重構出所要的目標區(qū)域。 RoI技術在很大程度上為實現(xiàn)隨機存取碼流提供了一種渠道。,6. 抗誤碼性能 在JPEG2000標準中, 采取了一些措施來提高圖像壓縮碼流的抗誤碼性能。 將量化后的子帶系數(shù)分成若干個小的編碼單元——碼塊, 對每個碼塊進行獨立的編解碼。 這樣, 當一個碼塊的位流發(fā)生比特錯誤時, 只會把錯誤引起的影響限制在本碼塊中。 壓縮碼流數(shù)據(jù)采用了稱為包(packet)的結構單元, 每個包的數(shù)據(jù)前面含有再同步信息, 允許發(fā)生錯誤后重新恢復同步。,7. 視覺頻率加權 在JPEG2000中, 可選擇使用對不同空間頻率有不同敏感度的視覺系統(tǒng)模型。 這一模型用對比度敏感函數(shù)(CSF, Contrast Sensitivity Function)來衡量。 由于CSF函數(shù)是由變換系數(shù)的視覺頻率來決定的, 因此, 給小波變換后的每個子帶, 分配一個CSF值。 CSF值的確定依據(jù)觀察重構圖像的視覺條件而定, 有兩種選取辦法: 固定的視覺加權編碼和視覺累進加權編碼。,固定的視覺加權僅由視覺條件決定。 對分層組織碼流, 由于碼流可以被截斷, 在不同的截斷處, 有不同的質量, 因此進行觀察的視覺條件是不同的。 比如, 對于低比特率的情況,缺少細節(jié), 壓縮圖像質量差, 適合進行遠距離觀察; 隨著比特數(shù)的增加, 細節(jié)越來越多, 壓縮圖像質量逐漸變好, 則適合近距離觀測。 因此, CSF值在不同的截斷處應有不同的值, 這便是視覺累進加權編碼。 在進行視覺累進加權編碼時, 不需改變系數(shù)值或者量化步長, 而是根據(jù)視覺權值, 改變失真矩陣, 計算碼塊對每個層的貢獻, 通過改變碼塊編碼通道在分層組織位流中的順序來實現(xiàn)。,JPEG2000具有的多種特點使得它具有廣泛的應用前景, 由于采用小波變換和最新的壓縮算法, 因此能夠獲得較好的壓縮比, 且對壓縮碼流可進行靈活處理, 如隨機獲取部分壓縮碼流、 累進式傳輸、 實現(xiàn)RoI以及壓縮碼流具有較強的容錯性能等。 這些特點可應用于因特網(wǎng)、 移動通信、 打印、 掃描、 數(shù)字攝像、 遙感、 傳真、 醫(yī)療、 數(shù)字圖書館以及電子商務等方面的圖像壓縮。,身份確認方面, 將身份證頭像照片用高清晰度的數(shù)字相機攝制, 經(jīng)JPEG2000壓縮存儲在數(shù)據(jù)庫中。 在需要進行身份驗證的場合, 驗證終端可以根據(jù)證件代號通過因特網(wǎng)從數(shù)據(jù)庫里直接獲取壓縮的圖像數(shù)據(jù), 在本地迅速恢復出大幅高清晰的頭像照片。,在醫(yī)療方面, JPEG2000編碼器對醫(yī)生指定的病變部位予以無損壓縮, 而對圖像中不影響診斷結果的其他部分采用高達100倍的壓縮率予以視覺可接收壓縮。 壓縮之后的圖像完全保存了疾病特征, 而數(shù)據(jù)量非常小。 醫(yī)生可以把它迅速發(fā)送到千里之外的醫(yī)學專家那里, 并以最快的速度得到權威的確診。,許多著名的圖形圖像公司如Corel、 Pegasus等都開始在新開發(fā)的圖像工具軟件中集成JPEG2000圖像壓縮技術, Microsoft、 Netscape等瀏覽器領域的公司也開始將JPEG2000新技術集成到下一個版本的瀏覽器中。 JPEG2000會在21世紀圖像壓縮領域發(fā)揮重要作用。,6.2.3 數(shù)字照相機 數(shù)字照相機也稱數(shù)碼相機, 是利用靜止圖像壓縮的典型例子, 數(shù)字照相機是光學技術、 微電子技術與數(shù)字信號處理技術相結合的產物。 其基本原理是利用普通照相機的光學系統(tǒng), 把被攝圖像投射到圖像傳感器上, 傳感器把光信號轉化成電信號, 再經(jīng)過模/數(shù)(A/D)轉換、 數(shù)字圖像處理和壓縮, 最終以數(shù)字形式存儲到磁盤、 可移動快閃存儲卡等數(shù)字存儲器中。 圖6-12是數(shù)字照相機結構示意圖。,圖 6-12 數(shù)字照相機結構示意圖,1. 數(shù)碼相機的優(yōu)點 (1) 瞬時顯示攝影效果 數(shù)碼相機的液晶顯示屏在拍攝照片后立即顯示拍攝的效果, 對不滿意圖像可以立即刪去重拍。 (2) 更寬的曝光控制范圍 數(shù)碼相機的成像器件光電靈敏度很高, 在低照度條件下也能夠較好地曝光。 用MOS開關方式控制光電器件的感光時間, 控制最小時間可達微秒級, 在環(huán)境照度很高時, 數(shù)碼相機可以得到合適曝光的圖像。,(3) 圖像逼真 數(shù)碼相機的數(shù)字圖像可直接輸入計算機, 用制造廠商提供的處理軟件進行特技處理。 也可用Photoshop那樣的通用軟件處理。 對于在拍攝過程中出現(xiàn)的諸如色溫、 清晰度、 像差、 曝光量等技術缺陷, 可以通過后處理得到一定程度的修正, 能大大提高所拍攝圖像的質量。 特別是對于光學像差中的畸變, 數(shù)字圖像已經(jīng)有了很好的補償修正手段。 也可以對圖像進行任意的修改、 編輯、 合成、 分解和景物置換等處理。,(4) 圖像通信便捷 數(shù)碼相機以數(shù)字信號的形式記錄影像, 以計算機圖像文件格式保存圖像。 這樣既可以利用最先進的通信手段快速傳輸, 也可以通過Email和網(wǎng)頁在Internet上傳輸, 更可以通過衛(wèi)星地面工作站做超遠距離的圖像傳輸。,(5) 準確復制和長期保存 由數(shù)碼相機得到的數(shù)字影像在復制過程中不存在任何信號損失。 以計算機文件形式保存的數(shù)字圖像可以永久保存在硬盤或光盤中。 (6) 設備簡單處理速度快 數(shù)碼成像系統(tǒng)只需要數(shù)碼相機和通用計算機及其輸出設備即可完成整個圖像制作過程, 設備簡單, 處理速度快。,2. 數(shù)碼相機技術指標 (1) 成像器件像素數(shù) 成像器件的像素數(shù)對數(shù)碼相機的圖像質量起決定性的作用。 目前一般數(shù)碼相機CCD像素數(shù)在300萬以上。 數(shù)碼相機的成像器件像素數(shù)在很大程度上決定了相機圖像的最高分辨率。 分辨率用于評價數(shù)碼圖像的質量, 數(shù)碼相機攝取數(shù)碼照片的分辨率是可選擇的。 數(shù)碼相機的像素指標只有一個, 而所拍攝的數(shù)字圖像的分辨率指標卻可以有許多個, 分辨率越高的照片要求有越大的存儲空間存儲數(shù)據(jù)。,(2) A/D轉換精度 評價數(shù)碼照片的圖像質量除了分辨率外, 還有照片色彩的編碼位數(shù)。 編碼位數(shù)決定了在A/D轉換過程中的精確程度, 一般來說, 24(3×8)位的色彩已經(jīng)相當豐富, 能適應絕大部分的拍攝要求。,(3) 光電傳感器 電荷耦合器件(CCD)傳感器和互補金屬氧化物半導體(CMOS)傳感器是兩類主要的圖像傳感器。 CCD數(shù)碼相機經(jīng)歷了較長的發(fā)展時期, 目前在成像質量、 分辨率上優(yōu)于CMOS, 而CMOS數(shù)碼相機在產品價格, 耗電量等方面又有獨特的優(yōu)勢。 目前高檔專業(yè)型數(shù)碼相機多為CCD型, 廉價普及型數(shù)碼相機多為CMOS型。,近年來CMOS成像器件發(fā)展很快, 已經(jīng)出現(xiàn)百萬像素的CMOS器件, CMOS器件的最大優(yōu)點是把信號放大、 模數(shù)轉換、 數(shù)字圖像處理等電路集成到一塊芯片上, 形成了片上成像系統(tǒng)(Camera on Chip), 這對數(shù)碼相機的小型化、 微型化具有重要意義。 CMOS成像器件通過開關電路進行像素信號傳輸, 使用者可以控制開關電路有選擇地獲取圖像信息, 形成智能像素器件(Active Pixel Sensor), 該器件對于工業(yè)自動化控制, 機器人視覺等領域中的成像系統(tǒng)具有重要的價值。,(4) DSP能力 DSP能力較強的相機能夠較高水平地完成諸如黑色補償、 光照度補償、 缺陷像素修補、 濾色器補償插值、 γ校正、 白平衡、 假彩色抑制等操作, 補償了許多由于硬件所造成的圖像缺陷, 圖像質量達到了較為完善的程度。 越是高檔的數(shù)碼相機, DSP的處理能力越強。 一些數(shù)碼相機還能顯示選單, 可以設定一些DSP圖像處理中的參數(shù), 從而獲得某些特殊效果。,DSP還能從圖像中提取曝光量信息和對焦信息, 以控制鏡頭和快門, 使相機處在最佳工作狀態(tài)。 DSP還能完成圖像壓縮的任務, 好的圖像壓縮算法可以在壓縮圖像存儲量的同時很好地保持圖像細節(jié)的信息, 解壓縮后顯示的圖像與原圖像比較看不出任何區(qū)別。 高的壓縮比可以節(jié)省數(shù)碼相機的存儲空間, 在有限的空間中存儲更多高質量的圖片。 快的壓縮速度可以在相機完成一次曝光以后迅速回到待機狀態(tài), 提高相機的連拍速度。,(5) 取景器 數(shù)碼相機的取景方式有光學取景和LCD取景。 光學取景中有平視取景和通過鏡頭(TTL, Through The Lens)取景之分。 平視取景結構簡單, 但由于取景器光軸與鏡頭光軸不重合, 眼睛看到的景象與實際拍攝景象存在著位置誤差和尺寸誤差, 近距離拍攝時, 誤差更明顯。 TTL取景的取景光軸和成像光軸是重合的, 取景誤差較小, 取景范圍可達到實拍畫面的95%。 專業(yè)級的數(shù)碼相機采用TTL取景方式。,液晶顯示(LCD, Liquid Crystal Display)取景是指利用液晶顯示屏顯示DSP預處理后的圖像。 LCD取景所見即所得, 取景視場精度高。 但LCD取景顯示的像素要遠遠低于CCD/CMOS得到的像素。 LCD取景目前還存在跟蹤速度不快、 對比度差、 視覺失真、 背景光源影響、 視角小等缺點。 大部分數(shù)碼相機都帶有一個LCD取景器與平視取景器互為補充。,(6) 圖像存儲 低檔數(shù)碼相機以內裝存儲器為主, 當存儲器存滿后, 必須暫停拍攝, 要等到存儲的圖像數(shù)據(jù)輸出之后才能繼續(xù)拍攝。 對于存儲卡型的照相機, 只要有備用的存儲卡, 就可以像換膠卷一樣換存儲卡。 PC卡是用得最多的可移動式存儲器, 能插入一個PCMCIA插槽。 有的數(shù)碼相機PC卡是惟一的存儲器, 也有的數(shù)碼相機有內部存儲器, 仍支持PC卡作為擴展存儲器, 存在PC卡中的數(shù)字圖像可以通過PC卡讀取器輸入計算機。,PC卡的優(yōu)點是可以大量存儲照片。 可移動式存儲卡還有閃爍存儲卡(Flash Card), 也采用PC卡標準, 可直接插入便攜式計算機的PC卡插口將信息輸入, 也可用PC卡讀取器輸入計算機。 Compact Flash存儲卡采用標準ATA/IDE接口, 配有專門的PCMCIA轉換卡, 筆記本計算機的用戶可直接在PCMCIA插槽上使用。,3. 數(shù)字圖像處理(DSP) DSP是數(shù)碼相機的主要部件, 所有功能都是由DSP來實現(xiàn)的。 DSP控制著CCD、 A/D轉換器件、 LCD和控制面板。 (1) 暗電流補償 補償?shù)姆椒ㄊ窃谄骷耆诠獾臈l件下先測出各像素的暗電流值, 從拍攝后圖像的像素值中減去相應的暗電流值。,(2) 鏡頭光照度補償 由于鏡頭的漸暈效應, 即使拍攝目標是一個受均勻光照的物面, 成像器件受到的照度仍是不均勻的, 器件邊緣所受的光照度較小, 對于同一鏡頭, 照度差是有固定規(guī)律的, 通過DSP數(shù)字補償, 等效于成像器件得到均勻的照度。,(3) 缺陷像素修補 成像器件的幾百萬個像素中總有一定數(shù)量的疵點, 在完全遮光條件下數(shù)碼相機讀取像素灰度值時, 一些“亮點”就是疵點位置。 通常用插值的方法來實現(xiàn)缺陷像素的修補, 用周圍像素的灰度值推算出缺陷像素的灰度值。,(4) 彩色校正 彩色校正就是通過調整三基色光的增益, 使成像器件的光譜特性與顯示或打印設備的光譜特性一致, 使顯示或打印圖像的色彩更加完美。 通常是通過一個變換矩陣來改變紅、 綠、 藍三基色光的增益, 同時保證白平衡。,(5) 自動聚焦和自動曝光 聚焦圖像比未聚焦圖像的輪廓更加分明, 紋理細節(jié)更加清晰。 聚焦圖像的高頻分量更大一些。 用數(shù)字高通濾波獲取不同焦距時輸入圖像的高頻分量并進行比較, 高頻分量的最大值對應著最佳聚焦。 為了簡化計算, 只對圖像的一部分進行濾波處理就能達到同樣的效果。,自動曝光以圖像平均亮度為參考, 調節(jié)光圈和改變圖像傳感器的曝光參數(shù)。 為了防止亮的背景引起主要物體曝光不足, 暗的背景又使主要物體曝光過度, 根據(jù)主要物體一般位于照片中央這一特點, 將攝取的圖像分成中央和周邊兩部分, 分別計算其亮度, 并加權不同的經(jīng)驗值。,(6) γ校正 數(shù)字圖像的顯示和打印設備中, 像素的灰度值與所顯示圖像中對應的亮度值呈非線性關系。 通過γ校正, 顯示或打印的圖像能夠正確反映被攝景物的灰度值。 (7) 濾色器補償插值 光電器件是通過濾色器得到圖像的三基色信息的, 每個像素只得到了一種基色的信息, 即R、 C、 B(或Cy、 Mg、 Ye、 G)中的一種顏色。 像素的其他顏色就必須由其周圍像素的顏色信息插值得到。,(8) 輪廓增強 濾色器起了低通濾波的作用, 圖像的輪廓變得平滑。 DSP增強圖像的輪廓, 而圖像的噪聲不能被放大。 先找到灰度變化大的輪廓像素, 計算輪廓像素與前一像素的Y分量差值, 將Y分量差值放大并疊加到原像素Y值上。 噪聲造成的假輪廓像素少、 灰度變化小, 要將差值低于設定閾值的假輪廓信號去掉以保證處理后圖像的真實性。,(9) 圖像壓縮 數(shù)碼相機的存儲空間有限, 獲取的數(shù)字圖像必須經(jīng)過壓縮, 以前的數(shù)碼相機采用JPEG標準, 最新的數(shù)碼相機則采用JPEG2000標準用小波變換進行壓縮。,4. 模式控制 數(shù)碼照相機一般提供照相(Camera)、 顯示(Display)和計算機(Computer)三種模式。 在照相模式時, 系統(tǒng)實現(xiàn)拍攝、 處理圖像信息的功能; 在顯示模式時, 可以觀察已拍攝的照片, 有編輯功能可修改照片; 在計算機模式時, 可將數(shù)碼相機的圖像信息傳送到計算機之中。,照相模式要實現(xiàn)曝光控制、 自動對焦控制、 閃光控制、 數(shù)字圖像的獲取以及DSP處理等操作, 有一套完善的控制流程。 數(shù)碼相機在接通電源后首先是對閃光燈系統(tǒng)的主電容進行充電。 相機的各種拍攝方式、 測光方式、 對焦方式、 分辨率、 白平衡等參數(shù)可以進入設置選單進行修改。 在待機狀態(tài)時, 光電傳感器不斷地輸出圖像, 圖像經(jīng)DSP預處理后, 作為曝光和對焦的依據(jù), 對鏡頭進行曝光和對焦的粗調。 同時DSP在預處理后將低分辨率的畫面實時地輸出到LCD顯示屏上, 供攝影者取景。,處于待機狀態(tài)的數(shù)碼相機接到拍攝命令后, 進入拍攝狀態(tài), 相機迅速對曝光和聚焦進行細調, 并鎖定相應的參數(shù)。 若景物照度不夠, 打開防紅眼燈照明; 在快門動作的瞬間進行閃光。 當相機處于自拍狀態(tài)時, 快門動作啟動自拍延時, 通常為8~12 s, 在延時階段給出LED閃爍或蜂鳴聲提示。 在完成一次曝光后, DSP進一步處理所獲得的數(shù)字圖像, 壓縮圖像信息,將剛拍攝的圖像顯示在LCD上, 由攝影者來決定取舍。 當攝影者確認之后, 將圖像存儲在相機的存儲體中, 相機又回到了待機狀態(tài)。,6.3 活動圖像編碼,6.3.1 概述 活動圖像信號, 就是電視信號, 數(shù)字化后的電視信號稱為數(shù)字電視信號。 活動圖像的編碼要求實時和高效。 圖6-13為活動圖像編碼傳輸系統(tǒng)的方框圖。 系統(tǒng)中有兩個傳輸緩沖存儲器, 隨著圖像內容的變化, 活動圖像編碼輸出是不均勻碼流, 與信道的傳輸特性不相適應, 利用緩沖存儲器來存儲數(shù)據(jù)流, 保證數(shù)據(jù)能不間斷地勻速輸出。,圖 6-13 活動圖像數(shù)字傳輸系統(tǒng),不同應用場合對圖像質量要求是不同的, 數(shù)字電視要播出新聞、 體育比賽、 文藝節(jié)目, 對圖像的質量要求很高; 會議電視畫面中人數(shù)少、 運動少、 背景不變, 對圖像質量的要求降低; 而電視電話圖像是單人頭像, 只有臉部表情的變化, 對圖像質量的要求最低。 通常把圖像編碼分為下面幾個應用層次:,(1) 標準數(shù)字電視 圖像分辨率為720×576, 采用ISO MPEG-2標準, 約8 Mb/s的碼率可以達到演播室級的圖像質量要求。 地面廣播時, 采用現(xiàn)代數(shù)字調制技術, 可在一路8 MHz信道傳送4路標準數(shù)字電視。 (2) 會議電視: 圖像分辨率為352×288, 采用ITU-T H.261建議, 碼率為P×64 kb/s(P=1~30), 屬中、 低速碼率的圖像壓縮。 一般認為, 碼率為384 kb/s(P=6)以上時, 圖像質量才比較滿意。,(3) 數(shù)字影碟機等 圖像分辨率為352×288, 國際標準為MPEG-1, 碼率為1.5 Mb/s, 其中約1.2 Mb/s用于圖像, 其余用于聲音和同步。 可達到VHS錄像帶圖像質量。 (4) 可視電話 圖像分辨率為176×144, 采用ITU-T H.263建議, 碼率為64 kb/s以下, 經(jīng)調制解調后, 能在現(xiàn)有的模擬電話線上傳送活動的彩色電視電話圖像, 因此也稱為極低碼率的圖像編碼。,(5) 高清晰度電視 圖像分辨率可高達1920×1080, 具有兩倍于現(xiàn)有標準的水平和垂直清晰度, 采用ISO MPEG-2標準, 碼率約為20 Mb/s。 活動圖像的壓縮編碼利用每幅圖像內部的相關性進行幀內壓縮編碼, 有變換編碼和預測編碼兩種基本類型。 還利用相鄰幀之間的相關性進行幀間壓縮編碼, 主要是運動補償預測和混合編碼。 混合編碼是變換編碼和預測編碼相結合的編碼方法。 H.261、 H.263、 MPEG-1、 MPEG-2和MPEG-4標準都采用了混合編碼方案。,6.3.2 幀間預測編碼 幀間預測將畫面分為三種區(qū)域。 (1) 背景區(qū) 相鄰的幀背景區(qū)的絕大部分數(shù)據(jù)相同, 幀間相關性很強。 (2) 運動物體區(qū) 若將物體運動近似看作簡單的平移, 則相鄰幀的運動區(qū)的數(shù)據(jù)也基本相同。 假如能采用某種位移估值方法對位移量進行“運動補償”, 那么兩幀的運動區(qū)之間的相關性也是很強的。,(3)- 配套講稿:
如PPT文件的首頁顯示word圖標,表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設計者僅對作品中獨創(chuàng)性部分享有著作權。
- 關 鍵 詞:
- CCDCMOS 圖像傳感器 基礎 應用
裝配圖網(wǎng)所有資源均是用戶自行上傳分享,僅供網(wǎng)友學習交流,未經(jīng)上傳用戶書面授權,請勿作他用。
鏈接地址:http://m.italysoccerbets.com/p-2015200.html