第四章 影像邊界之視覺表徵
第一節 前言
一、視覺系統所需解決的問題
視覺系統的最終功能便在於處理:「什麼東西在哪裏?」的問題。而分辨「什麼東西?」與分辨「在哪裏?」的問題,在層次上是息息相關的。欲辨識一個視覺物體,視覺系統必須有能力將該物體由所在的背景當中區分開來,而當同一背景上有許多分離的物體存在時,視覺系統也必須對每個物體有適當的位置編碼(location code)方能區辨每個個體。由此看來,欲處理「什麼東西在哪裏?」的問題,視覺系統至少得先解決兩件事:一為圖形—背景的分割問題(figure-ground segmentation),另一則是任意影像特徵的位置編碼問題。本文將簡要地回顧目前吾人所知的行為及電生理研究的證據,並由視覺影像的內在表徵(representation)及其相關的計算理論之角度著手,嘗試來了解視覺系統如何達成上述兩件工作。
二、表徵問題的重要性
要了解一個像視覺系統這般高度複雜的消息運算處理器,首先我們必須嘗試對其功能及結構兩個層面做定性及定量的分析研究,然而對一個複雜的系統而言,由硬體結構所得的知識往往無法使我們直接預測其功能層次的行為。例如僅由研究一個微電腦的晶片結構,我們很難看出它如何做到像Word 6.0這般多功能的文書排版處理,欲連結結構及功能這兩個極端的落差,我們還必須知道一個系統在中間過程當中,對於它所接受的輸入資訊做了哪些加工處理,以及這些加工處理包含了哪些步驟等問題。在計算理論中,我們將這些為了達到某個功能上的目的所採取的各種中間程序稱之為「演算法則」(algorithm),例如「對一個範圍有限的訊號作積分」這樣的一件工作,我們可以採取解析式(analytical)的作法,先找出可以合理地描述這個訊號的數學式,再循一般微積分教科書的步驟將式子簡化後求解。我們亦可採取數值方式(numerical)的作法,以合理的頻率定期觀測該訊號,再累計所有觀測值的總合以求得解答。甚至,我們也可以選擇適當的能量轉換器(transducer),將訊號轉換成電流大小變化的形式,再用電阻及電容所構成的積分電路來求得電位差值(即為積分結果)。以上所有的作法均能達到我們所要求的目的,然而每個作法所採行的步驟可以南轅北轍。由這些例子當中也可以明顯地看出:運算法則的形式強烈地受到硬體條件的規範,一個積分電路毫無能力處理符號式的演算,而我們也無法將電流通過一位數學家,再量測他身上的電壓值做積分運算。這個例子所欲突顯的另一個重點是:資訊在一個運算過程中所被表達的形式(亦即該資訊在該運算過程中的表徵),強烈地受到演算法則種類的規範,在解析式的積分運算中,我們關心的訊號必須表達為數學式的形式;在數值運算的過程中,同樣的訊號則被表達成一連串離散(discrete)的數字;而在積分電路中,該訊號則又必須以電流大小的形式出現,所以一旦我們選擇了某一種演算法則,我們同時也限定了資訊在此演算過程中的表徵方式,由於演算法則與表徵兩者之間的這種依存性,由相反的角度來看,我們若能得知一個系統對於其所處理的資訊之內在表徵,則我們也可以對其演算法則做出相當有把握的推測,因而可望能對結構與功能之間的對應關係產生更為深刻的認識。對於功能、演算法則、表徵、以及結構等等問題之關聯性的進一步探討,請參閱Marr(1982)的經典著作。
三、本文的目的及範圍
本文的思考路徑即遵循上述的邏輯,企圖由分析視覺訊息在不同處理階段的表徵方式來探討視覺系統如何在既定的生理結構上完成圖形辨識的工作。因篇幅所限,在本文中所探討的圖形邊界(boundary)僅限於以明暗對比(luminance contrast)所定義的一級邊界(first order boundary),以及明暗所衍生出來的單眼(monocular)及靜態(static)的次級邊界(second order boundary)(一級及次級邊界將在下文當中定義),其他常見的邊界定義線索,如色彩、運動速度、雙眼像差等等的表徵問題不在本文的討論範圍之中。另外,就生理結構的層次而言,囿於吾人現有的研究證據,我們也只能由網膜討論至主要視覺皮質區(primary visual cortex,簡稱為V1),以及V1的下一站—V2為止,更高階的皮質區域也不在本文的範圍之內。
第二節 有關視覺邊界的理論問題
一、一級邊界與次級邊界之區分
任何可以定義物體形狀的邊界必然在視覺訊息處理的某個階段中形成如圖4-1b所示的內在表徵。圖4-1a的例子為一正方形的圖形,為了能夠與其背景區隔開來,落在方形界內的區域必須在此表徵中的某個向度上(圖4-1b中的Z軸)產生與背景不同的活動水準(activation level)(圖4-1b)。這個區分圖形與背景的向度可能是很基本的,如明暗、色彩或是閃動頻率的差異等等,在網膜的視覺受器的階段即能產生圖4-1b所示的表徵。此向度也可能是比較複雜的,無法在網膜的處理階段區分背景與圖形,而需對圖形與背景區域所登錄的基本量(上述的明暗、色彩等值)做某種轉換(transform)之後,方能突顯出兩者在此向度的差異,例如圖4-1c中的圖形與背景的平均明暗程度相同,我們無法直接以明暗差別將兩者分離開來(圖4-1d),但是我們可輕易看出兩塊圖形與背景表面的區別,顯見視覺系統對這類刺激尚得做進一步的處理。由於必須做額外的轉換,這類向度所定義的邊界往往要到大腦皮質以上的區域才能形成圖4-1b所示的表徵,屬於這類的例子有質感(texture)、雙眼像差(binocular disparity)、運動速率等線索所定義的邊界。我們在此武斷地以視覺受器能否處理為標準,將上述基本向度所定義的邊界稱為一級邊界,而複雜度較高的情形稱為次級邊界。請注意:以定義次級邊界的向度為基礎,尚可衍生出更高級的邊界,如雙眼像差變化速率的差異亦可形成一個高級的邊界,不過就本文的目的而言,將邊界分類為基本與衍生,或一級與次級即足夠了,級數愈高的邊界在自然情況下發生的機率愈低,且往往伴隨級數較低的邊界出現,我們暫可忽略不計。
二、點對點映射的組織原則(topographical organization與局部標記(local sign)的觀念
將任何訊息轉換到某種形式的表徵,難免會漏失掉一些內容或產生某些程度的失真,一個良好的表徵必須能夠保存住關鍵性的特徵,或是提供事後補救失真的可能性,對於忠實表達物體影像的目的而言,最關鍵的特徵為該影像的拓樸特性(topological properties),簡單地說,亦即一個影像當中各個部件之間,不管其距離的相對空間位置關係。在平常的攝影時,外界物體的影像是投射在平面的底片上,在平坦的影像平面(image plane)上的物像,是原始影像依一個比例尺放大或縮小的結果,也就是說,若A'與B'為物體上A、B兩點在影像平面的投射,則對任意的A與B而言:
AB/ A'B'=k,其中k為常數。——
然而假設影像平面不是二維的,而有曲度的變化時,式的結果便不成立,它必須改寫為:
AB/ A'B'=f(r)。——
其中r為該影像平面上的空間向量。
式的涵義是在此情況下,對物體上任意兩點間的距離要放大或縮小多少倍,均取決於這兩點在物像上的位置。雖然這時候物像上點與點之間的距離不再以固定的方式對映於物體上的兩點距離,但是每個點與其鄰近的點之間相對的上下左右關係是不變的。我們稱此不變的關係為拓樸恆定性。一個影像的表徵若保持原本影像的拓樸特性,理論上我們只要對式中 f(r) 有充份了解,即可還原原本的影像。
由於眼球的內壁為一不完美的球面,物體影像在視覺消息處理的第一站,即已喪失與真實物體之間的線性對映,這個偏離線性對映的問題隨著每一次表徵的轉換而變得更為嚴重。例如視覺受器在網膜上的分布密度極不均勻,在中央小窩(fovea)裡,錐細胞(cone)的密度極高,然而一離開中央小窩,其密度便衰減得相當快。假設我們將一個英文字母A成像在網膜上,則網膜上的視覺受器(以六角形之單元表示)與該字母的關係如圖4-2a所示。由此圖可看出,中心位置處的視覺受器面積較小,排列較為緊密,愈往週邊去,其面積愈大,排列愈疏鬆。由於單位影像面積所刺激到視覺受器數目與其排列密度成正比,而單位影像面積在下游的表徵中所占的份量又與它所涵蓋的細胞數目成正比,因此這個字母在視覺受器階段的表徵應該類似圖4-2b,顯現出誇大中央區域,縮減周圍區域的效果(請注意圖4-2a與圖4-2b中的兩個英文字母A為拓樸等價〔topologically equivalent〕)。
這種因抽樣不平均所造成的空間表徵扭曲,在由網膜到視丘(thalamus)到大腦皮質(cortex)的傳遞路徑中,一站又一站地被更加誇大。圖4-3所顯示的是圓周以等比級數漸次擴大的圖形,上半圖是在視覺皮質V1區的表徵,下半圖所標示的數字可用以比對V1空間表徵與實際物理空間的差異,由此例中可以看出原本以等比級數遞增的距離在V1中大約變成等差級數的關係,然而儘管在V1的空間表徵有如此巨大的扭曲,它仍維持和原始圖形的拓樸相似性。我們可將圖4-3的上半圖視為在網膜上成像的圖形,而下半圖則為該圖形經過輾轉的轉換過程後,到達V1的結果,比較這兩者,我們可以得知在網膜上相鄰的兩點投射至V1時,仍保持相鄰的關係(雖然之間的距離可能已經改變了),這表示由網膜至V1之間神經細胞的連結保持著一種點對點映射的組織原則(topographical organization),這個表面看來平淡無奇的組織方式,其實是一個十分令人驚異且尚未完全被了解的謎團。這種由網膜到大腦的點對點連結並不是在基因中就事先規劃定址好的,而是在神經發展的過程中逐漸建立起來的,網膜上約10億個的視覺受器(φsterberg, 1935)如何在V1上約50億個的細胞(J.S. Lund, R.D. Lund, Hendrickson, Bunt & Fachs, 1975)中各自找到正確的目標,是目前視覺神經發展研究當中極欲探討的課題(Shatz & Sretavan, 1986)。
點對點映射的組織原則可以確保同一個物像在不同層次的表徵中均保持拓樸恆等,然而要標定物體在視野中或物像在網膜上的精確位置,尚需一個條件——亦即視覺系統必須登錄網膜上每個受器的位置,因而在每個不同層次的表徵中,任意一點都可以追溯其網膜映射的來源,而找到該點的位置身份。這個觀念稱為局部標記(local sign),早於一百多年前即已被提出(Lotze, 1886),而在晚近的視覺計算理論中又重新體認到其重要性(Marr, 1982; Shapley, Caelli, Grossberg, Morgan & Rentschler, 1990)。
第三節 一級邊界的表徵
假如視覺系統和一般攝影機或電腦繪圖卡的運作方式相同,則只要它具備了上述點對點映射的組織以及局部標記的特性,就足以解釋它對所有邊界的表徵性質。點對點的映射組織表現在電腦繪圖卡上,就是其視訊記憶體(video RAM)上每個鄰近的位元組對映到螢幕上鄰近的圖素(pixel)上,而局部標記的特性則表現在視訊記憶體上的每個位元組均可定址(addressable),因而螢幕上每個圖素的座標值亦隨之可決定。任何圖像在此架構中均可用每個座標位置上圖素之明暗值來表示,而邊界即可由兩個明暗不同的鄰接面來定義。然而由圖4-1c的例子即可看出,這樣的表徵方式無法顯示出次級邊界的存在,甚至由底下的例子中我們也可看出:即便是一級邊界,視覺系統的表徵方式也遠比這個架構複雜。
一、顯露一級邊界特性的例子
Troxler's effect
圖4-4中的圖形比背景明亮,在一般情況下我們很容易將它與背景區分開來,然而假設我們遮住一隻眼睛,以另一隻眼睛盯著圓形的中心看,盡量控制眼睛不要移動,則只需幾秒鐘的時間,這個圓形就融在背景中消失了。假若邊界是以鄰近面的明暗差別來定義的話,我們便無法解釋這個現象的發生。
Mach band
圖4-5當中可分為三個區域,即左邊的明亮區、右邊的黑暗區以及中間一塊亮度逐漸由左遞減到右的地帶。圖4-6所示的是這個圖形亮度的輪廓圖。我們仔細觀察圖4-5的圖形會發現在中間區段與右邊黑暗區交界的地方有一道比其他黑暗區還要暗的地帶,同樣的在中間區段與明亮區交界的地方也有一道比其他明亮區還要明亮的地帶(圖中箭號所指處)。這兩條額外的亮帶與暗帶是我們的錯覺,不存在於物理刺激中,這個圖形稱為 Mach band (Mach, 1865; Ratliff, 1965)。這一個錯覺也同樣無法以上述的簡單架構來解釋。
Chevreul illusion
下一個例子與Mach band 極為類似。在圖4-7當中的每一道灰色垂直帶的明暗都是均值的(homogeneous),然而在每一個區域與鄰近區域的交界處我們都可以觀察到,較亮區域的邊界顯然比它的平均值來得更亮,然而較暗區域的邊界則要比該區的平均值更暗(Chevreul, 1890; von Bekesy, 1968; Ross, Holt & Johnstone, 1981)。Craik-O'brien Cornsweet effect
在上面兩個例子當中,定義邊界的鄰接面之明暗差,強烈地影響到我們對邊界的感覺,而在這個例子當中,我們將可觀察到相反的作用,亦即局部邊界的強烈對比會影響我們對「面」的明暗值判斷。圖4-8的中央有一道明暗對比強烈的邊界,而在邊界左右兩邊的兩塊區域具有相同的明暗值,然而在我們的主觀感覺中我們會覺得左邊區域要比右邊區域明亮(Craik, 1940; O'brien, 1958; Cornsweet, 1970)。
以上的例子都無法以點對點映射的組織以及局部標記的概念加以解釋。很顯然地,視覺系統對於邊界的表徵並非只是記錄鄰近面的明暗差異而已。在Troxler's effect 的例子中(圖4-4),區分圖形與背景的邊界變化得相當平緩,而由我們的觀察中可發現視覺系統對於這類變化平緩的邊界極不敏感,而在 Mach band(圖4-5和4-6)、Chevreul illusion(圖4-7)的例子中我們則發現視覺系統對於明暗的交界地帶會有過度反應(overshoot)的現象,產生明的變得更明,暗的變得更暗的結果。在 Craik-O'brien Cornsweet effect 的例子當中我們則觀察到,在邊界處引入人為的過度反應或是強烈對比效果,會連帶影響到視覺系統對「面」的表徵,使我們對「面」的明暗值判斷產生誤差(圖4-8)。整體而言這些例子所透露的訊息是:視覺系統對於邊界的表徵是強調「界」而不重視「面」。即使對邊界,它也有不同的敏感度,傾向於加強銳利邊界的對比而抑制變化過於緩慢的邊界(Todorovic, 1987; Ross, Morrone & Burr, 1989; Morrone & Burr, 1994)。
我們可以以訊號處理的觀點來重新解讀上述的結論。由傅立葉定理我們知道所有的訊號(包括我們所討論的各種邊界在內)均由許多頻率不等的正弦波組合而成,缺乏變化的面或是變化平緩的邊界是由較低頻的正弦波所組成,變化快速的邊界則除了低頻的成份外,還包含許多高頻的正弦波,因此我們可以說視覺系統在處理邊界時偏好較高頻的成份,對低頻的頻率不敏感。由於這種對不同頻率有選擇性偏好的特性,使我們可以用頻率濾器(frequency filter)的觀點來理解邊界的表徵。
二、一級邊界在網膜上的表徵
在此我們必須回顧一下視覺訊號在離開視覺受器的階段後所經過的變化。在網膜上視覺受器直接連結到兩極細胞,在中央小窩區域,每個視覺受器只直接投射到一個兩極細胞,然而兩極細胞還接受另一類水平細胞的輸入。水平細胞位於視覺受器與兩極細胞交界的地方,它們往上接受幾個視覺受器的輸入,往下則連結到兩極細胞。圖4-9便以簡圖描述這三類細胞的相對關係。注意由視覺受器到兩極細胞之間的連結為興奮性的,而水平細胞與兩極細胞之間的連結則為抑制性的。兩極細胞直接連接的主要視覺受器只有一個,但透過水平細胞可以間接聯絡到數目及範圍較大的視覺受器。我們可以圖4-10所示的兩個高斯函數(Gaussian Function)的差異(difference of gaussians, 簡稱DOG)來描述一個兩極細胞由與它有連接關係的視覺受器所得到的淨效應。正方向的高斯函數範圍較窄,代表的是與兩極細胞直接連接的視覺受器的貢獻,負方向的高斯函數範圍較寬,代表的是所有間接與此兩極細胞連接的視覺受器的作用總合。圖4-10的 DOG 函數即為一個典型兩極細胞的接受域(receptive field)之模型,藉著調整正負方向高斯函數的相對高度及標準差,我們可以合理地描述大部分兩極細胞在生理研究中所顯示出的接受域特性。
DOG 函數的頻譜呈現中通濾器(bandpass filter)的特性,選擇性地對某一個中等頻率範圍的正弦波反應,對於頻率太高或太低的正弦波不敏感。由於變化平緩的邊界缺少低頻以外的成份,因此不會引起這類細胞的反應,這與我們的觀察結果吻合。要定量描述一個 DOG 函數時,除了標示其正負方向高斯函數的高度與標準有一半的視覺受器到兩極細胞的連結為抑制性的,在這類例子當中水平細胞與兩極細胞之間的連結即為興奮性的。在此僅強調兩極細胞所接收到的兩種輸入作用方向相反。卻只有接受域特性滿足加成(additivity)法則的細胞才能以此模型描述,Kaplan與Shapley(1982)以及Enroth-Crugell與Robson(1966)另外發現有其他非線性細胞的存在,然而這些非線性細胞的主要功能可能不在於分析處理明暗定義的邊界。差之外,也可以由描述其中通特性著手,標定其頻寬(bandwidth)與中心頻率(central frequency)。在實際實驗中,後者的作法往往比前者精確且容易,下文談到 V2 電生理實驗時,便須借重這個觀念。
由視覺受器對圖形的表徵轉換到兩極細胞對同樣圖形的表徵可用一個數學運算——捲積(convolution)來模擬。假設視覺受器階段的表徵大致忠於圖形的結構,那麼在兩極細胞的表徵即為該圖形與DOG 函數的捲積,一個圖形與DOG函數的捲積,和該圖形的一次微分結果類似。我們可以用這個方式探討上述幾個例子在這個表徵上的特性。圖4-11所示即為 Mach band 與一個DOG 函數的捲積結果。由這個結果可以觀察到與我們主觀感覺一致的反應過度現象。圖4-12為Chevreul illusion的圖形與同樣的DOG 函數的捲積結果,我們可以得到同樣的結論。在圖4-13當中我們以同樣大小的DOG函數對圖4-4當中的Troxler's effect 圖形做捲積,所得到的邊界感覺微乎其微。最後我們在圖4-14中比較一個具有真實明暗差異的邊界以及 Craik-O'brien Cornsweet effect 圖形與一個DOG 函數的捲積結果。這兩者極為類似,反應在我們主觀的感覺上,我們也傾向於將這兩種圖形視為一類,因而造成錯覺的明暗差異。
由於對邊界的最終處理不可能止於網膜的階段,我們必須關心在網膜階段的表徵所具備的特性是否維持到腦皮質以上的階層,否則上述的分析將不具任何意義。上述兩極細胞接受域的特性在其下游的節細胞(ganglion cells)及視丘的外膝狀體(LGN)的階段均無重大改變,直到主要視覺皮質區V1時,其結構才產生顯著的變化。
三、一級邊界在主要視覺皮質區的表徵
由兩極細胞至LGN階段,視覺神經的接受域均呈圖4-10所示的輻射對稱的同心圓狀,然而在V1階段,典型接受域的形狀往往沿某一個旋轉軸方向延長,而形成對該軸對稱的長條狀(見圖4-15)。原先輻射對稱的DOG函數對於任何方向的邊界均會產生反應,但是像V1接受域這樣對特定軸對稱的結構,則只會對與該軸平行的邊界產生最佳反應,對其餘方向的邊界則極不敏感。在圖4-16當中即為幾個不同的V1細胞對同一種圖形所產生的反應,請注意每一種細胞僅選擇性地標出與它方向相同的邊界,這意味著在V1階段視覺系統必須整合各種不同方向的反應才能得到完整的邊界表徵。在兩極細胞所見的重界不重面的性質在V1的表徵中仍然維持(因此我們對上述幾個錯覺的解釋仍然成立),明暗變化緩慢的區域幾乎沒有任何反應,只有在適當方向的邊界處才有高度集中的反應。
由上圖中的例子我們很容易將某個特定的 V1 細胞視為對某個特定方向的邊界反應的邊界偵測器。這樣的看法只能說局部正確(只適用於一級邊界的情況)。事實上 V1 細胞接受域的結構除了可以偵測特定方向的邊界之外,也同時扮演對刺激頻譜內容做選擇性反應的線性濾器(V1 細胞和兩極細胞一樣為中通濾器,參見第一章)。對於一級邊界的處理而言,我們不太容易體會將 V1 視為線性濾器的重要性,然而在下文中我們將可以看出線性濾器在次級邊界的表徵上所扮演的角色。
第四節 次級邊界的表徵
一、次級邊界在主要視覺皮質區的表徵
在圖4-1c當中所舉的次級邊界的例子無法以像V1細胞這類線性偵測器直接標定其邊界,在此我們可以探討將V1細胞視為線性濾器對這類邊界的分析有何幫助。首先我們必須了解任何影像均可以表達為各種二維正弦波的組合,所有構成一個影像的正弦波的集合便稱為這個影像的頻譜。當我們稱一個細胞為線性濾器時,意指這個細胞只會對整個頻譜當中的一部分正弦波反應而忽略其他的成份。V1細胞的接受域可用Gabor函數來描述(Gabor, 1946; Dougman, 1980)。當我們要了解一個細胞對頻譜當中哪個範圍的正弦波反應時,我們可以將描述其接受域的Gabor 函數做傅立葉轉換。Gabor函數的傅立葉轉換為一高斯函數,而這個高斯函數在頻譜當中的位置,則決定於該細胞所偏好的旋轉軸及其中央興奮區的大小。由於不同的V1細胞具有不同粗細的中央興奮區以及不同旋轉軸的偏好,因此整體來看,V1細胞會散布在不同頻譜的空間位置上,占據大小不同的面積。將所有的V1細胞所涵蓋的頻譜範圍整合起來,即可以相當忠實地還原出一個影像的頻譜全貌(參見第一章圖1-20)。由網膜上的DOG函數轉變到V1區域的Gabor函數,也反映了皮質階段的細胞對頻譜內容的選擇性變高的事實,DOG函數的頻譜仍為(中心在原點—零頻處的)DOG函數,因此對各種方向(orientation)的正弦波均有反應。在頻寬相同的前提下,一個Gabor函數的頻譜只是一個DOG頻譜中的一塊切片,在頻譜上的占地面積較小。這個頻率領域上的解析力提昇,對於次級邊界的分析有非常重要的貢獻。
此外,由神經生理及解剖的研究當中我們得知V1形成極為有秩序的功能模組(functional modules),在每個網膜上的點在V1均有數目不等的模組與之對應。在每個模組裡均包含對各種不同的空間頻率及旋轉軸反應的細胞。也就是說,網膜影像的任意一點在V1均有一套完整的線性濾器(或邊界偵測器)對它做分析。由這個角度來看,在V1階段對視覺影像的表徵是像圖4-17所示的模式,在此表徵的每一個座標點上均有一個由所有不同細胞的反應為分量所構成的向量。這樣的向量表徵可以成功地解決圖4-1c和圖4-1d當中的次級邊界問題。
在圖4-1c的例子中,我們若計算平均的明暗值或是細胞平均的反應量,會得到圖形與背景區域沒有差異的結果,因為兩者的平均明暗值相等,但是圖形與背景的頻譜則有相當程度的差異,而且此差異會表現在V1的表徵中。假如我們在V1的表徵中隨意取落在圖形範圍內的某個反應向量以及另一個落在背景範圍的反應向量做比較,雖然這兩個向量的所有分量總和近乎相等,但是我們若將每對對應的分量的差取絕對值累加起來,其總和必然不為零。從另一角度看,圖形範圍的向量與背景範圍的向量會在空間上指向不同的方向,延伸不等的距離,兩向量端點間的距離即為圖形與背景的對比。我們若對圖形範圍及背景範圍內的每個點均計算其對應的向量,就可以將圖形與背景的反應轉換成圖4-1b中的表徵模式。
這樣的計算方式可以用來預測各種不同質感之間的可辨性(discriminabili-ty),愈容易辨識的一對質感圖形與背景,其計算所得的差異便愈大。第五章中的圖5-15便是檢驗這個理論的實徵結果。在這個實驗當中,我們選取了十六種不同的質感以及一個由隨機點所構成的背景。在每個實驗嘗試中,我們呈現一對貼在同一個背景上的質感,要求受試者判斷哪一邊的質感與背景的分離感覺較強。蒐集所有可能配對的情況所得的資料後,我們可以利用統計方法計算出這十六種質感與這個共同背景的相對分離強度。在該圖中灰色曲線所代表的就是由實驗數據中所得的各個質感與背景的區分程度,而黑色及白色曲線所代表的則是我們依據上述的方法所計算出的理論值。兩組資料的相關極為顯著,r=.92。若以DOG函數來作模擬,所得的結果與實驗資料的相關只有 r=.75,可見V1階段的表徵(而不是更早以前)才是處理次級邊界的基礎。
二、次級邊界偵測器
上述實驗結果只是顯示我們似乎找到一個可行的方法,將原本不易區分背景與圖形的表徵方式轉換為的表徵。由我們對一級邊界的討論中我們知道:即使像是由明暗差別所定義的基本邊界,其表徵也遠比圖4-1b的模式複雜,同樣的情況也適用於次級邊界。圖4-18所示的是一個次級邊界所構成的Craik-O'brien Cornsweet effect(Nothdurft,1990)。圖4-18a中央區域的線段之平均角度與背景無異,只有在邊界的地方有強烈的線段角度對比。但在我們的主觀感覺中,我們同樣很難區分這樣的圖形與另外一個真正具有角度差異的圖形的差別。當除掉邊界處的線段對比時(圖4-18b),圖形與背景之間的分別即不復存在。其他高階 Mach band、Chevreul illusion 的例子也在晚近的文獻中有詳盡的報導(Lu & Sperling, 1996),這些例子強烈地暗示當V1的線性濾器將次級邊界轉為圖4-1b當中的表徵之後,還有更高階的細胞對這個表徵做邊界偵測的工作。
與形狀處理有關的V1細胞主要投射至V2細胞(Livingstone & Hubel, 1987a,b)。過去的研究中有許多證據指出V2細胞與若干高階(higher-order)邊界的處理有關(von der Hydt & Peterhans, 1989),因此我們設計了以下的實驗來探討V2細胞是否負責偵測V1表徵上的邊界的工作。由於在V1表徵上的邊界是由頻譜的差異來定義的,因此偵測這類邊界的細胞必須對單位空間上的頻譜變化敏感。圖4-19顯示的是這個實驗中所採用的兩類刺激。第一類刺激是由頻譜的差異所定義的邊界(圖4-19a),圖中所示的例子中,右半邊的區域是由能量侷限在特定的頻率範圍(band-limited),且座落在垂直方向軸的雜訊所構成的,左邊的雜訊之頻寬與右邊相同,然而方向位在水平軸上。我們可以調整由右邊頻譜轉變到左邊頻譜所需的距離,以控制邊界的變動梯度(gradient),圖4-19a中為三個梯度由左至右依次遞減的例子。由於V1細胞的行為像是線性濾器,我們可預測一個偏好垂直正弦波的細胞只選擇性地對右邊的區域反應,而忽略左邊的區域,而且假若左右兩邊的頻譜改為其他方向的話(例如135° 之於45°),該細胞則對兩個區域均不反應。而假若V2細胞如我們猜測一般,是一種針對V1表徵的邊界偵測器,則該細胞應該只對兩個面交接的邊界處反應,而對兩邊任一個別區域皆無反應;而且理想上,即使我們改變左右兩邊的頻譜,其對邊界的反應應不會隨之改變。
第二類的刺激則是由頻譜變化所構成的正弦波(圖4-19b),圖中所示的為三個頻率及相位相等,而振幅(對比)由左至右依次遞增的例子。如同兩極細胞在一級邊界的情況一般,假若我們能定量地決定一個V2細胞對這類刺激反應的頻寬及最佳頻率,我們便能定性及定量地推導出這個高階邊界偵測器的接受域特性。
這個性質並非高階偵測器的必要條件,理論上V2也可能對左右兩邊頻譜的任一種組合發展出專屬的邊界偵測器,然而這似乎是相當不經濟的作法,在神經發展的過程中也必須牽涉較複雜的歷程。
我們由三隻貓的area 17(相當於獼猴及人類的V1區域)及area 18(相當於獼猴及人類的V2區域)中記錄細胞對這兩類刺激的反應(麻醉狀態下,單一細胞記錄〔anesthetized, single unit recording〕),總共有36個area 18細胞完整地接受所有的反應記錄,另外有17個area 17細胞及16個area 18細胞只接受第一類刺激(邊界刺激)的實驗。所有area 17細胞的行為均如預期,只選擇性地對其偏好頻譜所在的面反應,如圖4-20所示。而且就任一邊界的梯度而言,一個細胞由其偏好的一側越過邊界之後,在其非偏好側延伸多遠的距離內還有反應,可相當準確地由於第二類刺激係對一群中通雜訊(bandpass noise)的頻譜位置(亦即其平均方向角)做正弦調變(sinusoidal modulation),且area 17細胞反應的對象為此雜訊的頻譜,一般而言,貓的area 17細胞的偏好頻率在0.2-2.5cpd(cycles per degree)之間,在我們實驗的設置中,1度視角相當於77個螢幕像素,而螢幕解析度為1024x768 pixels,一個調變正弦波的週期又必須涵蓋12種不同的方向角,在螢幕能容納的範圍下,雜訊的頻率無法低於1.4cpd左右,致使大部分的area 17細胞皆無法得到有效的第二類刺激。以該細胞的方向角偏好函數(orientation tuning function)來預測。
很不幸地,以上對area 18細胞反應的推論在這系列的實驗結果中,並未得到完全的支持。在所有52個(36+16=52)接受邊界刺激的細胞中,只有5個細胞在邊界處產生顯著的反應(反應量大於左右兩邊反應標準差的3倍),而有35個細胞的反應與area 17細胞相同,選擇性地對單邊頻譜反應,其餘細胞對這類高階邊界不反應。在這5個選擇性地對邊界反應的細胞中,有3個細胞也接受了第二類的刺激,圖4-21為這3個細胞對這類高階正弦波頻率的偏好函數。由於螢幕大小及圖形顯示卡(SUN TAAC graphic accelerator with 8M VRAM)解析度的限制,我們所能選擇的頻率數目有限,以致每個細胞只有三個頻率的取樣點,然而大體上已看得出每個細胞的頻率偏好。假若一個area 18細胞確實是V1表徵上的邊界偵測器,那麼它對一個高階正弦波的反應直條圖(post stimulus histogram)應該忠實地反映該正弦波的時間頻率(temporal frequency),因此其反應中的AC成份應大於DC成份(關於AC、DC成份及細胞反應的線性程度之相關說明,請參見〔陳,民84〕),圖4-21中最下方的細胞明顯地表現出DC反應大於AC的情形,因此即使這個細胞在第一類刺激中表現的像是高階邊界偵測器,由其反應的進一步分析可顯示該細胞不是我們在上文中所討論的線性邊界偵測器(注意:只有線性邊界偵測器才能解釋圖4-18中的Craik-O'brien-Cornsweet effect)。
由這麼低的出現比率,我們很難宣稱在area 18已找到了高階邊界的偵測細胞。有幾個可能的原因導致這個結果:雖然貓的area 17的細胞之生理特性與靈長類的V1細胞相似(Hubel & Wiesel, 1962; 1968),但是area 18的生理研究數量仍有限,目前尚不清楚該區的功能與靈長類V2 區域是否能相提並論,例如von der Hydt 等人在獼猴的V2 區域所發現的illusory contour 偵測器(von der Hydt & Peterhans, 1989),就尚未有在area 18發現類似細胞的報導出現。此外,area 17 、area 18 與V1、 V2的解剖構造也有若干已知的差異,例如靈長類的LGN到大腦皮質的投射幾乎完全集中於V1,沒有LGN到V2的直接投射;而貓的area 18則直接接受相當份量的LGN投射(Hoffman & Stone, 1971; Stone, 1972; Bullier & Henry, 1979a, 1979b, 1979c; Henry, Harvey & J. S. Lund, 1979)。在靈長類的V1、V2中以染色劑標示一種脢—Cytochrome oxdase,會顯示出井然有序的結構(Tootell, Silverman, De Valois & Jacobs, 1983; Livingstone & Hubel, 1984),然而同樣的染劑無法在貓的area 17、area 18中標示出明顯的結構。這些結構及功能上的差異可能反映出這兩類物種在處理高階邊界時的不同策略。
在行為層次的資料方面,獼猴的各種視覺功能均與人類極為類似(De Valois, Morgan, Polson, Mead & Hull, 1974; De Valois, Morgan & Snodderly, 1974),而在與邊界處理最相關的對比靈敏度函數(contrast sensitivity function),貓與獼猴及人類的能力有明顯的不同(6-8 cpd v.s. 60 cpd)(Smith, 1936; Blake, Cool & Crawford, 1974; Jacobson, Franklin & McDonald, 1976; Bloom & Berkley, 1977; Mitchell, Giffin & Timmey, 1977; Vandenbussche & Orban, 1983)。由於貓的高頻處理能力顯著地低於人類,而本文所討論的次級邊界又必須以高頻頻譜的差異來定義,很可能在行為層次上,貓即無法清楚辨識本實驗所用的部分刺激。
由於貓的視覺細胞普遍偏好低頻刺激,使得我們所設計的第二類刺激動輒超出我們的硬體設備所能顯示的範圍,如此一來便大大地限制了我們所能取樣的頻率數目,因而顯示不出部分細胞的全盤特性。
以上幾點問題若以獼猴為實驗對象時,均可避免或降低其嚴重性。很明顯地,這個實驗的下一階段必須以獼猴為材料來進行。
第五節 結語
一個影像的視覺表徵,由網膜上的視覺受器到兩極細胞、節細胞、LGN,乃至於V1的階段,經歷了若干次數的轉換。在這些轉換過程中,由於點對點映射的組織方式及局部標記訊息的保留,使得影像的拓樸特性能由網膜維持至V1及更高層次的皮質區中。
對於一級邊界而言,在兩極細胞的階段便被類似DOG函數的邊界偵測器轉換為等方性(isotropic)的微分結果,亦即只保留在局部範圍內變動迅速的訊息,棄在局部範圍內變動不大的部分。此等方性的表徵在V1被轉換為非等方性(anisotropic)的形式,使得不同方向的變動訊息被拆解開來,由不同的細胞群負載不同方向的消息。由頻譜的角度來看,這階段的轉換無疑地提高了V1細胞對於頻譜內容取樣的解析力,而由正文的討論中,我們可知這個解析力的提昇為視覺系統處理次級邊界的一個關鍵因素。
在V1階段,次級邊界以座標點上的頻譜內容的方式登錄(就如同一級邊界在視覺受器階段以座標點上明暗高低的方式登錄一般),以這個表徵形式為基礎的電腦模擬可以相當準確地預測我們對各種質感的區辨力。然而種種證據指出:類似微分過程的邊界對比偵測器也作用在這個表徵上,因此在V1下游的皮質區必能以電生理的手段找出這類高階邊界偵測器。
雖然在貓的area 18所得到的結果仍不明朗,在後續的實驗中若以獼猴為對象,應可得到更為明確的結果。
演算法則 algorithm
一級及次級邊界 first order and second order boundary
內在表徵 representation
拓樸恆定性 topological invariance
視覺 vision
視覺皮質區 visual cortex