王均松,錢家駿,郭亞玲. 翻譯過程研究中的眼動實驗效度:問題與對策[J]. 外國語, 2022, 45(2): 93-101. Junsong WANG,Jiajun QIAN,Yaling GUO. The Validity of Eye-movement Experiments in Translation Process Research: Problems and Solutions[J]. Journal of Foreign Languages, 2022, 45(2): 93-101.
http://jfl.shisu.edu.cn/CN/abstract/abstract624.shtml1 引言
近年來,可重復性(replicability)不僅成為心理學研究的熱議問題(胡傳鵬等2016),也引起了翻譯學界的重視(Olalla-Soler 2020)。實驗結果的可重復性在一定程度上受實驗研究效度的影響(Porte & McManus 2019)。在實驗心理學領域,效度是指實驗方法能夠達到實驗目的的程度,它反映了“實驗結論的真實性程度和有效性程度,是衡量實驗成敗優劣的核心指標”(李欣、石文典2009)。目前,已有學者開始將眼動追蹤技術運用至翻譯過程研究中,并對翻譯眼動實驗研究中存在的方法論問題進行探討(Alves et al.2009; O’Brien 2009; 王一方2017),但鮮有學者針對翻譯眼動實驗的效度(validity)問題進行批判性反思。鑒于此,本文在文獻調研的基礎上,結合我們在實驗過程中的發現,圍繞翻譯眼動實驗效度的影響因素開展研究,以期規范翻譯眼動實驗設計,提升研究質量。
2 實驗效度
實驗效度(validity of experiments)一詞最早由美國著名心理學家Campbell于1957年提出,他將實驗效度分為“內部效度”(internal validity)和“外部效度”(external validity)兩個方面。“內部效度”指自變量與因變量之間關系的明確程度,或者說實驗中自變量的效應能被準確估計的程度;而“外部效度”指當被試、場景、處理、結果測量發生變化時推斷因果關系成立的有效性,即實驗結果能夠被概括推廣到樣本總體和其他同類現象中的程度。Cook & Campbell(1979)對這一分類進行了拓展,他們從內部效度中分離出“統計結論效度”(statistical conclusion validity),從外部效度中分離出“構念效度”(construct validity),進一步豐富和完善了這一分類體系。
自實驗效度的問題提出以來,學者們圍繞實驗效度的影響因素開展了一系列研究和探索(Cook & Campbell 1979; Shadish et al.2002)。其中,Shadish et al.(2002)的研究最為系統和全面,他們繼承和發展了Cook & Campbell(1979)的效度分類體系,并提供了一份詳盡的效度威脅(threats to validity)清單。本文在借鑒前人研究的基礎上,針對翻譯眼動實驗的特殊性,構建了翻譯眼動實驗效度的影響因素框架(見圖 1)。需要指出的是,影響實驗效度的因素紛繁復雜,限于篇幅,本文只列出了與翻譯眼動實驗密切相關的影響因素。下文將對這些因素進行逐一介紹和分析,并提出針對性的控制措施與建議。
圖1 翻譯眼動實驗效度影響因素
3 翻譯眼動實驗效度的影響因素
3.1 內部效度影響因素
在實驗研究中,除了研究者設置的自變量,眾多無關變量也會對因變量產生影響。對這些無關變量的控制就成為決定實驗內部效度的關鍵。總體而言,影響翻譯眼動實驗內部效度的無關變量主要來自以下三方面:
(1) 被試選擇偏差
在翻譯眼動實驗中,被試的選擇是影響實驗內部效度的一個重要因素。除了語言水平和翻譯能力,被試的一些固有的和習得的差異都可能會對研究結果產生一定的影響。一方面,由于眼動實驗的特殊性,被試的某些生理特征對于實驗結果會產生較大的影響。比如,被試睫毛膏(mascara)、眼瞼下垂(droopy eyelids)都會影響眼動數據的收集和數據質量(Holmqvist et al.2011: 177)。另一方面,被試的盲打能力也是影響實驗內部效度的潛在因素。理論上來講,翻譯過程研究選取的被試都應具有良好的盲打能力,但實際上被試之間的盲打能力很難達到完全一致(Hvelplund 2011: 72)。如果被試盲打能力較差,他們在翻譯過程中就會時不時地將目光轉向鍵盤,這不僅會降低翻譯速度,而且會影響眼動數據采集,影響數據質量。此外,工作記憶容量也是影響實驗結果的一個重要因素(Vieira 2014)。在篩選被試的過程中,如果不對這些因素進行控制,那么有可能會出現選擇性偏差,導致被試的個體因素與自變量效應發生混淆,降低實驗的內部效度。
(2) 文本熟悉度與翻譯難度
在翻譯眼動實驗中,實驗材料的選擇是影響實驗內部效度的一個潛在變量。在選取實驗文本時,研究者應首先考慮被試對文本類型和主題的熟悉度,盡量選擇被試都不熟悉的話題,從而減少因話題熟悉程度不同所造成的實驗結果偏差。除了文本熟悉度,文本材料的翻譯難度也是影響實驗結果的一個重要因素。在被試內設計實驗中,研究者往往通過操縱各種自變量(如時間限制、翻譯模式、翻譯方向等)來比較被試在完成翻譯任務時的表現。此類實驗的前提條件是所有任務的材料難度基本保持一致,除非文本的翻譯難度本身就是實驗的自變量。如果實驗文本的翻譯難度不具有可比性,那么就很難確定眼動指標的變化是由實驗設計的自變量還是由實驗材料的不同難度所引發。目前,測量翻譯難度的客觀指標主要是基于源語文本的可讀性指標,但這一指標與翻譯難度之間的相關系數較低(Sun & Shreve 2014: 112)。因此,確定源語文本的熟悉度與翻譯難度也是研究者必須面臨的挑戰之一。
(3) 順序效應與疲勞效應
在重復測量的實驗中,任務的先后順序對實驗結果的影響尤其值得重視。如果研究者沒有對任務順序進行事先設計,所有的被試都采取同樣的任務順序,那么就可能產生順序效應和疲勞效應。一方面,首先完成的翻譯任務不可避免地會對后續開展的任務產生影響,使得后續任務的加工和處理相對容易。多項研究結果表明,實驗任務的順序會對翻譯任務的持續時間產生系統性影響,大多數參與者在執行第一項翻譯任務時會花費更多的時間(Alves et al.2009;馮佳2018)。另一方面,由于翻譯是一項高強度的腦力活動,再加上眼動實驗過程中活動受限,因此如果眼動實驗的任務量大、持續時間較長,被試很容易出現疲勞效應,從而影響他們在完成后續翻譯任務時的表現。
3.2 統計結論效度影響因素
統計結論效度與內部效度密切相關,它主要關注因統計方法適切性引起的結論有效性程度。在數據統計和分析過程中,測量誤差、異常值處理、違反統計條件等都會對實驗的統計結論效度造成較大的影響。
(1) 測量誤差
在評估眼動實驗的測量誤差時,兩個重要參數是空間準確度(spatial accuracy)和采樣率(sampling rate)。空間準確度是指視線的實際落點與眼動儀采集到的位置之間的平均誤差。在翻譯眼動實驗中,實驗材料通常是文本而非單句,而為了提高生態效度,研究者往往會選擇遙測式眼動儀。由于被試可以自由移動身體和頭部,因此很容易產生測量誤差,即注視點很有可能偏離既定的興趣區,落到相鄰的詞、句上,導致系統誤差(systematic errors)。雖然Translog-II采用了注視點和注視詞匹配的算法(Gaze-to-Word Mapping, GWM)來減少系統誤差,但翻譯眼動實驗中的系統誤差仍然普遍存在(Carl 2013)。如圖 2所示,被試注視原文第一行的注視點被錯誤地匹配到了原文第二行,如果研究者想考察原文第一行某一個興趣區的譯文質量和該興趣區對應的認知努力之間的關系,那眼動數據的系統誤差勢必會影響這兩個變量之間的關系。而采樣率是指眼動傳感器每秒采集眼球圖像的次數。一般而言,眼動儀的采樣率越高,采集的眼動數據越豐富,數據的精度也會越高;而眼動儀的采樣率越低,越容易忽略兩個采樣點之間的眼動細節特征,尤其是微眼跳或其他微小的注視細節。雖然在翻譯眼動實驗中,眼動儀的采樣率沒有統一要求,但有一點可以肯定,即采樣率如果低于150Hz則會影響統計的效應量(effect size)(Holmqvist et al.2011: 30)。
圖2 Translog-II中眼動數據的系統誤差(Carl 2013)
(2) 異常值處理
根據Baayen(2008: 27)的定義,異常值(outliers)是指所有數據中異常偏大或偏小的數據點(data points)。目前在翻譯過程研究中,還沒有統一的眼動數據異常值處理標準,剔除異常值很大程度上取決于研究者的個人經驗。在翻譯眼動實驗過程中,可能會出現由于被試沒有看眼動儀屏幕或身體移動范圍過大導致無效數據比例較高,或觀測值異常偏小。不同研究者對于屏幕注視時間(Gaze Time on the Screen, GTS)所設定的最低閾值(threshold)有較大的差異,有的研究者將最低標準定為70%(O’Brien 2009: 257),有的研究者將最低標準定為40%(盧植、孫娟2018),還有一些研究者則剔除落在樣本均值左側1個標準差以外的數據(Hvelplund 2011: 104)。在剔除過短注視點的標準上,研究者們的做法也不盡相同,一些研究將最短注視時長(minimum fixation duration)的標準定為100毫秒(如歐盟EYE-to-IT項目;Hvelplund 2011: 110),而使用Translog-II收集到的眼動數據,進行在線或離線注視點與詞匹配的過程中,則自動剔除70毫秒以下的注視點(轉引自馮佳2018: 105)。在剔除異常偏大數據點方面,有的研究者采用模型診斷(model criticism)的方法(Baayen 2008: 188),剔除標準化殘差的絕對值超過2.5倍標準差的數據點(Vieira 2014);而有的研究者則基于箱線圖(box plot)在擬合模型前便剔除異常偏大的數據點(Sun et al.2020: 141-142)。異常值處理方法的不同不僅會影響實驗的統計結果,而且會造成研究結果間可比性不強。
(3) 違反統計條件
除了測量誤差和異常值處理方式,統計方法的選擇也會對實驗結果產生較大的影響。在認知心理學實驗中,析因設計(factorial design)和方差分析(ANOVAs)是最常用的統計分析方法和手段。但是,上述方法的前提條件是實驗中的無關變量可以得到嚴格的控制,因而較適用于嚴格的實驗設計。而翻譯過程研究往往采取準實驗設計,為了盡可能提高生態效度,眼動實驗往往在較為自然的情境下開展,這使得研究者很難對實驗中相關變量進行嚴格的控制。如果不考慮無關變量的干擾,直接采取析因設計和方差分析,那么就很難排除實驗結果的顯著差異是由無關變量(如被試的個體差異、實驗材料的翻譯難度等)引起的可能性。另外,翻譯眼動實驗通常會面臨數據丟失的情況(如被試看鍵盤,導致注視屏幕時間偏低),出現許多缺失數據(missing data)。對于不平衡的實驗數據,如果只使用方差分析,那么可能會影響實驗結果的準確性(Baayen 2008: 265)。
3.3 外部效度影響因素
外部效度主要反映實驗結果的代表性和適用性,翻譯眼動實驗外部效度的影響因素包括以下三方面:
(1) 被試數量有限①
被試數量太少是目前眼動研究存在的普遍性問題。一般而言,在量化研究中,被試人數越多,樣本量越大,研究結論就越具有代表性和適用性。但是,在翻譯過程研究中,眼動實驗的被試人數普遍較少。其主要原因在于,在實驗材料或興趣區數量本身就相對較大的情況下,每增加一名被試都會產生大量眼動數據,而且與眼動追蹤結合使用的其他記錄方法(如鍵盤記錄)也會產生大量行為數據。繁重的數據處理和分析任務使得研究者不得不盡可能減少參與實驗的被試人數。然而,用較少的被試數量完成大量實驗材料得出的結論并不等同于使用大量被試完成少量實驗材料得出的結論,因為前者的結論傾向于推廣至實驗材料總體,而后者的結論更傾向于推廣至被試的總體(Balling & Hvelplund 2015: 173)。近年來,翻譯眼動實驗的被試對象數量有所增多(如馮佳2018),但是總體仍然偏少, 如Vieira(2017)的研究僅有19名被試參與了眼動實驗,這在一定程度上影響了實驗結論的外部效度。
(2) 實驗情境人為性
由于種種條件的限制,翻譯眼動實驗中的實驗材料和任務要求往往與真實情境下的翻譯活動并不一致。一方面,在翻譯眼動實驗中,由于種種限制,源語文本材料的篇幅都過短(英語源文本通常少于200詞)。然而,翻譯篇幅如此短小的文本在翻譯活動中并不常見。尤其在職業翻譯領域,職業譯者往往以項目形式開展翻譯活動,翻譯文本的篇幅往往在數萬甚至幾十萬字/詞以上,需要花費幾天甚至是數周的時間才能夠完成。因此,這種基于簡短或節略文本得出的實驗結論很難推廣到實驗以外的大多數情境(O’Brien 2009: 261-262)。另一方面,為避免外部資源使用對眼動數據收集和分析的干擾,眼動實驗一般不允許被試使用詞典、語料庫、網絡搜索引擎等外部資源。然而,除非在進行測試的情況下,很少有譯者會在沒有任何外部資源輔助的條件下開展翻譯。Hvelplund(2017)的研究發現在線資源查詢行為在整個翻譯過程中的占比高達25%。可見,盡管從簡化眼動數據收集和分析的角度來看,“不使用外部資源”的要求具有一定的合理性,但從這種“純凈”數據記錄中得出的發現和結論的代表性和適用性有待商榷。
(3) 實驗處理的變異
在實驗研究中,研究者們可能會采取相同的實驗處理,但是同一種實驗處理可能會存在不同的水平或條件上的變異(treatment variation),這種變異不僅會影響實驗結果,而且會影響實驗結論的推廣性。同樣的情形也存在翻譯眼動實驗研究中。比如,在考察機器翻譯譯后編輯認知努力的研究中,有的研究者要求被試進行完全譯后編輯(full post-editing),盡可能多地使用機器翻譯的初始譯文,避免偏好性修改(preferential changes)(如Carl et al.2015);而有的研究者雖然也要求被試做完全譯后編輯,但并沒有告知被試要避免偏好性修改(如Vardaro et al.2019)。雖然都是進行完全譯后編輯,但是由于具體要求有所不同,因而調查得出的眼動數據也存在一定的差異。因此,研究者必須根據特定的實驗條件做出有限推論,否則就可能出現過度概括實驗結論的現象。
3.4 構念效度影響因素
構念效度主要涉及操作性定義和構念之間的匹配程度,翻譯眼動實驗構念效度的影響因素主要體現在以下兩方面:
(1) 被試界定過寬或過窄
在翻譯眼動實驗中,研究者經常會招募不同經驗水平的被試(如翻譯新手、職業譯者、半職業譯者)進行對比研究。但是,目前學界對譯者的身份界定缺乏統一標準,加之譯者這一概念本身也具有模糊性,這使得研究者們只能根據各自的標準進行界定,可能出現被試代表性過寬或過窄的現象。比如,職業譯者可能是一個具有十年全職翻譯經驗的自由譯者,也可能是一個剛到翻譯公司工作不滿一年的畢業生,雖然二者都可以被稱為職業譯者,但是他們無論是在能力還是經驗方面都相差甚遠(O’Brien 2009: 254)。再如,在界定半職業譯者時,有的研究者提供的操作性定義為“接受過職業化的翻譯訓練,且臨近畢業的碩士生”(Krings 2001: 2);而有的研究者界定較為寬泛,即“必須有3年以上的業余翻譯經驗,但不具備全職翻譯經驗”,因此一些畢業之后從事兼職翻譯的被試也歸為半職業譯者(鄭冰寒2012: 135)。一般而言,如果被試的操作性定義過窄,解釋的范圍就越小,普遍性也就越小;而如果操作性定義過寬,失之籠統,則研究結果易流于偏狹。
(2) 測量指標的有效性
在翻譯過程研究中,測量認知努力的常見指標包括注視時長、注視次數和瞳擴值等(劉艷梅等2013)。然而,大多數眼動指標只能反映認知活動的某個側面,而且指標變化受一系列因素的影響,僅憑某一類指標對譯者的認知努力大小進行推論具有一定的風險性。比如,Hvelplund(2011: 221-224)曾嘗試驗證譯者分配在平行加工過程中的認知資源是所有加工類型中最少的這一假設,雖然注意單位時長(AU duration)這一指標結果與假設一致,但總注意時長(TA duration)并不完全支持上述假設。又如,在英譯漢過程中譯者的認知資源分配模式研究中,王一方、鄭冰寒(2020)發現,就目的語處理的認知注意力所占比例方面,眼-鍵指標與被試的主觀反省數據的發現相反。其中一個可能的原因是在英譯漢過程中,被試在中文輸入框中選詞的眼動數據也被認為是目的語處理過程中的認知加工。因此,僅僅根據單一種類眼動指標或僅用眼動指標推測譯者的認知努力有可能會導致實驗結論不可靠。
4 翻譯眼動實驗效度的控制
提高實驗效度的目的是確保研究結論的準確性和有效性,因而在實驗設計和實施時要盡可能控制威脅實驗效度的各種因素。本文在前人研究的基礎上,結合我們所做的系列翻譯眼動實驗,建議從以下幾方面采取措施:
(1) 規范實驗設計,嚴格控制無關變量,提高實驗內部效度。
要提高眼動實驗內部效度,關鍵的問題在于控制無關變量,盡量排除某些伴隨著自變量變化的無關變量的混淆。在翻譯眼動實驗設計時,研究者可以預先將可能影響實驗結果的變量排除于實驗條件之外,盡量避免或控制這些潛在的威脅。首先,嚴格篩選實驗對象,確保被試眼部生理結構和矯正視力正常,不會影響數據的收集。同時,根據實驗設計,盡可能使被試在除自變量以外的其他變量保持相等或接近。比如,通過問卷或測試調查被試的專業背景、翻譯經驗、語言水平、盲打能力、工作記憶容量等,并根據調查結果對被試進行篩選和分組。其次,在選取實驗材料時,為了防止由于翻譯難度不同而造成與自變量效應發生混淆,研究者要考察被試對源語文本類型和主題的熟悉度,確保不同任務材料在難度上具有可比性。在操縱翻譯難度這一變量時,既可以采取客觀指標(如可讀性公式、詞頻、非字面意義表達的數量),也可以邀請專家對翻譯難度進行主觀評分。再次,在重復測量的實驗設計中,研究者可采取抵消平衡法(counter-balancing methods),如拉丁方設計(Latin square design),以減少潛在的順序效應和疲勞效應。
(2) 擴大被試數量,減少實驗人為因素,提升研究結論的推廣性。
目前,翻譯眼動實驗的被試數量普遍較少,在一定程度上限制了實驗結論的推廣性。為了克服這一弊端,研究者可通過計算統計效力來確定實驗的樣本量(胡傳鵬等2016),也可以利用現有翻譯眼動實驗數據庫進行研究。在這方面,Michael Carl與Arnt Lykke Jakobsen的做法值得借鑒,該團隊開發的“翻譯過程研究數據庫”(簡稱CRITT TPR-DB)收集了大量的翻譯過程行為數據,并采用了統一標準進行加工和標注,這使得研究者不僅可以對同一實驗的數據進行不同層次和維度的分析,還可在不同語言對間進行對比研究。但需要注意的是,被試數量不是越多越好,因為樣本量過大會使一些細小的效應也變得顯著,導致出現一類錯誤(Type I error)(Holmqvist et al.2011: 86)。另外,為了提高實驗的外部效度,后續研究在開展翻譯眼動實驗時應盡量減少人為因素,使實驗情景接近于自然。首先,選取實驗材料時要遵循“真實性”和“完整性”的原則,盡量避免刪減或修改。其次,為了保證翻譯過程在真實、自然的情境下進行,主試應允許被試使用各種在線資源。在這方面,研究者可以參照Cui & Zheng(2021)的做法將屏幕分為兩個區域,其中左側區域供原文呈現和譯文輸入,右側區域設置為瀏覽器界面供譯者查詢檢索。最后,盡量選用對翻譯活動干擾較小的遙測式眼動儀進行數據采集,同時在實驗過程中,主試要與被試保持一定的距離,盡量減少提醒的次數,避免出現“霍桑效應”(Hawthorne effect)。
(3) 提高眼動數據質量,合理利用統計分析手段,確保統計效度。
眼動實驗結束后,研究者可以通過數據篩選和統計建模等手段來排除無關變量的干擾,提高統計效度。一方面,在收集眼動數據之后,研究者首先需要對眼動數據進行篩選,以避免數據質量不佳而影響實驗結果。翻譯過程研究通常會采用平均注視時長(Mean Fixation Duration, MFD)、屏幕注視時間(Gaze Time on the Screen, GTS)和凝視/注視比(Gaze Sample to Fixation Percentage, GFP)等指標來衡量眼動數據的質量,但這些指標僅僅能滿足興趣區為原文區或譯文區的情況。如果興趣區在句子或句子以下層面,那么就有必要對注視點偏移現象進行核查和修正,并根據回放的掃視路徑(scanpath)剔除精確度較差的眼動數據(Holmqvist et al.2011: 34)。另一方面,實驗結束后,研究者還可以運用統計分析手段對影響實驗結果的無關變量進行控制。近年來,越來越多的研究者開始在翻譯眼動實驗研究中采用混合效應模型進行統計分析(Balling & Hvelplund 2015)。相比于方差分析,混合效應模型更適合于準實驗研究,其優勢在于既可以考察自變量引起的固定效應(fixed effects),也可以考察被試和實驗材料的隨機效應(random effects)。通過建立混合效應模型,研究者也可以將那些預計可能對實驗結果有影響而又難以嚴格控制的因素作為協變量(如任務順序)納入到統計模型中(吳詩玉2020)。
(4) 準確界定實驗變量,靈活選擇測量指標,確保實驗操作與理論構念的一致性。
在翻譯眼動實驗研究中,被試的代表性和測量指標的有效性是影響構念效度的關鍵因素。一方面,鑒于目前學界對于譯者身份缺乏統一的界定標準,研究者需要在研究設計中對被試做出準確、具體的操作性定義。如果采用“職業譯者”“半職業譯者”“翻譯新手”等術語或標簽,界定時需要參考前期研究中的標準,并提供具體的量化指標或條件,如翻譯年限、周/日翻譯量、翻譯質量反饋、全職還是兼職等。然而,關于職業化(professionalism),目前學界仍缺乏一套科學的量化指標(Nitzke 2019: 268)。另一方面,在測量指標的選擇上,研究者需首先明確不同眼動指標反映認知努力的有效性和局限性,避免使用單一眼動指標(尤其是不穩定的瞳擴值)進行推論。為了得到比較可靠的研究結果,研究者可以考察多項指標對實驗結果進行多元互證,同時還可以結合被試譯后即時回溯報告來進行檢驗,從而確保眼動數據可以恰當地反映研究構念。
5 結語
近年來,隨著翻譯眼動實驗研究的迅速發展,實驗效度的重要性也日益凸顯。本文重點探討了影響翻譯眼動實驗效度的各種潛在因素,并嘗試提出了一些應對措施和建議。但是,這還只是一個初步的策略系統,有待進一步豐富和完善。例如,若主試允許被試使用外部資源,那被試分配在原文區和譯文區的注意資源總量與不允許被試使用外部資源的情況是否有顯著差異?實驗效度的影響因素十分復雜,一些因素在前文中雖未提及,但也有可能對實驗效度造成潛在的威脅。例如,從認知工效學角度來看,原文區和譯文區的不同布局模式(即以上下布局和左右平行布局)是否會對眼動數據產生影響?另外,在選取因變量進行統計建模時,原文區或譯文區注視時長和注視次數的相對值(即占總興趣區的比例)與絕對值之間對實驗結論的影響有何差異,還有待進一步探索(馮佳2018)。這些問題與實驗效度密切相關,建議后續研究針對上述問題開展實證研究,從而推動翻譯眼動實驗的不斷成熟和發展。
① “被試數量有限”也可以歸為統計結論效度影響因素,而此處主要關心的是翻譯眼動實驗的結果是否可推廣至被試總體。
6 參考文獻
略。