漢字字頻統(tǒng)計方法的改進的策略(2)
時間:
若木1由 分享
三、漢字字頻統(tǒng)計存在的主要問題
盡管漢字字頻統(tǒng)計取得了諸多重要的研究成果,但是,由于受漢字自身的復(fù)雜性以及漢字信息處理技術(shù)的局限性等因素的影響,目前的漢字字頻統(tǒng)計還存在很多問題,影響了字頻統(tǒng)計的質(zhì)量。其問題主要表現(xiàn)在以下幾個方面:
1.近些年來多數(shù)漢字字頻統(tǒng)計依據(jù)的是電子語料庫,這些電子語料庫建庫目標(biāo)主要是為語言研究服務(wù)的,加之計算機字庫收字的限制,在把紙質(zhì)文本轉(zhuǎn)換成電子文本的過程中未能保持文字使用的原始狀態(tài),影響到統(tǒng)計結(jié)果的客觀性。比如,1956年1月28日國務(wù)院全體會議第23次會議通過了《關(guān)于公布〈漢字簡化方案〉的決議》,1956年1月31日《人民日報》全文發(fā)表了國務(wù)院的《關(guān)于公布〈漢字簡化方案〉的決議》和《漢字簡化方案》,在此之前報刊圖書主要使用繁體字(偶爾也用簡體字)。1955年12月文化部和文改會聯(lián)合發(fā)布了《第一批異體字整理表》(以下簡稱《一異表》),要求從1956年2月起在全國實施,這之前異體字未經(jīng)整理。1977年12月20日《人民日報》、《光明日報》、《解放軍報》及各省、市、自治區(qū)一級報紙發(fā)表中國文字改革委員會《第二次漢字簡化方案(草案)》,12月21日《人民日報》開始試用《第二次漢字簡化方案(草案)》第一表的簡化字,1978年7月停止試用這批簡化字,1977年12月21日至1978年7月之間《人民日報》等曾經(jīng)用過“二簡”的字。而北京語言學(xué)院語言教學(xué)研究所1986年編的《漢字頻率表》使用了1956年1月31日前的資料,如1951年1月31日的《人民日報》、1955年出版的《田漢劇作選》、1954年至1955年在《獨幕劇選》上發(fā)表的何求的《新局長到來之前》、1952年人民文學(xué)出版社出版的茅盾的《子夜》的第五、第十九章、1955年人民文學(xué)出版社出版的老舍的《駱駝祥子》第十六章、1953年人民出版社出版的巴金的《家》第一、第三十八章、1955年人民文學(xué)出版社出版的巴金的《春》第一章等,卻沒有出現(xiàn)繁體字⑨。使用了1956年2月《一異表》實施前的大量資料,卻沒有出現(xiàn)異體字。以1951年1月31日的《人民日報》為例,該日報原版中有繁體字“對”、“裝”、“數(shù)”、“會”等,而《漢字頻率表》有“對(頻序60、頻次5138)”、“裝(頻序435、頻次841)”、“數(shù)(頻序286、頻次1325)”、“會(頻序32、頻次7075)”,而沒有“對”、“裝”、“數(shù)”、“會”等。該日報紙中有《第一批異體字整理表》中被淘汰的異體“遊(舊字形)”、“鎻”、“週(舊字形)”、“誌”等,而《漢字頻率表》有“游”、“周”、“志”等正體,有“鎻”的正體“鎖”的簡化字“鎖”,而沒有“遊”、“鎻”、“週”、“誌”等。該日報原版中文字有舊字形,而《漢字頻率表》中的字均為新字形。推測《漢字頻率表》的研制者在測查文本時按當(dāng)時的規(guī)范修改了原始文本,用規(guī)范字替換了不規(guī)范的字。這種測查結(jié)果顯然不能準(zhǔn)確反映社會用字的實際情況。又,國家語言資源監(jiān)測與研究中心編《中國語言生活狀況報告(2005)》(下編)的《調(diào)查報告》中明確指出:“報紙文本是從網(wǎng)絡(luò)下載的,沒有與紙質(zhì)版本作比較。”又說:“本次統(tǒng)計不包括以下兩種字符:(1)漢字部件。共有25個,計529字次,主要出現(xiàn)在報紙語料或網(wǎng)絡(luò)語料中。包含以下兩類情況中:①講解漢字中用到的偏旁部首,如‘言語的“語”這個字旁邊是個“讠”字旁’。這種部件共出現(xiàn)四個:亻、辶、宀、讠。②拼字,大部分出現(xiàn)于人名、地名,如‘講述人劉亻思亻思,14歲,樹德試驗中學(xué)’、‘本市寶坻區(qū)林亭口鎮(zhèn)帳房瞿阝村農(nóng)民’、‘廣東中山南(艸朗)(上下結(jié)構(gòu))鎮(zhèn)橫門港碼頭彩旗飛揚’、‘20歲的廣西姑娘小(崩刂)昨天回廣州了’。(2)亂碼和無法顯示的字符。這些字符共出現(xiàn)765個,計23221字符次,占整個語料字符數(shù)的0.0026%。”⑩根據(jù)作者的自述,本次統(tǒng)計不是依據(jù)原始的紙質(zhì)文本,而是依據(jù)電子文本,并且電子文本并未與紙質(zhì)文本校對,因此,電子文本轉(zhuǎn)錄錯誤的未加改正。受轉(zhuǎn)錄者使用的計算機編碼字庫的限制,字庫中沒有的字,在電子文本中或用拼字表示,或用替代符號,或根本無法顯示,均不能統(tǒng)計。(舉例中出現(xiàn)的偲、、蓈、剻四個字在《報刊、廣播電視、網(wǎng)絡(luò)用字總表》中也都未收錄。)
2.未能嚴(yán)格規(guī)定統(tǒng)計單位,或規(guī)定的統(tǒng)計單位不一致,影響到統(tǒng)計結(jié)果的科學(xué)性,不同的統(tǒng)計結(jié)果也無法進行比較。前面提到的北京語言學(xué)院語言教學(xué)研究所編的《漢字頻度表》、北京航空學(xué)院計算機科學(xué)與工程系和國家語言文字委員會漢字處研制的《現(xiàn)代漢語字頻統(tǒng)計表》、李波著《史記字頻研究》以及北京書同文數(shù)字化技術(shù)有限公司編寫的《古籍漢字字頻統(tǒng)計》均未明確界定統(tǒng)計單位。只有收錄在《中國語言生活狀況報告(2005)》中的《報紙、廣播電視、網(wǎng)絡(luò)用字總表》的調(diào)查報告中對統(tǒng)計單位有粗略的說明:“字種數(shù):8128個。這里的字種,指字形不同的漢字。”(11)這里無論是用的“字種”這個術(shù)語,還是“字形不同的漢字”,這樣對字種的解釋,表意都不夠明確。首先,使用的字種這個術(shù)語與學(xué)術(shù)界一般的用法不同。周有光在《現(xiàn)代漢字學(xué)發(fā)凡》一文中曾用具體實例區(qū)別“字次”、“字種”和“字形”三個術(shù)語,他指出:“‘從群眾中來到羣衆(zhòng)中去,是一條群眾路線的原理’。這個句子里有幾個字?甲答:20個字。乙答16個字。丙答:18個字。為什么答案不同?甲講的是‘總字次’,有一個算一個。乙講的是‘字種數(shù)’,同字異形合并計算。丙講的是‘字形數(shù)’,同字異形分別計算。”(12)他在《現(xiàn)代漢語用字的定量問題》一文中又指出:“‘定量’是定‘字種’的總量。一個漢字可以繁簡不同,形體不同,但是屬于同一‘字種’,以‘正字’為標(biāo)準(zhǔn)。”(13)沙宗元在《文字學(xué)術(shù)語規(guī)范研究》一書中根據(jù)周有光的研究設(shè)立了“字形數(shù)”和“字種”兩個術(shù)語,并分別給出了定義,他給“字形數(shù)”下的定義是:“根據(jù)漢字字形而不考慮其繁簡、正異等字際關(guān)系進行統(tǒng)計所得出的漢字?jǐn)?shù)量。”給“字種”下的定義是:“一個漢字即使有多個繁簡體、異體字,也只作為一個來計算的漢字統(tǒng)計單位。”(14)該文中所定義的兩個術(shù)語也存在不匹配的問題。跟“字種”匹配的術(shù)語是“字形”,跟“字形數(shù)”匹配的術(shù)語應(yīng)是“字種數(shù)”?!秷蠹垺V播電視、網(wǎng)絡(luò)用字總表》中用的字種大致相當(dāng)于周有光所說的字形。在實際操作中,《報紙、廣播電視、網(wǎng)絡(luò)用字總表》繁簡字、異體字、新舊字形都作為不同的統(tǒng)計單位來統(tǒng)計的。在該表統(tǒng)計的8128個統(tǒng)計單位中包括繁體字361個,異體字193個,舊印刷字形47個,另有不合現(xiàn)行規(guī)范的類推簡化字7個。
前面提到的那些未對統(tǒng)計單位作出明確規(guī)定的統(tǒng)計,在實際操作中所用的統(tǒng)計單位各不相同。
北京語言學(xué)院語言教學(xué)研究所編《漢字頻度表》的統(tǒng)計單位大致是按照周有光定義的字種來操作的,統(tǒng)計的語料中包含繁簡字、異體字和新舊字形,統(tǒng)計結(jié)果中有個別異體字和錯誤類推簡化字,但未見繁體字和舊字形,應(yīng)該是用簡化字替代了繁體字,用新字形替代了舊字形。統(tǒng)計出的異體字,包括《一異表》收錄的異體字,如,並(276)、并(1766);黏(1719)、粘(2495);渺(2321)、淼(4336)等;《一異表》未收的異體字,如,沙(649)、砂1756;衖(1901)、巷(2034)等;錯誤類推簡化字,如,4475號“垅”(2189壟);4174號飚(當(dāng)是技術(shù)錯誤)。
《中國語言生活狀況報告(2005)》中的《報紙、廣播電視、網(wǎng)絡(luò)用字總表》的統(tǒng)計單位近似于周有光的字形,繁簡字、異體字、新舊字形均作為不同的統(tǒng)計單位進行統(tǒng)計。表中收錄繁體字361個(15),異體字193個(16),舊字形47個(17)。
統(tǒng)計單位的不明確、不統(tǒng)一,不僅影響到字頻統(tǒng)計的科學(xué)性,也不利于統(tǒng)計結(jié)果的正確、有效使用。
四、漢字字頻統(tǒng)計的改進
根據(jù)上述情況分析,我們認(rèn)為必須加強字頻統(tǒng)計的理論研究,完善統(tǒng)計原則,改進統(tǒng)計方法,提高字頻統(tǒng)計的客觀性和科學(xué)性。
首先,要實現(xiàn)字頻統(tǒng)計的客觀性,必須建設(shè)滿足文字學(xué)研究需要的字料庫。所謂字料庫“是指以文字的整理和文字學(xué)的研究為目標(biāo),按照語言學(xué)和文字學(xué)的原則,收集實際使用中能夠代表特定文字或文字變體的真實出現(xiàn)過的文字書寫形態(tài),運用計算機技術(shù)建成的具有一定規(guī)模的大型電子文字資源庫。字料庫是在大規(guī)模真實文本的基礎(chǔ)上生成的真實的文字書寫形態(tài)的有序集合,是利用計算機對文字形體進行各種分類、統(tǒng)計、檢索、綜合、比較等研究的基礎(chǔ)。”(18)只有根據(jù)字料庫的原則建設(shè)字料庫,基于字料庫進行漢字的字頻統(tǒng)計,改變以往基于語料庫進行字頻統(tǒng)計的做法,才能解決以往字頻統(tǒng)計客觀性不足的問題,實現(xiàn)字頻統(tǒng)計的客觀性,使得字頻統(tǒng)計能夠最大限度地反映社會用字的實際狀況。
其次,漢字字頻統(tǒng)計必須明確界定統(tǒng)計單位,劃分不同層級的漢字統(tǒng)計單位,根據(jù)不同需要對漢字的不同層級的統(tǒng)計單位進行分類分層的字頻統(tǒng)計。
漢字統(tǒng)計單位的界定與劃分是一個非常復(fù)雜的問題,必須專門研究,不是本文能夠全面解決的問題。本文僅以印刷楷書為例,以字頻統(tǒng)計為目標(biāo),示范性地討論字的概念界定與劃分方法。
學(xué)術(shù)界不少學(xué)者曾經(jīng)從文字學(xué)的角度對漢字中字的單位做過區(qū)分,但是,著眼點又有所不同,有的是著眼于漢字規(guī)范對字的單位進行界定,有的是著眼于對漢字使用實際狀況的調(diào)查對字的單位進行界定。前者,如前文所述周有光在《現(xiàn)代漢字學(xué)發(fā)凡》一文中曾區(qū)別“字種”和“字形”。后者,如北京師范大學(xué)漢字構(gòu)形學(xué)系列研究,從文本提取字形進行歸納,實際上也涉及漢字單位。王貴元的《馬王堆帛書漢字構(gòu)形系統(tǒng)研究》是最早從文本中提取字進行構(gòu)形分析的專著。該書第二章“單字整理”,專門討論從文本中提取字制作字表和進行統(tǒng)計的單位問題。文中先討論了異寫字、異構(gòu)字、同形字三個概念,并在此基礎(chǔ)上討論了字樣認(rèn)同與別異、通行體與變體、單字統(tǒng)計原則等問題(19)。李運富在《楚國簡帛文字構(gòu)形系統(tǒng)研究》一書中,也在第二章設(shè)立了“單字整理”一章,并進一步把單字整理程序化,專門討論了字樣的提取與辨認(rèn)問題,在此基礎(chǔ)上討論了字樣群的處理,設(shè)立了字位與符位等概念,把字的單位區(qū)別為同體字樣與異寫字樣、同符位異構(gòu)字、異符位同形字等,已經(jīng)有了字單位的層級性的思想(20)。到陳淑梅的《東漢碑隸構(gòu)形系統(tǒng)研究》和齊元濤的《隋唐五代碑志楷書構(gòu)形系統(tǒng)研究》,字樣提取及不同層次單位的歸納程序基本成熟。王寧先生在為《漢字構(gòu)形史叢書》寫的總序中對此作了理論總結(jié),她說:“對文本中的漢字加以整理,也就是必須對寫在文本上實際使用的漢字進行三種性質(zhì)不同的歸納:(1)字樣的歸納。這是將重復(fù)出現(xiàn)的漢字字樣歸納到一起并進行統(tǒng)計的工作,是將一切文本形式的漢字改變?yōu)樽謳煨问降谝徊揭龅墓ぷ?。?)字組的歸納,也就是對結(jié)構(gòu)、功能相同書寫略有變化的異寫字的歸納。這些字屬于同字異寫,或稱同構(gòu)異寫的關(guān)系。(3)字種的歸納,也就是對功能相同結(jié)構(gòu)不同的異構(gòu)字的歸納。這些字或因構(gòu)件的選擇不同,或因構(gòu)件的增減不同而異形,因而有著不同的構(gòu)意,但記詞的功能是相同的。它們的關(guān)系屬于同職異字,或稱同詞異字。”(21)王寧先生所說的“三種性質(zhì)不同的歸納”如果都把它定義為字的話,也就是三個不同層次的“字單位”。
從規(guī)定的角度可以采納周有光先生的界定,把字的單位劃分為字種、字形兩級。
字的單位確定了,字頻統(tǒng)計則可以根據(jù)不同的統(tǒng)計目的規(guī)定統(tǒng)計單位,可以以字型為統(tǒng)計單位統(tǒng)計型頻,也可以以字樣為單位統(tǒng)計樣頻,可以以字式為單位統(tǒng)計式頻,可以以字種為單位統(tǒng)計種頻。這樣,不僅統(tǒng)計單位明確、清晰,而且每次特定的統(tǒng)計,統(tǒng)計單位統(tǒng)一、等質(zhì),便于統(tǒng)計數(shù)據(jù)的使用,以及不同統(tǒng)計數(shù)據(jù)的比較,使得字頻統(tǒng)計的科學(xué)性得到保障。
注釋:
①馮志偉:《現(xiàn)代漢字和計算機》,北京:北京大學(xué)出版社,1989年版,第109頁。
②蘇培成:《現(xiàn)代漢字學(xué)綱要》(增訂本),北京:北京大學(xué)出版社,2001年版,第32頁。
③沙宗元:《文字學(xué)術(shù)語規(guī)范研究》,合肥:安徽大學(xué)出版社,2008年版,第402頁。
④國家語言資源監(jiān)測與研究中心:《中國語言生活狀況報告(2005)》,北京:商務(wù)印書館,2006年版,第6頁。
⑤北京書同文數(shù)字化技術(shù)有限公司:《古籍漢字字頻統(tǒng)計》,北京:商務(wù)印書館,2008年版,第14-15頁。
⑥周有光:《中國語文縱橫談》,北京:清華大學(xué)出版社,1997年版,第64頁。
⑦王鳳陽:《漢字頻率與漢字簡化》,載《語文現(xiàn)代化叢刊》,北京:知識出版社,1980年第3輯,第92頁。
⑧國家語言文字工作委員會、國家教育委員會:《關(guān)于發(fā)布〈現(xiàn)代漢語常用字表〉的聯(lián)合通知》,1988年版。
⑨北京語言學(xué)院語言教學(xué)研究所:《現(xiàn)代漢語頻率詞典·編輯說明》,北京:北京語言學(xué)院出版社,1986年版。
⑩國家語言資源監(jiān)測與研究中心:《中國語言生活狀況報告(2005)》,第6頁。
(11)國家語言資源監(jiān)測與研究中心:《中國語言生活狀況報告(2005)》,第6頁。
(12)周有光:《周有光語言學(xué)論文集》,北京:商務(wù)印書館,2004年版,第316頁。原載于《語文現(xiàn)代化》叢刊第2輯,1980版。
(13)周有光:《周有光語言學(xué)論文集》,第339頁。原載于《辭書研究》,1984年第4期。
(14)沙宗元:《文字學(xué)術(shù)語規(guī)范研究》,第401頁。
(15)(16)(17)國家語言資源監(jiān)測與研究中心:《中國語言生活狀況報告(2005)》,第257-261、262-264、266頁。
(18)李國英、周曉文:《字料庫建設(shè)的必要性與可行性》,《北京師范大學(xué)學(xué)報(社會科學(xué)版)》,2009年第5期。
(19)王貴元:《馬王堆帛書漢字構(gòu)形系統(tǒng)研究》,南寧:廣西教育出版社,1999年版,第15-24頁。
(20)李運富:《楚國簡帛文字構(gòu)形系統(tǒng)研究》,長沙:岳麓書社,1997年版,第22-43頁。
(21)王寧:《漢字構(gòu)形史叢書·總序》,上海:上海教育出版社,2003年版。