用戶登錄投稿

中國(guó)作家協(xié)會(huì)主管

缺字危機(jī):一本書背后有多少“不存在”的漢字?
來(lái)源:澎湃新聞 | 董牧杭  2025年05月14日09:17

無(wú)論是我們?cè)诜唽?shí)體書或其他實(shí)物印刷品時(shí),還是在瀏覽電子書、網(wǎng)頁(yè)、使用輸入法輸入文字時(shí),都會(huì)經(jīng)常遇到某些文字的字體明顯和它前后其他文字不一樣的情況。

一個(gè)故意改變字體的有趣例子,出自群眾出版社 2006 年版《古拉格群島》。

除了極少數(shù)刻意改變字體的案例,更多情況是因技術(shù)限制而直接“棄療”,大多數(shù)文字字形問(wèn)題都有著復(fù)雜的歷史和技術(shù)原因。我們常以為這些問(wèn)題很容易解決,但實(shí)際上遠(yuǎn)非如此。

電子版《越南概論》中“左口右從”的直接棄療行為。

例如使用Word等文本編輯器時(shí),可以很容易地給一個(gè)字體調(diào)整格式,如加粗。在字體設(shè)計(jì)中,筆畫的粗細(xì)程度稱為“字重”(font weight)。

但是與我們的“常識(shí)”大相徑庭的是,在專業(yè)的排版軟件中,這種看似簡(jiǎn)單的改變同一個(gè)字形字重的操作反而是不行的。如果我們使用的字體沒(méi)有專門的“字重”設(shè)計(jì)的話,比如我們常見(jiàn)的字體“書宋”“楷體”“報(bào)宋”,那么排版人員即使想要簡(jiǎn)單地把一個(gè)字形變粗或變細(xì)一點(diǎn)點(diǎn),都需要替換成另外相近的字體。有編輯甚至因?yàn)檫@種不得不為之的變換字體、字體無(wú)法統(tǒng)一的問(wèn)題,導(dǎo)致自己編輯的圖書被讀者投訴為“印刷質(zhì)量有問(wèn)題”。

圖源 臺(tái)灣地區(qū)歷史語(yǔ)言研究所《古文字與古代史(第一輯)》,一個(gè)因改變字體即需另行專門造字的實(shí)例。

周嘯天《唐詩(shī)鑒賞辭典》此頁(yè)電子版中體現(xiàn)的是另一種常見(jiàn)情況。簡(jiǎn)化“糹”后的“緌”字形無(wú)法正常輸入和顯示,出版方最后只得選擇了使用一張圖片代替的方式解決。

而規(guī)范字形應(yīng)為“兆”+“頁(yè)”的繁體字“頫”,因?yàn)椤摆w孟頫”這個(gè)人名的高頻出現(xiàn),一度成為此類涉及繁體漢字簡(jiǎn)化問(wèn)題中最典型的“問(wèn)題字”之一。

王寧主編《通用規(guī)范漢字字典》中的相關(guān)條目

在 2013 年《通用規(guī)范漢字表》推行后,“頫”的類推簡(jiǎn)化字“正式”成為規(guī)范漢字,趙孟頫更是無(wú)法起自己于地下,像錢鍾書堅(jiān)持自己名字中的“鐘”字應(yīng)寫作“鍾”一樣反對(duì)“頫”的簡(jiǎn)化。

雖然《出版物漢字使用管理規(guī)定》中有“法律、歷史、傳統(tǒng)等特殊需求如人名、地名,能夠使用繁體字”之類的條例,但依然有編輯反映,她們工作中的遇到的檢查標(biāo)準(zhǔn)往往是“不允許混用繁簡(jiǎn)漢字”。

這是因?yàn)椤邦\” 的類推簡(jiǎn)化字已為《現(xiàn)代漢語(yǔ)詞典》收錄,為避免被后續(xù)質(zhì)檢或抽檢為“差錯(cuò)”,所以他們?cè)谟龅竭@個(gè)著名的人名時(shí),為保險(xiǎn)起見(jiàn),一般是不敢保留繁體的“頫”的。

可是麻煩的地方在于,“頫”的類推簡(jiǎn)化字成為規(guī)范漢字并不意味著它也成了一個(gè)可以像“正?!钡臐h字一樣,在排版文件中輸入字形編碼的漢字。上圖左半紅圈中的“頫”簡(jiǎn)化字,雖然看起來(lái)字體似乎與其他文字沒(méi)有什么區(qū)別,但實(shí)際上這個(gè)簡(jiǎn)化后的“頫”字是無(wú)法直接在出版方的排版文件中輸入的,乃是出版方的自造字。此自造字不易被察覺(jué),僅因其構(gòu)形簡(jiǎn)單。其實(shí)造出這個(gè)字形非常容易——任何沒(méi)有受過(guò)專門訓(xùn)練的讀者都可以自行完成,打開(kāi)InDesign 軟件,我們只需調(diào)入“兆”和“頁(yè)”兩個(gè)字形,壓縮它們,并縮短間距后拼接起來(lái)即可完成。這樣簡(jiǎn)單的字形是很容易造到“完美”得肉眼難以辨別的。

它實(shí)際上有著自己的標(biāo)準(zhǔn) unicode 編碼,可是很多時(shí)候依然無(wú)法正常輸入、顯示。

不僅如此,這個(gè)類推簡(jiǎn)化字實(shí)際上是擁有 Unicode 標(biāo)準(zhǔn)編碼“U+2 B5AF”的,但莫說(shuō)通行的排版軟件,我們使用的一般輸入法都依然無(wú)法直接打出,而且在多數(shù)情況下,它甚至在網(wǎng)頁(yè)頁(yè)面中也無(wú)法正常顯示。

要想徹底搞清楚這筆看起來(lái)千頭萬(wàn)緒的糊涂賬,我們首先需要了解一點(diǎn)點(diǎn)漢字編碼及字形存儲(chǔ)和顯示的基本原理。

現(xiàn)實(shí)中根本沒(méi)有這個(gè)字,卻有自己通用編碼的神奇“幽靈漢字”

當(dāng)我們通過(guò)某種輸入法輸入漢字時(shí),首先會(huì)被計(jì)算機(jī)映射為一種它直接“認(rèn)識(shí)”的編碼,亦即字符集內(nèi)部標(biāo)準(zhǔn)編碼,簡(jiǎn)稱內(nèi)碼。 比如最早的內(nèi)碼ASCII(American Standard Code for Information Interchange,美國(guó)信息交換標(biāo)準(zhǔn)代碼),它的設(shè)計(jì)邏輯基于拉丁字母,主要是為了解決現(xiàn)代英文的標(biāo)準(zhǔn)編碼問(wèn)題創(chuàng)制的。

ASCII 碼表

為了便于識(shí)讀,ASCII編碼通常記作十或十六進(jìn)制,比如字母“A”的碼位可能會(huì)被表示為65或41,但是它在計(jì)算機(jī)內(nèi)部?jī)?chǔ)存的實(shí)質(zhì)上是一個(gè)八位的二進(jìn)制編碼 0100 0001。因?yàn)楝F(xiàn)代計(jì)算機(jī)系統(tǒng)以字節(jié)(8位)為單位存儲(chǔ),所以7位二進(jìn)制編碼前要補(bǔ)一個(gè)0湊足八位。很容易理解,ASCII的編碼空間范圍為0000000~1111111,它一共可以表示的編碼總數(shù)量只有128個(gè)(2的7次方)。

但只有英文內(nèi)碼顯然是不夠的,其他國(guó)家、文字顯然也需要一套自己的內(nèi)碼。而現(xiàn)今全球最通用的內(nèi)碼Unicode就是這么一套號(hào)稱為所有語(yǔ)言中的“每個(gè)字符”都分配了唯一對(duì)應(yīng)編號(hào)的碼位。

在有這么大雄心和這么多需要編碼的符號(hào)的情況下,原來(lái)的編碼空間自然就不夠用了。1991年Unicode 1.0誕生時(shí)采用固定的16位編碼,Unicode的碼位一般以U+前綴表示,所以有216(U+0000 ~ U+FFFF)=65,536個(gè)碼位。

這65536個(gè)碼位一一映射的字符覆蓋了包括中文在內(nèi)的當(dāng)時(shí)幾乎所有主流語(yǔ)言的字符,我們一般叫它基本多文種平面( BMP, 又稱為 Plane 0 )。而其中的漢文字符編碼部分,我們通常稱之為CJK(CJK Unified Ideographs,中日韓統(tǒng)一表意文字)區(qū)塊,一共20992個(gè)漢字字符進(jìn)行了編碼。

在普通語(yǔ)言學(xué)領(lǐng)域,關(guān)于漢字是否屬于“表意文字”(ideograph)以及這一分類本身的合理性,學(xué)界存在顯著爭(zhēng)議。周有光、裘錫圭等權(quán)威學(xué)者都認(rèn)為從文字系統(tǒng)的構(gòu)形本質(zhì)來(lái)看,漢字的性質(zhì)可定義為“意音文字”(logographic-syllabic writing),純粹的“表意文字”根本不存在。但是在自然語(yǔ)言處理(NLP)領(lǐng)域,從CJK的名稱“中日韓統(tǒng)一表意文字”就可以看出,漢字毫無(wú)疑問(wèn)是被看作為一種表意符號(hào)的。更準(zhǔn)確地說(shuō),漢字被認(rèn)為是一種視覺(jué)-語(yǔ)義單元,所以其編碼系統(tǒng)的設(shè)計(jì)邏輯的確與類似英語(yǔ)的拼音文字有著根本性的差異。

格外值得注意的是,CJK 并不僅僅涵蓋內(nèi)地使用的漢字,還囊括了包括日本國(guó)語(yǔ)漢字、和制漢字,韓國(guó)韓文漢字,越南喃字,臺(tái)灣地區(qū)和香港繁體漢字等其他使用漢字國(guó)家/地區(qū)的字形符號(hào),甚至還包括了很多中國(guó)少數(shù)民族文字的編碼,比如西夏文、契丹小/大字、女書等等等。

一個(gè)著名的只存在于 Unicode 里的幽靈漢字:彁

這種跨地區(qū)的標(biāo)準(zhǔn)和早期制定標(biāo)準(zhǔn)流程的粗疏會(huì)導(dǎo)致出現(xiàn)一些匪夷所思的離譜情況。由于早期技術(shù)限制,手寫錄入地名時(shí)因油墨浸染或照片模糊,導(dǎo)致“彊”右半部誤錄為“哥”,最終使“彁”這一錯(cuò)誤字形被收入U(xiǎn)nicode?!皬悺本褪沁@么一個(gè)著名的只存在于 Unicode 里,但是現(xiàn)實(shí)中不存在的幽靈漢字。

導(dǎo)致同一個(gè)字字形區(qū)別的諸多因素,圖源《中文信息處理技術(shù)》

我們很容易想到,很多“漢字”詞在不同語(yǔ)言中可能具有完全相同的字形,Unicode 的編碼不考慮不同語(yǔ)言的語(yǔ)義問(wèn)題。比如日語(yǔ)中的“娘”(女兒或年輕女性)與漢語(yǔ)中的“娘”(母親)語(yǔ)義完全不同,其編碼卻都是 U+5A18。

那么如果是一個(gè)只具有略微差別的字形呢?會(huì)導(dǎo)致字形產(chǎn)生細(xì)微差別的因素有很多,比如筆畫的方向、長(zhǎng)度、曲度的區(qū)別,筆畫相交、合并與否,個(gè)別筆畫的增減、筆畫方式的差異等。這些不同標(biāo)準(zhǔn)字符集中細(xì)微的字形區(qū)別,在所謂的“表音文字”字符集中不能說(shuō)完全沒(méi)有,但很少見(jiàn),可是在東亞表意文字中,這就成了需要妥善解決的核心問(wèn)題之一。

比如“劍”字有至少如圖所示的六種不同的字形變體,大陸一般用“劍”,日本一般用“剣”,臺(tái)灣地區(qū)一般使用字形則為“劍”,可是他們的 Unicode 編碼是同一的,亦即只要是字形相似、字源相同、語(yǔ)義相關(guān)的漢字,就在同一個(gè)碼位上。

Unicode在本質(zhì)上定義的是字符的抽象身份(Identity),而非它的具體字形。而我們或多或少接觸過(guò)的“字體”文件,儲(chǔ)存的就是字符的不同字形。操作系統(tǒng)通過(guò)字體文件,把特定unicode碼位的字形渲染出來(lái),就呈現(xiàn)出我們?cè)谄聊簧峡吹降臉用擦恕?/p>

作為二維平面圖形,決定漢字字形的要素非常復(fù)雜,至少包括有筆畫層面上的基礎(chǔ)筆形(橫豎撇捺鉤等)、動(dòng)態(tài)筆勢(shì)(筆畫方向輕重)、空間關(guān)系(交叉/相接/斷開(kāi))等,構(gòu)件層面上的相對(duì)位置、形變規(guī)則(不同偏旁部首組合時(shí)大小變化)、嵌套層次,整體層面上的視覺(jué)平衡、密度協(xié)調(diào)、風(fēng)格等。

在文字處理技術(shù)的早期階段,字形信息的數(shù)字化記錄的通用解決方案是離散點(diǎn)陣位圖。其基本技術(shù)原理很簡(jiǎn)單,即把字形分割為小正方形柵格矩陣,對(duì)于其中的每一個(gè)點(diǎn)陣單元都可以用坐標(biāo)記錄其位置,用有色(1)和無(wú)色(0)記錄其狀態(tài)并對(duì)之進(jìn)行二值化信息編碼。

而基于矢量的方案很快后來(lái)居上。為二維漢字平面圖形建立笛卡爾坐標(biāo)系,記錄每個(gè)筆畫始點(diǎn)與終點(diǎn)的坐標(biāo)后,很容易用向量表示所有筆畫和空筆畫的方向與長(zhǎng)度。但顯然,如果只有端點(diǎn)坐標(biāo)的話,筆畫只能被記錄下靜態(tài)輪廓,更多的筆勢(shì)信息變化是根本無(wú)法被記錄的,而用控制點(diǎn)定義平滑路徑的貝塞爾曲線能夠解決這個(gè)問(wèn)題。參數(shù)化曲線很快發(fā)展成為矢量方案的核心技術(shù)。隨著技術(shù)的進(jìn)一步發(fā)展,使用二次貝塞爾曲線描述字形輪廓的TrueType(.ttf)和三次貝塞爾曲線的OpenType(.otf)已經(jīng)成為了現(xiàn)今最通行的矢量字體技術(shù)手段和字體文件格式。

字形的向量就是字體文件儲(chǔ)存的數(shù)據(jù),最后屏幕上渲染出的字形則是把向量還原。不難想見(jiàn),字符集規(guī)模巨大、必須多字節(jié)表示的漢字系中文字體與拉丁系西文字體不僅在內(nèi)碼編碼邏輯上有巨大差別,它們的字形數(shù)字化方案也判若云泥。一個(gè)西文字符一般只需要幾十個(gè)控制點(diǎn)即可妥善記錄,但是記錄一般中文字符需要的平均控制點(diǎn)數(shù)量是西文字符的十倍之多!

古籍?dāng)?shù)據(jù)庫(kù)——漢字是開(kāi)放集合,永遠(yuǎn)無(wú)法窮盡

BMP中僅有20902個(gè)基本漢字(U+9FA6 至 U+9FFF還包含90個(gè)補(bǔ)充漢字),在理論上,這個(gè)數(shù)量已經(jīng)能夠覆蓋99%的日常使用場(chǎng)景,但是那看似微不足道的所謂“1%”卻會(huì)引發(fā)各種各樣的問(wèn)題。就比如中國(guó)人姓名中有非老舊系統(tǒng)無(wú)法識(shí)別的非基本漢字人口多達(dá)6000多萬(wàn),他們?nèi)粘I畹姆椒矫婷?,曾?jīng)都會(huì)因?yàn)樽约浩鹆艘粋€(gè)沒(méi)有編碼漢字的倒霉名字而受到影響。為那些起初沒(méi)有被編碼的漢字字符補(bǔ)辦“身份證”迫在眉睫。

這些社會(huì)問(wèn)題都是BMP外漢字惹的禍!

更“要命”的是,Unicode的偉大愿景遠(yuǎn)不止于為現(xiàn)存語(yǔ)言編制字符目錄,它還有著一種近乎史詩(shī)般的重要使命:散落在人類歷史長(zhǎng)河中的所有文字符號(hào),Unicode 都要為之設(shè)計(jì)內(nèi)碼。而歷史曾經(jīng)存在過(guò)的漢字字符何止千千萬(wàn)萬(wàn),其數(shù)量之巨大、審定之艱難,都是增補(bǔ)工作的巨大挑戰(zhàn)。

在BMP外的擴(kuò)展平面中增補(bǔ)漢字字符的工作,主要是由表意文字小組IRG(Ideographic Research Group)負(fù)責(zé),截至2024年發(fā)布的Unicode 16.0,IRG已經(jīng)為CJK增補(bǔ)了將近 7萬(wàn)個(gè)漢字字符。

但即使擱置IRG引起過(guò)諸多爭(zhēng)議的“字理”“字源”等學(xué)術(shù)糾紛不論,擴(kuò)展平面內(nèi)碼在人們?nèi)粘J褂弥械淖畲髥?wèn)題其實(shí)是除了BMP中的20902個(gè)基本漢字外,其余的增補(bǔ)即使有了編碼,也無(wú)法通過(guò)一般的輸入法輸入。

相較于輸入法限制,Windows與macOS的默認(rèn)字體支持問(wèn)題更為嚴(yán)重。由于它們也僅支持BMP漢字,所以擴(kuò)展字符在普通用戶的電子設(shè)備屏幕上甚至無(wú)法渲染字形,這就是“頫”的類推簡(jiǎn)化字既無(wú)法被一般的輸入法打出,在很多用戶的屏幕上也顯示不出來(lái)的根本原因。

即使在專業(yè)領(lǐng)域也存在著同樣甚至是更多的麻煩。比如在通行的古籍?dāng)?shù)據(jù)庫(kù)中會(huì)用到的字,同樣也是即使已經(jīng)有了編碼,數(shù)據(jù)庫(kù)中能夠調(diào)出,但是只要它不在基本平面上,就依然無(wú)法進(jìn)行檢索、查詢、統(tǒng)計(jì)等操作,所以實(shí)質(zhì)上與“集外字”沒(méi)有區(qū)別。所以在實(shí)際工作工作中,學(xué)者們依然要把這個(gè)已有擴(kuò)展編碼的字符改成一個(gè)基本平面編碼,后續(xù)的數(shù)據(jù)處理才能真正開(kāi)展。

而這些數(shù)量已經(jīng)足夠龐大的字形還僅僅是“楷寫字”,“原形字”則在一個(gè)更加復(fù)雜、難以數(shù)據(jù)化的層面上。比如僅僅西周金文“寶”一個(gè)字的構(gòu)形,即高達(dá) 1060 個(gè)。古文字的數(shù)字化開(kāi)發(fā)專家劉志基在《數(shù)據(jù)庫(kù)古文字研究論稿》中指出過(guò):

傳統(tǒng)文字學(xué)研究的第一手資料是以印刷、墨拓或抄寫、刻寫等手段形成的紙張等自然物載體形式,資料庫(kù)文字學(xué)研究的資料是數(shù)字化形式的資料庫(kù)資源。從查詢檢索的角度看,自然物載體形式的一手資料是以無(wú)次序、無(wú)條理狀態(tài)存在的,因此出于特定研究目的處理,一般都需要人工目驗(yàn)查找、編輯整理。

其實(shí)中國(guó)大陸早就組織過(guò)古漢字編碼專家參與IRG的定期會(huì)議,但漢字古文字編碼的工作依然進(jìn)展緩慢。或許這些本來(lái)就以非標(biāo)準(zhǔn)形態(tài)存在的“原形字”更加鮮明地昭示了表意文字的某種根本特征——正如IRG中從事Unicode和OpenType東亞部分相關(guān)工作的專家陳永聰指出的那樣,“ IRG的這項(xiàng)工作可能永遠(yuǎn)都無(wú)法停,因?yàn)闈h字是一個(gè)開(kāi)放的集合,它永遠(yuǎn)沒(méi)法完結(jié)?!?/p>

“永不離職的中華書局員工”——我們這樣造出了本不存在于電腦中的字

如果說(shuō)編碼問(wèn)題是理論層面的挑戰(zhàn),那么古籍排版則是這一沖突在實(shí)踐中的集中體現(xiàn)。學(xué)者們對(duì)專業(yè)數(shù)據(jù)庫(kù)的終極期望是為歷史上所有連標(biāo)準(zhǔn)形態(tài)都沒(méi)有的字形建立起可靠的譜系與可供后續(xù)數(shù)據(jù)處理的標(biāo)準(zhǔn)編碼系統(tǒng)。然而出人意料的是,古籍圖書排版專家的志業(yè)卻與之異若霄壤:“補(bǔ)字補(bǔ)字,我們認(rèn)為我們補(bǔ)的東西根本就不是字,我們只是把需要的圖片給組合出來(lái)。我們的員工就沒(méi)學(xué)過(guò)中文的,那些字念什么,是什么意思,我們根本就不懂,也不需要懂。我們補(bǔ)字只是為了方便我們的后續(xù)工作,僅此而已,有任何問(wèn)題都由編輯提出、解決,我們只進(jìn)行后續(xù)的批量操作?!?/p>

德彩匯智是國(guó)內(nèi)最專業(yè)的古籍類圖書排版公司。諸如中華書局、北京大學(xué)出版社等赫赫有名的“古籍出版專業(yè)戶”,在自己出版社內(nèi)部其實(shí)幾乎沒(méi)有排版員工,其古籍類圖書基本都是交由德彩匯智進(jìn)行排版的。公司負(fù)責(zé)人劉慶偉笑稱,自己可以算是“中華書局他們永不離職的員工”。

在他看來(lái),古籍排版是一種市場(chǎng)規(guī)模與需求都非常小、技術(shù)含量不高、附加值也很低的工作,所以“我就只能用改換形式的方式完成客戶的要求?!?/p>

在2005 、2006年前后,中華書局有了自己的照排室,并開(kāi)始準(zhǔn)許社內(nèi)與社會(huì)上的社外人員合作,劉慶偉也正是在這個(gè)時(shí)候就開(kāi)始了與中華書局的長(zhǎng)期合作。

現(xiàn)今通行的"CTP"(computer-to-plate,直接制版技術(shù))大大降低了排版技術(shù)的成本與難度。然而在當(dāng)年,排版需要把文件先做到膠片上,曬版(曝光)后還需要做到PS版(Presensitized Plate,預(yù)涂感光版)上才能成為印刷機(jī)可以使用的印版,這就叫激光照排,是一項(xiàng)相當(dāng)復(fù)雜與繁瑣的技術(shù)。

劉慶偉還記得當(dāng)年工作時(shí)人人均需常備一本《北大方正漢字內(nèi)碼字典》,片刻不得離手的情景。那時(shí)候的排版人員要想完成工作,是需要自己死記硬背所有待排文字的編碼的,他直言那時(shí)做排版“非常受罪”。

《北大方正漢字內(nèi)碼字典》

圖書排版的本質(zhì)是圖文設(shè)計(jì),里面也可以再細(xì)分出很多專門的門類,每個(gè)門類的排版都有自己的特點(diǎn)和門道,比如有專做辭書排版的,也有專做雜志排版的、科技類圖書排版的等等,古籍類排版也是其中比較特殊的一塊。

起初劉慶偉不懂行,想著眉毛胡子一把抓,什么類型的排版都干,結(jié)果很快發(fā)現(xiàn)不同類別的排版技術(shù)要求區(qū)別很大。更重要的是,最初的時(shí)候照排是個(gè)非常集中的事情,也是出版社對(duì)外合作的一塊重要業(yè)務(wù)。當(dāng)時(shí)很多出版機(jī)構(gòu)沒(méi)有特殊的關(guān)系和手段,就很難開(kāi)啟合作,即使僥幸開(kāi)啟了也維持不住。但與很多其他排版領(lǐng)域擠都擠不進(jìn)去的狀況相比,古籍排版卻是壓根幾乎沒(méi)人愿意碰。

古籍類圖書的生產(chǎn)周期非常長(zhǎng),一般回款要等到圖書正式出版之后,所以回款周期也特別慢,比如黃天樹(shù)《甲骨文摹本大系》一書就耗時(shí)整整近十年時(shí)間才最終出版。

雖然后來(lái)國(guó)家出臺(tái)了“不得拖欠中小企業(yè)款項(xiàng)”的政策使得回款情況有了些許好轉(zhuǎn),但利好也僅限于款項(xiàng)需要報(bào)備的項(xiàng)目類圖書,如果是非項(xiàng)目類圖書,回款問(wèn)題則會(huì)依然讓人叫苦不迭。古籍排版需頻繁修改,但排版人員僅負(fù)責(zé)圖文設(shè)計(jì),內(nèi)容審校由編輯完成。所以出版方每重新審校一次返回來(lái)的稿子,簡(jiǎn)直就跟一本新書一樣。

而古籍排版最麻煩的地方是別說(shuō)每個(gè)出版社、每位圖書編輯,就算是具體到每一本書,他們收到的要求都很不一樣,所以基本無(wú)法建立高度標(biāo)準(zhǔn)化、可簡(jiǎn)單套用的工作流程。所以德彩匯智最終定下自己的主業(yè),就是僅僅專心服務(wù)于少數(shù)幾家靠譜的古籍類出版社。雖然客戶是越做越少了,但如果他們建立起自己的專業(yè)工作流,這就是一塊別家很難分走一杯羹的市場(chǎng)。

任何稍有古籍文本錄入經(jīng)驗(yàn)的人都知曉使用形碼錄入的速度比使用音碼高很多。現(xiàn)代音碼輸入法輸入速度的提升主要依賴于其強(qiáng)大的詞頻記憶與云詞庫(kù)功能,但這些功能對(duì)于包含有大量的生僻字、以單字詞為主的古籍文本來(lái)說(shuō),輸入速度的提升可謂收效甚微。以前古籍排版工基本都是使用五筆輸入法的,但隨著時(shí)代的變遷,現(xiàn)在已經(jīng)幾乎找不到可以熟練使用五筆輸入法的年輕人了。但是即便形碼輸入有這么大的好處,他們也依然決定取消員工的五筆培訓(xùn)環(huán)節(jié)。這是因?yàn)楣偶畧D書的可服務(wù)客戶太少了,它本質(zhì)上是一個(gè)需大于求的市場(chǎng),提升員工的工作速度也沒(méi)更多項(xiàng)目可接,所以提升員工的工作效率對(duì)公司來(lái)說(shuō)甚至沒(méi)什么真正的意義。而補(bǔ)字,就是古籍圖書排版工作流中最重要的環(huán)節(jié)之一,難倒是不難,但它是一項(xiàng)格外需要大量經(jīng)驗(yàn)與既有成果積累的麻煩事。

在出版行業(yè)有三個(gè)最主流排版軟件,分別是ID(InDesign),方正書版與方正飛翔,其中古籍排版用的基本上都是方正書版。其實(shí)字庫(kù)的重要性要高于軟件本身。方正書版最重要的是可以兼容它自己的大型字庫(kù)GB方正超大字符集。而且最重要的是方正超大字符集中字形顯示在電子屏幕上是完全正常的,電子閱讀完全不受影響,可是如果用其他的排版軟件和方正的字庫(kù)進(jìn)行印刷,就會(huì)出現(xiàn)字體筆畫偏細(xì)的問(wèn)題。而且如果排版部門用的是方正字庫(kù),那些下游的印廠也必須用。方正超大字符集V 2.0的字庫(kù)規(guī)模更大,但因?yàn)閮r(jià)格太高,其實(shí)能用得起的排版機(jī)構(gòu)很少。與方正相比,ID雖然兼容的字更多,但是它只能兼容宋體字,變化模式比較少。更重要的是,方正書版的編輯器是非所見(jiàn)即所得(Non-WYSIWYG)編輯器,所以它的編輯速度是明顯快于所見(jiàn)即所得(WYSIWYG)邏輯的ID的。尤其當(dāng)調(diào)入、編輯大文件時(shí),ID僅僅顯示文件的渲染效果都要耗時(shí)很久。所以在古籍排版這個(gè)行當(dāng),如果不是客戶有特別的要求,一般排版都要用方正書版,尤其是如果最后還有進(jìn)其他數(shù)據(jù)庫(kù)的要求的話。

單純的補(bǔ)字方法就像“頫”的類推簡(jiǎn)化字制法一樣簡(jiǎn)單,可以拿字形組圖片。組出的圖片叫做圖字,因?yàn)閳D片是固定高度的,正常的實(shí)體書里有大字、小字,圖片只要放大縮小就會(huì)出問(wèn)題,所以圖字是一種比較麻煩的補(bǔ)字方式。方正書版專門的補(bǔ)字插件女媧補(bǔ)字可以在一定程度上避免這些問(wèn)題,其原理相當(dāng)于把與一個(gè)既有字體編碼對(duì)應(yīng)的字形更換成全新的字形,這個(gè)補(bǔ)字可以保留其文本屬性并配適格式變化。當(dāng)然這個(gè)編碼對(duì)應(yīng)的文字只能在方正書版中識(shí)別出來(lái),用一般的復(fù)制粘貼手段是復(fù)制不出來(lái)的。

更麻煩的還是字體問(wèn)題,字體不同的全都要補(bǔ)一個(gè)單獨(dú)的字,沒(méi)那么智能,所以各種字體都得造一個(gè)。在補(bǔ)字比例較低的時(shí)候,如果字體差別較大就容易看出來(lái),而方正書宋和宋體差別較小,這樣字體上不容易看出區(qū)別,就能減少排版時(shí)補(bǔ)字的工作量。正因如此,市面上的古籍大多數(shù)都是宋體字。

當(dāng)然古籍排版里面又可以細(xì)分為幾類,比如古文字、簡(jiǎn)牘、俗字等等,每類又都有自己的難處。比如在簡(jiǎn)牘類圖書中,理論上同一個(gè)字的字形是不一樣,這些字形每個(gè)都需要專門造個(gè)字出來(lái)。又比如像金甲文字,已經(jīng)有隸定字的還好些,可以直接換字模,但更多的是沒(méi)隸定的,而因?yàn)樗鼈儾皇恰胺綁K字”,拿正常組字方法又沒(méi)法組出來(lái),那就只能做成圖字了。

劉慶偉剛?cè)胄袝r(shí),因?yàn)闆](méi)有任何已有補(bǔ)字成果的積累,幾乎每排一本圖書,就得自己完全從零開(kāi)始新補(bǔ)幾千個(gè)字,做得頭都大了。而且直到現(xiàn)在,古籍出版社為每個(gè)需補(bǔ)字支付的報(bào)酬,也是很難覆蓋新造一個(gè)字的成本的。出版機(jī)構(gòu)為排版公司支付報(bào)酬的模式一般是以頁(yè)為基準(zhǔn),其余剩下的補(bǔ)字是按個(gè)支付。為了能夠重復(fù)利用已有成果,他們自己專門做了一個(gè)字庫(kù),這樣積累的補(bǔ)字多了,以后才可能可以抹平補(bǔ)字的“損失”乃至獲取利潤(rùn)。其實(shí)還有一類更麻煩的類型是關(guān)于俗字圖書的補(bǔ)字。比如張涌泉的《漢語(yǔ)俗字叢考》,這本書里處處都是需要補(bǔ)字的俗字,更關(guān)鍵的是這些新造字在其余的書里幾乎無(wú)法重復(fù)利用,這本書也成為了劉慶偉職業(yè)生涯里最令自己頭疼的工作項(xiàng)目之一。

從“趙孟頫”的簡(jiǎn)化字爭(zhēng)議到古籍排版中的補(bǔ)字難題,這些技術(shù)障礙共同揭示了表意文字體系與數(shù)字編碼規(guī)則間的深層沖突——漢字的開(kāi)放性、編碼的統(tǒng)一性、技術(shù)的便捷性,如同一個(gè)不可能三角,至今仍在等待更優(yōu)的解決方案。