基于反向校對方法的糾錯技術(shù)研究

2023/08/02-16:20 來源:

基于反向校對方法的糾錯技術(shù)研究

張從輝  于  波  鄂  毅

(人民日報社技術(shù)部)

【摘  要】隨著智能媒體審校系統(tǒng)的發(fā)展和報紙行業(yè)從業(yè)人員水平的提高,報紙上的別字已經(jīng)很少見了,但仍存在一定的糾正空間J。為了加強(qiáng)報紙的國際傳播能力,進(jìn)一步提升報紙質(zhì)量,本文基于反向校對思想,對糾錯技術(shù)進(jìn)行了研究,提出一種支持詞庫共享的反向校對方法,對解決編輯校對因人工因素造成的版面錯誤問題有較好的效果,從技術(shù)上為報業(yè)生產(chǎn)提供了一種降低文字差錯率的手段,是傳統(tǒng)人工校對的有益補(bǔ)充。該方法可以用于報業(yè)系統(tǒng)付印前的Pdf版面校對,也可以用于歷史版面庫、單篇文章等的查校,對提高報業(yè)整體質(zhì)量有著重要意義。

【關(guān)鍵詞】反向校對  差錯率  別詞庫  自動糾錯

1  引言

校對工作是報紙出版過程中非常重要的一環(huán)。尤其是一些政治性強(qiáng)的報紙,在文字表達(dá)上更不能有絲毫閃失。為了規(guī)范報紙出版行業(yè),國家出臺了《報紙出版管理規(guī)定》《報紙期刊質(zhì)量管理規(guī)定》等法律法規(guī),明確了報紙編校差錯率不超過萬分之三為合格,對差錯率計算方法也作了嚴(yán)格規(guī)定。報紙行業(yè)為了保證低差錯率,既需要一流的校對人才,也離不開智能校對系統(tǒng)的輔助。但由于人的因素,即使一流的校對人才借助專業(yè)的校對軟件,依然不能保證沒有錯誤。為了進(jìn)一步減少差錯,提高校對效果,需要更多的糾錯手段。

2  反向校對思想的提出

2.1  傳統(tǒng)人工校對方法的不足

傳統(tǒng)人工校對方法是建立在閱讀基礎(chǔ)之上的,即編輯或者專業(yè)校對通過通讀文章來對語句進(jìn)行拆分,分成一個個詞語,然后和自己大腦里對這個詞的記憶進(jìn)行比對,如果一致則為正確,不一致,則錯誤。這看似簡單的一個腦力勞動過程,實(shí)則蘊(yùn)含著很強(qiáng)專業(yè)性、嚴(yán)謹(jǐn)科學(xué)的態(tài)度以及頑強(qiáng)的耐心毅力等。然而,即便是最專業(yè)的校對也不能保證沒有疏漏,即使是借助專業(yè)的校對軟件、文字編輯器的別字提示功能,依然不能百分百保證報刊出版的零差錯,這是傳統(tǒng)人工校對方法的不足。2021年8月,中國報業(yè)協(xié)會組織開展了“全國主流報紙出版質(zhì)量評測”活動叫,評測結(jié)果見表1??梢娂词褂袑I(yè)校對軟件的輔助,依然不能避免錯誤的發(fā)生。另外,商品化的智能校對系統(tǒng)陸續(xù)出現(xiàn),但別字庫更新補(bǔ)充較麻煩,無法實(shí)現(xiàn)共享,且不能自動糾錯,這也使得這些軟件輔助人工校對時總是處于滯后的狀態(tài),是錯誤的另一個成因。

表1  2021年中央級報紙出版質(zhì)量評測排名(部分)

image.png

2.2  反向校對思想的提出

素有“語言界啄木鳥”之稱的《咬文嚼字》雜志,曾在2005年創(chuàng)刊10周年之際,整理出了《當(dāng)代漢語出版物中最常見的100個別字》(見圖1,括號內(nèi)為正確的字)。這個圖是《咬文嚼字》編輯部自創(chuàng)刊以來,組織社會上方方面面的力量審讀了約3000本圖書、1000種期刊、100種報紙,并請100家新聞出版單位,提供每年差錯率最高的詞,這批長期出現(xiàn)、廣泛出現(xiàn)、反復(fù)出現(xiàn)的別字,便是在10年調(diào)查的基礎(chǔ)上產(chǎn)生的。這100個別字都是之前10年來出錯頻率最高的,據(jù)專家統(tǒng)計,若將這100個常見的別字糾正過來,當(dāng)時出版物上的別字總量將減少一

半以上2?;谶@一論斷,本文提出了反向校對思想,即建立常見別詞庫,用別字去校對文章。具體來說,就是通過分詞工具將文章分解成詞,這一環(huán)節(jié)相當(dāng)于人工校對的閱讀環(huán)節(jié)。然后與別詞庫中的詞比對,如果一致,則表明這個詞是錯誤的,標(biāo)記出來。這樣就可以是通過技術(shù)手段把文章中這些常見的別字過濾掉。之所以稱為反向校對,是相對于傳統(tǒng)的人工校對而言,人工校對可以說是正向校對,即從文章中校對錯別詞匯,而反向校對是用錯別詞匯校對文章,即從一篇文章中找出別詞,從一批文章中找出有別詞的文章。

這100個常見別字雖然已經(jīng)公布了多年,但依然時常出現(xiàn)報紙刊、雜志上。比如,在百度中搜索“一幅對聯(lián)”,馬上就會出現(xiàn)若干條結(jié)果:“一副”對聯(lián)還是“一幅”對聯(lián)?可見要消除這些常見別字任重而道遠(yuǎn)。

2.3  反向校對與反向查錯的區(qū)別

專業(yè)校對軟件提供反向查錯的功能,即將已知的錯誤詞匯加入錯詞庫,文中如果有錯詞庫中的詞會自動標(biāo)識出來,類似于查找功能。而反向校對方法是用計算機(jī)算法模擬傳統(tǒng)人工校對的過程,在這個過程中把人工校對容易弄混的別詞找出來,并且可以用正確詞語直接替換。解決了自動校對系統(tǒng)詞庫無法共享問題和不能糾錯的問題。校對自動化可以減少人為差錯;歸納權(quán)威別詞庫,使校對更精準(zhǔn);詞庫共享和反向查錯并糾錯,提高文稿質(zhì)量,強(qiáng)化工作效率。


image.png

圖1  《當(dāng)代漢語出版物中最常見的100個別字》局部

3  反向校對糾錯方法的實(shí)現(xiàn)

3.1  分詞

校對是建立在閱讀基礎(chǔ)之上的,要讓計算機(jī)校對文章,就要實(shí)現(xiàn)計算機(jī)閱讀文章的功能。對比人工校對過程,閱讀就是將文章分成一個一個詞語,來分別判斷每個詞語的對錯。因此計

算機(jī)閱讀文章的第一步就是要分詞。

當(dāng)前流行的中文分詞工具很多,比較而言,Jieba分詞工具是一個優(yōu)秀的中文分詞工具。

它以第三方庫形式提供給Python語言調(diào)用,是Python語言中目前最受歡迎的中文分詞庫。英文文本可以通過空格來分詞,而中文文本詞與詞之間是沒有空格的。Jieba分詞的原理就是利用一個中文詞庫,確定漢字之間的關(guān)聯(lián)概率,然后組成詞組,形成分詞結(jié)果。

Jieba分詞支持三種分詞模式:

(1)精確模式

就是將句子精確地分開成若干中文單詞,這些詞合起來就是之前的語句,其中不存在冗余單詞,這種模式適合文本分析。

(2)全模式

就是將一段文本中所有可能的詞語都掃描出來,可能有一段文本它可以切分成不同的模式,或者從不同的角度來切分變成不同的詞語,分詞后的信息再組合起來不再是原來的文本。

(3)搜索引輦模式

就是在精確模式基礎(chǔ)上,對發(fā)現(xiàn)的那些長的詞語再次切分,進(jìn)而適合搜索引擎對短詞語的索引和搜索,也有冗余。

例如:對文本“我來自人民日報社技術(shù)部”采用三種分詞模式分詞,源代碼和結(jié)果如圖2所示。

image.png

圖2  對文本“我來自人民日報社技術(shù)部”進(jìn)行Jieba三種模式分詞結(jié)果

顯然,三種分詞模式都可以采用,全模式和搜素引擎模式更符合人們的校對習(xí)慣。但是這兩種模式對文本如“據(jù)公開消息”“掃描模式”這樣的詞語會分解出“開消”“描?!?這與庫中“開銷”“描摹”的錯誤寫法“開消”“描?!蔽呛?,從而報錯。中文文本中這種情形還比較常見,是不能簡單地通過像Word、WPS這樣的字處理軟件的查找替換功能解決的。分詞的意義就在于準(zhǔn)確地分解出中文語句中詞語的組合,反向校對是建立在分詞基礎(chǔ)之上的。因此,精確模式可以作為反向校對方法分詞的主要模式,全模式和搜索引擎模式作為參考模式。

3.2別詞庫

別詞庫是反向校對方法的另一個關(guān)鍵因素,收錄的別詞越多、越權(quán)威,就越能發(fā)揮反向校對的優(yōu)勢。然而,別詞庫是語言學(xué)領(lǐng)域一個十分專業(yè)的問題。事實(shí)上,除了《咬文嚼字》雜志公布的常見的100個別字外,其他權(quán)威機(jī)構(gòu)也曾發(fā)布過常見錯別字庫。如:上海教育出版社2020年6月出版的《高頻別字300例》  ,四川辭書出版社2020年7月出版的《消滅別字與病句》(全新版)列出了1600多個易錯字15,上海文化出版社和上海咬文嚼字文化傳播有限公司聯(lián)合出版的《常見別字辨析手冊》同,等等。結(jié)合權(quán)威機(jī)構(gòu)的出版物和專業(yè)校對人員的反饋,例如:“采訪”是“采訪”的別詞,“志和者”是“志合者”的別詞等等。本文歸納出了1100多個別詞的別詞庫,并且別詞庫可以結(jié)合實(shí)踐予以靈活增減。

在Python語言中可以用一個集合建立常見別詞庫。以圖1為例,建立別詞庫,如圖3中紅色方框所示。

image.png

圖3創(chuàng)建別詞庫和添加別詞庫到Jieba中文庫中

前面提到,Jieba分詞是利用一個中文詞庫來確定漢字之間的關(guān)聯(lián)概率組成詞組,形成分詞結(jié)果。而圖3別詞庫中的詞是基于統(tǒng)計學(xué)知識從書籍、報刊中挑選出來的“別詞”,這些詞未必都在Jieba的中文詞庫中,因而需要使用Jieba提供的Jieba.add_word()函數(shù)把這些詞加入庫中,如圖3中藍(lán)色框所示。Jicba中文字庫中有了這些詞就可以準(zhǔn)確地從文本中分析出這些詞,如圖4所示。

image.png

圖4添加別詞庫到Jieba中文庫前后的分詞結(jié)果

圖4上、下半部分別是添加別詞庫到Jieba中文庫前后的分詞結(jié)果??梢?,添加別詞庫到Jieba中文庫前,Jieba的全模式對別詞“按裝”沒有分析出來,三種模式對別詞“一愁莫展”都沒分詞正確,添加后,三種模式都能正確分析出來。

3.3  自動糾錯技術(shù)

為了實(shí)現(xiàn)自動糾錯功能,對應(yīng)于別詞庫,還應(yīng)建立正確詞庫。因此,本系統(tǒng)不僅有查錯功能,也有糾錯能力。當(dāng)用戶將文稿提交到后臺后,進(jìn)行Jieba分詞,再與別詞庫比對,將錯別字放入內(nèi)存中,當(dāng)確認(rèn)確實(shí)是別詞后,使用對應(yīng)的正確詞語替換,并將操作寫入日志。

3.4別詞庫共享技術(shù)

本系統(tǒng)采用了Flask框架對Web進(jìn)行設(shè)計,每個用戶均可以將自己的別詞庫提交到服務(wù)器端。服務(wù)器端會對校對過的文本進(jìn)行掃描統(tǒng)計,達(dá)到設(shè)定值后,經(jīng)人工審核就可以進(jìn)入別詞庫。凡進(jìn)入別詞庫的詞可以被所有用戶共享,不用每個用戶再自己添加,間接提高了工作效率。

3.5  算法實(shí)現(xiàn)及結(jié)果

Python作為一門超級語言以其簡單、易學(xué)、開源和豐富的第三方庫而深受廣大編程愛好者青睞。2021年10月,語言流行指數(shù)的編譯器Tiobe將Python加冕為最受歡迎的編程語言,20年來首次將其置于Java、C和JavaScript之上四。借助Python豐富的第三方庫,研究人員可以將主要精力放在自己關(guān)注的問題上,從而高效地完成任務(wù)。這里使用的Jicba庫就是一個例子。反向校對方法在算法實(shí)現(xiàn)上就是將要校對的文件讀入到文本中,然后用Jieba分詞工具進(jìn)行分詞并存入列表,然后對列表中元素與別詞表中元素一一比對,找出相同元素,即別詞。顯而易見,反向校對方法有一個優(yōu)勢,那就是對重復(fù)詞語只需查校一遍。詞語重復(fù)在文章中是常見的事,例如,在十九大報告中,“人民”二字出現(xiàn)了200多次。人工校對無疑要對200多處“人民”都要校對,而在反向校對方法中,通過采用對分詞產(chǎn)生的重復(fù)元素只記錄一次方式實(shí)現(xiàn)對文章重復(fù)詞語只校對一次的功能,從而可以提高查校效率。

image.png

圖5  程序運(yùn)行結(jié)果

圖5的上半部分是用反向校對方法對某報5天48個版面,約44.5萬字的內(nèi)容做的測試結(jié)果。從測試結(jié)果看,查到兩個“別詞”?!懊鞑榘翟L”和“明察暗訪”已經(jīng)通用,可以不算錯。但“松馳”是別詞,正確應(yīng)該是“松弛”。圖5的下半部分是對另一報紙5天76個版面,約

39.3萬字的內(nèi)容做了測試。從運(yùn)行結(jié)果看,“座落”應(yīng)為坐落,沒有問題?!安荒茏约骸贝_是“不能”“自己”兩個詞的組合,例如:我不能自己一個人去那里。因為向Jicba中文字庫中添加不能自己的別詞“不能自己”,因而算法把兩個詞當(dāng)成了一個詞。這也讓我們認(rèn)識到了漢語的復(fù)雜性,提醒我們找到“別詞”的同時,還要看看“別詞”所在的句子。相應(yīng)的“別詞”也都在其報紙官方網(wǎng)站上進(jìn)行了核實(shí)。程序運(yùn)行用時間分別是0.791秒和0.869秒,完全不用擔(dān)心效率問題。

總的來說,報紙上的別字錯誤確實(shí)很少了,但反向校對方法確實(shí)還是能查出個別別詞來,這證實(shí)了反向校對方法的有效性。只要別詞數(shù)據(jù)庫足夠豐富、權(quán)威,就能查找出報紙上更多的別詞。同時我們也認(rèn)識到漢語言的復(fù)雜性,反向校對方法的研究也只是處于起步階段,還需要進(jìn)一步深入研究完善。

4反向校對的意義和應(yīng)用場景

反向校對的實(shí)質(zhì)是用計算機(jī)算法模擬傳統(tǒng)人工校對的過程,以解決人工校對中由于人的視覺、記憶上的偏差造成對常見別字的混淆而發(fā)生的人為錯誤。雖然一些專業(yè)的校對軟件也有錯詞庫和反向查錯功能,但在實(shí)際使用中這些功能也只是作為人工校對的輔助手段。反向校對的意義在于排除“人工因素”導(dǎo)致的錯誤,這也決定了反向校對方法只能作為人工校對方法的補(bǔ)充。即人工校對的輸出是反向校對方法的輸入。

總的說來,只要能轉(zhuǎn)化為文本格式的文件、資料都可以使用反向校對方法來查校。典型的例子如下:

(1)壓版前的Pdf版面

對于報業(yè)來說,反向校對方法只有對最終的Pdf格式的版面進(jìn)行校對才最有意義,相當(dāng)于校對的最后一道防線。這就需要將Pdf版面轉(zhuǎn)換成Txt文件的中間過程。Pdfplumber是Python中Pdf轉(zhuǎn)Txt的第三方工具,可以實(shí)現(xiàn)完美轉(zhuǎn)換。

(2)復(fù)印前的書刊

當(dāng)編輯編完一本書或刊物后,如果想檢查書中有沒有常見的別字,可以使用反向校對方法。本方法對一本30萬字的電子書進(jìn)行查校,運(yùn)行時間0.9秒。當(dāng)然,反向校對方法對單篇文章也是適用的。

(3)歷史資料庫

各種出版物都有自己的歷史資料庫,這些資料庫對于今天的學(xué)術(shù)研究或編纂書籍有重要的參考價值。但如果有錯誤,被引用就有可能造成對錯誤的二次傳播??梢杂梅聪蛐Ψ椒▽φ麄€歷史資料庫進(jìn)行查校,從而減少錯誤的二次傳播。

(4)對于聲音轉(zhuǎn)成的文字

媒體進(jìn)入四全媒體時代,節(jié)奏快是一個鮮明的特點(diǎn),從而大大壓縮了留給校對工作者的時間。語音轉(zhuǎn)文字是編輯們常用的方法,但語音轉(zhuǎn)文字不能百分百轉(zhuǎn)換正確,反向校對方法可以輔助編輯快速過濾掉那些轉(zhuǎn)換中出現(xiàn)的常見別字,從而提高工作效率。

(5)OCR識別的文字

神經(jīng)網(wǎng)絡(luò)算法在圖片領(lǐng)域的深入應(yīng)用,推動了圖片中文字識別技術(shù)的發(fā)展,越來越多的人使用手機(jī)截屏,然后OCR識別后,獲取可編輯文本,但識別準(zhǔn)確率和召回率不可能達(dá)到100%,所以也存在錯誤。使用反向校對方法不僅能提高文本質(zhì)量,也能提高文本處理效率。

(6)校對力量較弱的自煤體

這幾年自媒體飛速發(fā)展,但也良莠不齊。經(jīng)常在自媒體文章上或視頻字幕上看見錯別字??梢允褂梅聪蛐Ψ椒焖偃コR姷膭e字。

5  結(jié)語及展望

反向校對方法是基于語言專家在對書籍、報刊中常見的100個別字的統(tǒng)計學(xué)基礎(chǔ)上給出的科學(xué)論斷提出的,并通過Python語言基于第三方庫予以實(shí)現(xiàn),是在實(shí)踐中經(jīng)過檢驗行之有效的方法。該方法能直接用于報業(yè)系統(tǒng)付印前的Pdf版面的最后查校,也可以用于歷史版面庫、單篇文章的校對,是從技術(shù)上降低報業(yè)生產(chǎn)文字差錯率的有力手段,是人工校對方法的有益補(bǔ)充,對提高報紙行業(yè)的整體文字質(zhì)量有重要意義。

根據(jù)反向校對思想,類似于別詞庫,可以添加常用規(guī)范表述庫圖、古典詩文名句庫、邏輯表達(dá)詞語庫等,從而全方位、多角度對文章進(jìn)行核校,將現(xiàn)代科技最大限度地應(yīng)用于傳統(tǒng)報業(yè)的出版發(fā)行,提高報業(yè)質(zhì)量。同時,在實(shí)踐中我們也深刻了解到了漢語言的復(fù)雜性,反向校對方法還有很大的改進(jìn)空間。

參考文獻(xiàn):

[1]中國報業(yè)協(xié)會開展2021年全國主流報紙出版質(zhì)量評測活動.中國報協(xié)網(wǎng)

[2]《咬文咽字》整理出百個最常見別字,《人民日報》,2005年4月25日:第11版文化

[3] https://github.com/fxsiy/Jicba

[4]許霞,《高頻別字300例》,上海:上海教育出版社;2020年6月

[5]彭倫健,彭皓宇.《消滅錯別字與病句》,成都;四川辭書出版社:2020年7月第1版

[6]楚山孤.《常見別字辨析手冊》.上海:上海文化出版社、上海咬文嚼字文化傳播有限公司;2019年2月

[7] https://baike.baidu.com/item/Python/407313?fr=aladdin

[8]呂飛.《宜傳工作常用規(guī)范表述300例》,北京:人民日報出版社;2021年:001-002頁