今天終於完成一個艱鉅的工作,在前幾篇「未來的指令」中提過,不知是否有未知的指令,要自己快點完成那舊小說《未來的人》轉成文字檔。
寫完後,又放下了不理,因為後半部份的剪報,已經是有點模糊,部份更是開始細胞分裂般,單想到要放入掃瞄器掃瞄,再要去Photoshop慢慢執已經頭痕,所以都是嗰句:得閒先執。
結果……我諗真係有某些力量要我去做,這幾天乖乖邊度都冇得去,唯有再拿剪報出來,掃入電腦,但執得幾份後,真的開始眼花。
執的意思是,把圖片去除大部份雜質,令畫面光亮一點,這樣再進行OCR時,認字率會高一些。
OCR軟件早在廿多年前已出現,一般買掃瞄器都會跟一個,後來坊間也出現大大小小不同品牌,但都大同小異地差,認字率(指中文)大約得兩成,後來工作上都不再需要這類軟件,所以只偶爾開來用,都是好過冇,今次面對這麼龐大的剪報,不倚重它不成。
開了多個OCR的軟件來試,都是叫救命。
心想,也不能怪這些軟件,當年印刷效果不及現在,而且原稿都甩頭甩骨,係咁上下。
到中後期,在網上找到一個線上即時OCR網,很多掃瞄圖的認字率竟達八成,更發現自己做多了,是不用把圖執到太乾淨及轉做黑白,反而多瑕疵,這網的認字率更準確,真是估不到,真是太耐冇用這類軟件,原來已進步了那麼多。
有興趣或有需要的可到這網看看:https://www.onlineocr.net/zh_hant/
原本一早應該就完成的這份工程,就是被OCR這部份所拖拉,擾攘了十多廿年,如今經絡一通,邊OCR邊修改,幾天下來總算初步完成。
看回這篇舊東西,大部份情節都已記憶模糊,原本以為都是脫晒節,做個紀錄便算,但現在粗略看一遍,也不是太離譜,故事是八十年代,寫的時候,都加入了一些當時的民生,或周遭事物,都有少少歷史感,一些內容到今天仍是在發生,例如戰爭。
結算下來,這個《未來的人》小說,當年連載了半年,橫跨了1986至1987年,現總字數有四萬多字,當年都冇想到要靠我這個未來的人來翻新吧。


沒有留言:
張貼留言