缺字歸零計畫

背景

在 Unicode 一統江湖以前,有些早期的電子文本為古籍中的罕用字自行建立造字,卻缺乏適當管理,導致造字無法正常顯示。更麻煩的是,有些檔案使用了多個造字檔,同一個造字碼在同一個檔案的不同位置可能對應不同造字檔中的造字。

笈成雖已透過人工建表和程式把一些造字自動轉換為對應的 Unicode 字元或 IDS,但由於上述原因,程式只能暫且轉成比較可能正確的字,並非 100% 可靠,因此需要人工檢查所有被轉換過的造字,並修正錯誤的轉換。

操作方法

  1. 下載造字轉換前版本並解壓縮。

  2. 下載造字轉換後版本並解壓縮。

  3. 安裝 WinMerge,比對步驟1和步驟2解壓縮出來的資料夾。

    2021-08-14_15_27_54-WinMerge

  4. 比對時可勾選 [檢視] > [樹狀模視],用類似檔案瀏覽器的方式檢索。

    2021-08-14_15_28_36-WinMerge_-jc.data-e1236ff7bcdba86f58232b581f2730bf7524a8bf-_jc.data-01493848

  5. 在 WinMerge 比對結果中找「待修缺字檔案列表」未註記的檔案(已註記的是已檢查修訂過、有人預計修訂、或基於其他理由暫緩處理等等,可先略過),逐一開啟檢查(可以由上往下,或從有興趣的書開始):

    2021-08-14_15_41_48-待修缺字檔案列表_-Google_試算表-來賓-_Microsoft__Edge

    2021-08-14_15_29_59-WinMerge_-jc.data-e1236ff7bcdba86f58232b581f2730bf7524a8bf-_jc.data-01493848

    比對結果可用字首搜尋檔案:點一下比對結果任一檔案,切換成中文輸入法輸入檔案或資料夾名稱第一個字(例如想找「傷寒論」就輸入「傷」),就會立刻跳到「傷」開頭的檔案或資料夾。

    1. 檢查時可用 Alt+↓ 跳至下一個有差異的行,用 F4 跳至行中下一個有差異的字。就這樣從頭到尾逐一檢查每個被轉換過的造字。

      2021-08-14_15_30_54-WinMerge_-_index.html-index.html

    2. 檢查時遇到合理的轉換就跳下一個,遇到錯誤轉換(或有疑義)的字請把它改成「�」(U+FFFD)(微軟新注音輸入法依序按下 `、u、f、f、f、d 即可輸入。如不會輸入,可以複製這裡的字元或用「?」代替)。

      2021-08-14_15_31_12-WinMerge_-_index.html-__index.html

      如果看不懂,或無法確定,請當作「有疑義」把它改為「�」或加個標記。只要有改動,我們就會知道該處需要處理而不會遺漏。

      如該書有底本可查,或能根據上下文推斷出正確的字,也可以直接改成正確的字(能輸入正確的 Unicode 字元或 IDS 最好,不會輸入也可以用任何方式描述其字形結構,例如 [左口右父])。

      系統上可安裝花園明朝體或其他大字集字體,以顯示罕用字。如果你的機器顯示不出字形,可把它複製貼到笈成檢字系統搜尋以查出其字形:

      2021-08-14_15_54_11-笈成檢字_-來賓-_Microsoft__Edge

      2021-08-14_15_56_48-___1174868____笈成檢字-來賓-_Microsoft__Edge

    3. 把修改後的檔案存檔並傳給我們,我們會繼續查證及修正那些有問題的地方。

補充

  • 如有預計要檢查一批書,可先在這裡回文或在 Google 表單中加入註解,讓大家知道有人即將處理哪些書,減少重複做工的機會。

    盡量劃出一個具體範圍(例如:刪補頤生微論~外科證治全書),即使沒有明確想處理的書,也可以先劃個 10~20 本,這樣其他人才可以在你工作的同時處理其他書。

Edited Aug 16, 2021 by Danny Lin
Assignee Loading
Time tracking Loading