笈成資料 issues
https://gitlab.com/jicheng/jc.data/-/issues
2022-10-08T08:53:53Z
https://gitlab.com/jicheng/jc.data/-/issues/22
html格式,使用recoll软件建立索引,检索出来显示乱码
2022-10-08T08:53:53Z
henry will
html格式,使用recoll软件建立索引,检索出来显示乱码
recoll软件用十年前中医笈成的txt格式
效果很好
不过数据太老
文本错误多
现在新的中医笈成资料都是html格式,建立索引后出现乱码的问题
中医笈成资料的原始数据都是html
中医古籍都是html格式
在比较了anytxt
docfetch等等软件之后
感觉recoll软件建立文件搜索最适合自己的使用
但是用老版本的book-20180111显示效果非常好,
想问大神,是HTML转变为TXT导致的乱码
还是HTML文本编码格式改变导致的
如果有可...
recoll软件用十年前中医笈成的txt格式
效果很好
不过数据太老
文本错误多
现在新的中医笈成资料都是html格式,建立索引后出现乱码的问题
中医笈成资料的原始数据都是html
中医古籍都是html格式
在比较了anytxt
docfetch等等软件之后
感觉recoll软件建立文件搜索最适合自己的使用
但是用老版本的book-20180111显示效果非常好,
想问大神,是HTML转变为TXT导致的乱码
还是HTML文本编码格式改变导致的
如果有可能
能否提供最新版的TXT格式
https://gitlab.com/jicheng/jc.data/-/issues/14
簡繁轉換錯誤集中回報區
2023-11-23T11:43:27Z
Danny Lin
簡繁轉換錯誤集中回報區
笈成許多數位文本是整理自網路流傳的電子檔,有些文本有多個版本,但據考查,品質最佳的文本,大多是中國建立的簡化字文本,而後轉為繁體字。處理過程或有些許校對,但錯誤仍所在多有。
修正簡轉繁錯誤其實不難,只要能辨識出錯誤形態,做個多檔案批次尋找取代即可全面修正,之後再搭配差異比對複查,就能把矯往過正、越改越錯的情形減至最低。可參見我們的[示例](https://jicheng.tw/tcm/help/data.html#?t=//*[text()=%22%E7%A4%BA%...
笈成許多數位文本是整理自網路流傳的電子檔,有些文本有多個版本,但據考查,品質最佳的文本,大多是中國建立的簡化字文本,而後轉為繁體字。處理過程或有些許校對,但錯誤仍所在多有。
修正簡轉繁錯誤其實不難,只要能辨識出錯誤形態,做個多檔案批次尋找取代即可全面修正,之後再搭配差異比對複查,就能把矯往過正、越改越錯的情形減至最低。可參見我們的[示例](https://jicheng.tw/tcm/help/data.html#?t=//*[text()=%22%E7%A4%BA%E4%BE%8B%EF%BC%9A%E5%A6%82%E4%BD%95%E5%88%A9%E7%94%A8%E4%B8%8A%E8%BF%B0%E5%B7%A5%E5%85%B7%E5%BF%AB%E9%80%9F%E6%8F%90%E9%AB%98%E8%B3%87%E6%96%99%E5%93%81%E8%B3%AA%22])。
然而,目前仍有許多文本有未處理完全的造字問題(詳見#10),在檢查及修正所有造字之前,相關檔案暫時不適合做批次操作,否則隨著檔案內容大幅變動,檢查造字將更為困難,修正造字也容易造成衝突,導致處理成本爆炸性增加,還容易發生不可預期的錯誤。因此,全檔案的批次處理會暫緩執行。
目前規劃是先集中記錄簡繁轉換錯誤問題,整理出常見錯誤樣態。若問題並非出在上述有造字未處理的文本,可先對該檔案做尋找取代/差異比對修正。待造字問題處理完畢,再按記錄做全檔案的修正處理。
麻煩大家盡可能將簡繁轉換錯誤問題集中回報於本議題串。發布至其他議題串或其他討論區的訊息,會酌情轉載至本串。
待處理
----
| 書名 | 錯誤 |
| ------ | ------ |
| | 曲 => 麯/麴 |
| | 範志曲 => 范志麯 |
| | 百草曲 => 百草麯 |
| | 炒曲 => 炒麯 |
| | 夏曲 => 夏麯 |
| | 範曲 => 范麯 |
| | 曲炒 => 麯炒 |
| | 赤曲 => 赤麯 |
| | 曲糊 => 麯糊 |
| | 紅曲 => 紅麯 |
| | 筱 => 篠 |
| | 闢 => 辟/闢 |
| | 旁註 => 旁注 |
| | 丑/醜 |
| | 黑醜 => 黑丑 |
| | 白醜 => 白丑 |
| | 黑白醜 => 黑白丑 |
| | 月醜 => 月丑 |
| | 在醜 => 在丑 |
| | 卜/蔔 |
| | 卜子 => 蔔子 |
| | 去卜 => 去蔔 |
| | 干蘿 => 乾蘿 |
| | 干萊 => 乾萊 |
| | 羅卜 => 蘿蔔 |
| | 蘿卜 => 蘿蔔 |
| | 發/髮 |
| | 髭發 => 髭髮 |
| | 堅發齒 => 堅髮齒 |
| | 發髲 => 髮髲 |
| | 發不白 => 髮不白 |
| | 解發分 => 解髮分 |
| | 梁/粱 |
| | 膏梁 => 膏粱 |
| | 黃梁 => 黃粱 |
| | 梁肉 => 粱肉 |
| | 稻梁 => 稻粱 |
| | 谷/穀 |
| | 穀神不 => 谷神不 |
| | 葛谷 => 葛穀 |
| | 食谷 => 食穀 |
| | 谷疸 => 穀疸 |
| | 宿谷 => 宿穀 |
| | 化谷 => 化穀 |
| | 干/乾/幹 |
| | 射乾 => 射干 |
| | 一干一花 => 一幹一花 |
| | 干(枸杞\|菊\|荔\|馬齒\|蛤蟆\|茄根\|桑葉\|河車\|百合\|蝸牛\|蝦蟆\|葛\|葉\|燥\|牛皮\|薔薇\|商陸) => 乾 |
| | (汁\|液\|極\|隨\|喉\|藥\|甚\|時\|稍\|苔\|常\|俱\|身\|耳\|湯\|疥\|挹\|搵\|瘡\|處\|自\|熬\|俟\|控)干 => 乾 |
| | 姜/薑 |
| | 炮姜 => 炮薑 |
| | 姜(蒜\|皮\|附\|一\|二\|三\|四\|五\|六\|七\|八\|九\|十\|竹\|山梔\|半夏\|炒\|煎\|鹽\|蒲) => 薑 |
| | 范/範 |
| | 範汪 => 范汪 |
| | 範志 => 范志 |
| | 朮/術 |
| | 焦術 => 焦朮 |
| | 郁/鬱 |
| | 鬱李仁 => 郁李仁 |
| 䱐溪秘傳簡驗方 | 發灰 => 髮灰 |
| 䱐溪秘傳簡驗方 | 鬚發 => 鬚髮 |
| 䱐溪秘傳簡驗方 | 寸余 => 寸餘 |
| 䱐溪秘傳簡驗方 | 斤余 => 斤餘 |
| 䱐溪秘傳簡驗方 | 余藥 => 餘藥 余藥 |
| 䱐溪秘傳簡驗方 | 余燒 => 餘燒 |
| 䱐溪秘傳簡驗方 | 余酒 => 餘酒 |
| 䱐溪秘傳簡驗方 | 待姜乾脆 => 待薑乾脆 |
| 醫林改錯 | 餘三十歲 => 余三十歲 |
| 醫林改錯 | 即雲天數當然 => 即云天數當然 |
| 女科要旨 | 白術 => 白朮 |
| 退思集類方歌註 | 髮 => 發 |
其他
----
| 書名 | 錯誤 |
| ------ | ------ |
| | 萊卜 => 萊菔 |
| | 上己日 => 上巳日 |
| | 上已日 => 上巳日 |
| | (甲\|乙\|丙\|丁\|戊\|己\|庚\|辛\|壬\|癸)戍 => 戌 |
https://gitlab.com/jicheng/jc.data/-/issues/12
建議提供一個提issue的模板
2021-08-25T04:54:47Z
胖虎
建議提供一個提issue的模板
https://gitlab.com/jicheng/jc.data/-/issues/11
標題后有 **** 的是什麽意思
2021-08-28T13:37:29Z
胖虎
標題后有 **** 的是什麽意思
比如 -> 重廣補注黃帝內經素問 ****
比如 -> 重廣補注黃帝內經素問 ****
https://gitlab.com/jicheng/jc.data/-/issues/10
缺字歸零計畫
2022-12-11T09:42:42Z
Danny Lin
缺字歸零計畫
背景
====
在 Unicode 一統江湖以前,有些早期的電子文本為古籍中的罕用字自行建立造字,卻缺乏適當管理,導致造字無法正常顯示。更麻煩的是,有些檔案使用了多個造字檔,同一個造字碼在同一個檔案的不同位置可能對應不同造字檔中的造字。
笈成雖已透過人工建表和程式把一些造字自動轉換為對應的 Unicode 字元或 [IDS](https://jicheng.tw/tcm/help/chars.html),但由於上述原因,程式只能暫且轉成比較可能正確的字,並非 100...
背景
====
在 Unicode 一統江湖以前,有些早期的電子文本為古籍中的罕用字自行建立造字,卻缺乏適當管理,導致造字無法正常顯示。更麻煩的是,有些檔案使用了多個造字檔,同一個造字碼在同一個檔案的不同位置可能對應不同造字檔中的造字。
笈成雖已透過人工建表和程式把一些造字自動轉換為對應的 Unicode 字元或 [IDS](https://jicheng.tw/tcm/help/chars.html),但由於上述原因,程式只能暫且轉成比較可能正確的字,並非 100% 可靠,因此需要人工檢查所有被轉換過的造字,並修正錯誤的轉換。
操作方法
====
1. 下載[造字轉換前版本](https://gitlab.com/jicheng/jc.data/-/archive/e1236ff7bcdba86f58232b581f2730bf7524a8bf/jc.data-e1236ff7bcdba86f58232b581f2730bf7524a8bf.zip)並解壓縮。
2. 下載[造字轉換後版本](https://gitlab.com/jicheng/jc.data/-/archive/01493848e5ab589eb220175eeea2130888114008/jc.data-01493848e5ab589eb220175eeea2130888114008.zip)並解壓縮。
3. 安裝 [WinMerge](https://jicheng.tw/tcm/help/data.html#winmerge),比對步驟1和步驟2解壓縮出來的資料夾。
![2021-08-14_15_27_54-WinMerge](/uploads/a3258e099a35075b91f288ae10956b3c/2021-08-14_15_27_54-WinMerge.png)
4. 比對時可勾選 [檢視] > [樹狀模視],用類似檔案瀏覽器的方式檢索。
![2021-08-14_15_28_36-WinMerge_-__jc.data-e1236ff7bcdba86f58232b581f2730bf7524a8bf__-_jc.data-01493848](/uploads/2fb691f55af794be0b1a1c4b3ba0e41c/2021-08-14_15_28_36-WinMerge_-__jc.data-e1236ff7bcdba86f58232b581f2730bf7524a8bf__-_jc.data-01493848.png)
4. 在 WinMerge 比對結果中找「[待修缺字檔案列表](https://docs.google.com/spreadsheets/d/1sanNkENwEAEtXHZl10tMBJOGi4AYlWcI444Xk5TWKz0/edit?usp=sharing)」**未註記**的檔案(已註記的是已檢查修訂過、有人預計修訂、或基於其他理由暫緩處理等等,可先略過),逐一開啟檢查(可以由上往下,或從有興趣的書開始):
![2021-08-14_15_41_48-待修缺字檔案列表_-_Google_試算表_-__來賓__-_Microsoft__Edge](/uploads/65615dafe127331dd82cc340b84a8689/2021-08-14_15_41_48-待修缺字檔案列表_-_Google_試算表_-__來賓__-_Microsoft__Edge.png)
![2021-08-14_15_29_59-WinMerge_-__jc.data-e1236ff7bcdba86f58232b581f2730bf7524a8bf__-_jc.data-01493848](/uploads/035b3bb3dfc03c3038daf3581bf349a7/2021-08-14_15_29_59-WinMerge_-__jc.data-e1236ff7bcdba86f58232b581f2730bf7524a8bf__-_jc.data-01493848.png)
> 比對結果可用字首搜尋檔案:點一下比對結果任一檔案,切換成中文輸入法輸入檔案或資料夾名稱第一個字(例如想找「傷寒論」就輸入「傷」),就會立刻跳到「傷」開頭的檔案或資料夾。
1. 檢查時可用 `Alt+↓` 跳至下一個有差異的行,用 `F4` 跳至行中下一個有差異的字。就這樣從頭到尾逐一檢查每個被轉換過的造字。
![2021-08-14_15_30_54-WinMerge_-__index.html_-_index.html_](/uploads/93f530143684e0507f74ebf182258554/2021-08-14_15_30_54-WinMerge_-__index.html_-_index.html_.png)
2. 檢查時遇到合理的轉換就跳下一個,遇到錯誤轉換(或有疑義)的字請把它改成「�」(U+FFFD)(微軟新注音輸入法依序按下 <code>\`</code>、`u`、`f`、`f`、`f`、`d` 即可輸入。如不會輸入,可以複製這裡的字元或用「?」代替)。
![2021-08-14_15_31_12-WinMerge_-__index.html_-___index.html_](/uploads/34c151188b39510cc52d913a388c3fd4/2021-08-14_15_31_12-WinMerge_-__index.html_-___index.html_.png)
> 如果看不懂,或無法確定,請當作「有疑義」把它改為「�」或加個標記。只要有改動,我們就會知道該處需要處理而不會遺漏。
> 如該書有底本可查,或能根據上下文推斷出正確的字,也可以直接改成正確的字(能輸入正確的 Unicode 字元或 IDS 最好,不會輸入也可以用任何方式描述其字形結構,例如 `[左口右父]`)。
> 系統上可安裝[花園明朝體](http://fonts.jp/hanazono/)或其他大字集字體,以顯示罕用字。如果你的機器顯示不出字形,可把它複製貼到[笈成檢字系統](https://jicheng.tw/hanzi/)搜尋以查出其字形:
>
> ![2021-08-14_15_54_11-笈成檢字_-__來賓__-_Microsoft__Edge](/uploads/1804fca1aa685fae777d31adcbbe8f3a/2021-08-14_15_54_11-笈成檢字_-__來賓__-_Microsoft__Edge.png)
>
> ![2021-08-14_15_56_48-____1174868____笈成檢字_-__來賓__-_Microsoft__Edge](/uploads/32de92870f6c4cd7c979103f5bcc70b2/2021-08-14_15_56_48-____1174868____笈成檢字_-__來賓__-_Microsoft__Edge.png)
3. 把修改後的檔案存檔並傳給我們,我們會繼續查證及修正那些有問題的地方。
補充
====
* 如有預計要檢查一批書,可先在這裡回文或在 Google 表單中加入註解,讓大家知道有人即將處理哪些書,減少重複做工的機會。
> 盡量劃出一個具體範圍(例如:刪補頤生微論~外科證治全書),即使沒有明確想處理的書,也可以先劃個 10~20 本,這樣其他人才可以在你工作的同時處理其他書。
https://gitlab.com/jicheng/jc.data/-/issues/8
書籍元資料(後設資料)改進計畫
2021-09-12T09:23:22Z
Danny Lin
書籍元資料(後設資料)改進計畫
操作方法
====
1. 進入「[笈成元資料列表](https://docs.google.com/spreadsheets/d/1pbVjz0LSzn3PqdS18La1PiyN-7dUhAdRxFhIa2Wq_v8/edit?usp=sharing)」表單,從 [檔案] > [下載] 把它下載成試算表格式(.xlsx, .ods, .csv, .tsv 皆可,可視個人習慣及手邊有的編輯工具選擇)。
2. 把下載的檔案複製一份備份。
3. 修改檔案中的錯誤或為空白欄位...
操作方法
====
1. 進入「[笈成元資料列表](https://docs.google.com/spreadsheets/d/1pbVjz0LSzn3PqdS18La1PiyN-7dUhAdRxFhIa2Wq_v8/edit?usp=sharing)」表單,從 [檔案] > [下載] 把它下載成試算表格式(.xlsx, .ods, .csv, .tsv 皆可,可視個人習慣及手邊有的編輯工具選擇)。
2. 把下載的檔案複製一份備份。
3. 修改檔案中的錯誤或為空白欄位補上資料。
4. 把修改前(步驟2備份的檔案)及修改後(步驟3修改的檔案)的檔案一起傳給我們。
補充說明
====
* 元資料中最重要的資訊是底本。有可靠的底本才能做進一步文本檢查。
* 其次最重要的資訊是年份,因為關係到考證,且我們之後可能會按年份重新排序整個典籍列表,可優先處理。
* 如打算更動大量元資料,可先在這裡回文或在表單中加入註解,讓大家知道有人正在處理哪些書,減少多人重複做工的機會。