Commit 599a58af authored by Stanislav Horáček's avatar Stanislav Horáček

correct name of dictionary from Masaryk university

parent a83dfd69
......@@ -34,15 +34,15 @@ date: 2019-03-28 11:16:44
## Jak slovník vypadá a jak vznikl
Slovník spojuje data ze dvou zdrojů:
- **[Českého tvaroslovného slovníku](https://github.com/plin/slovnik)**, který vytvořili na Masarykově univerzitě v Brně na základě jazykového korpusu; zveřejnili ho v únoru 2019.
- **[Českého tvarotvorného slovníku](https://github.com/plin/slovnik)**, který vytvořili na Masarykově univerzitě v Brně na základě jazykového korpusu; zveřejnili ho v únoru 2019.
- Slovníkových hesel pro český jazyk zadaných do **[Wikidat](https://www.wikidata.org/wiki/Wikidata:Lexicographical_data/cs)**, databáze původně vytvořené pro potřeby Wikipedie. Obsah do Wikidat přidává a spravuje množství dobrovolných přispěvatelů. Slovníková data v nich byla zavedena během roku 2018.
Oba zdroje jsou zveřejněny pod licencí odpovídající licenci [Creative Commons CC0](https://creativecommons.org/publicdomain/zero/1.0/), díky níž je můžeme využívat pro jakékoliv účely.
Drtivá většina slov pochází z Tvaroslovného slovníku, podíl tvarů získaných z Wikidat se pohybuje v řádu procent. Obrovská výhoda Wikidat však spočívá v tom, že do nich můžeme snadno zadávat nová slova, jejich tvary a další informace (kategorie, příznaky apod.). A co víc: odhlédneme-li od tohoto konkrétního slovníku, takto budovaná databáze češtiny, na jednom místě a společnými silami, má potenciál stát se na poli slovníků tím, čím se stala Wikipedie mezi encyklopediemi.
Drtivá většina slov pochází z Tvarotvorného slovníku, podíl tvarů získaných z Wikidat se pohybuje v řádu procent. Obrovská výhoda Wikidat však spočívá v tom, že do nich můžeme snadno zadávat nová slova, jejich tvary a další informace (kategorie, příznaky apod.). A co víc: odhlédneme-li od tohoto konkrétního slovníku, takto budovaná databáze češtiny, na jednom místě a společnými silami, má potenciál stát se na poli slovníků tím, čím se stala Wikipedie mezi encyklopediemi.
Slovník je nutné považovat za **experimentální**, nevhodný pro běžné nasazení. Přestože Tvaroslovný slovník vzešel z analýzy celé slovní zásoby, zveřejněny byly jen tři slovní druhy: podstatná a přídavná jména a slovesa. Wikidata, kde nalezneme slovní druhy bez omezení, jsou zase výsledkem mravenčí práce jednotlivců a zatím pokrývají jen malou část jazyka. Při zkoušení slovníku si záhy všimnete i dalších systematických nedostatků: chybí stupňovaná přídavná jména a vlastní jména, zahrnuty jsou některé nespisovné tvary a podobně.
Slovník je nutné považovat za **experimentální**, nevhodný pro běžné nasazení. Přestože Tvarotvorný slovník vzešel z analýzy celé slovní zásoby, zveřejněny byly jen tři slovní druhy: podstatná a přídavná jména a slovesa. Wikidata, kde nalezneme slovní druhy bez omezení, jsou zase výsledkem mravenčí práce jednotlivců a zatím pokrývají jen malou část jazyka. Při zkoušení slovníku si záhy všimnete i dalších systematických nedostatků: chybí stupňovaná přídavná jména a vlastní jména, zahrnuty jsou některé nespisovné tvary a podobně.
Formátem je široce používaný [Hunspell](https://hunspell.github.io/). Zdrojové kódy slovníku jsou k dispozici [na GitLabu](https://gitlab.com/strepon/czech-cc0-dictionaries/), k vyzkoušení je připraveno [rozšíření pro LibreOffice](https://extensions.libreoffice.org/extensions/czech-cc0-dictionaries-ceske-cc0-slovniky) a v repozitáři nalezneme také [doplněk pro software Mozilly](https://gitlab.com/strepon/czech-cc0-dictionaries/tree/master/mozilla), například Firefox.
......@@ -69,7 +69,7 @@ V práci s lexémy vám pomůže [nápověda Wikidat](https://www.wikidata.org/w
**Mějte na paměti, že Wikidata mají nejvolnější možnou licenci, proto do nich nelze přebírat slova z jiných slovníků či zdrojů, ty mají v naprosté většině licenci omezenější!** Nelze tedy využít ani data ze slovníku kontroly pravopisu pod licencí GNU GPL, který je aktuálně nejpoužívanějším svobodným slovníkem svého druhu (ale už léta ho nikdo neaktualizuje).
### Nesprávné slovo
Nejdřív zkontrolujte, zda se nesprávné slovo nenachází na Wikidatech, a tam ho můžete případně upravit (například mu přiřadit příznak, že se jedná o nespisovný tvar). Pravděpodobně však bude pocházet z Tvaroslovného slovníku, v tom případě je řešením přidat slovo do seznamu zakázaných slov (blacklistu); to už vyžaduje práci s repozitářem.
Nejdřív zkontrolujte, zda se nesprávné slovo nenachází na Wikidatech, a tam ho můžete případně upravit (například mu přiřadit příznak, že se jedná o nespisovný tvar). Pravděpodobně však bude pocházet z Tvarotvorného slovníku, v tom případě je řešením přidat slovo do seznamu zakázaných slov (blacklistu); to už vyžaduje práci s repozitářem.
### Další možnosti
Obohatit Wikidata a vylepšit slovník můžeme i jinak. Také tyto činnosti vyžadují pokročilejší znalosti:
......@@ -80,7 +80,7 @@ Obohatit Wikidata a vylepšit slovník můžeme i jinak. Také tyto činnosti vy
- některé lexémy by bylo možné vytvořit z položek Wikidat (například vlastní jména českých obcí),
- díky stejné licenci lze do Wikidat vkládat data z Tvaroslovného slovníku, kvůli nespisovným a hovorovým tvarům by však import nemohl být plně automatický,
- díky stejné licenci lze do Wikidat vkládat data z Tvarotvorného slovníku, kvůli nespisovným a hovorovým tvarům by však import nemohl být plně automatický,
- z [Wikislovníku](https://cs.wiktionary.org/wiki/Wikislovn%C3%ADk:Hlavn%C3%AD_strana), jiného projektu se stejným obsahem jako slovníková data na Wikidatech, kvůli odlišné licenci data importovat nelze, pokud s tím nesouhlasí autoři – [někteří však tak již učinili](https://cs.wiktionary.org/wiki/Wikislovn%C3%ADk:Pod_l%C3%ADpou/Archiv-2018#V%C3%BDznamy_na_Wikidatech_a_licence).
......
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment