Jak se shánějí miliardy na nový slovník

10. březen 2015

Původně jazykovědci hledali zdroj materiálu pro nový slovník. Postupně se ukázalo, že je tak dobrý, že z něj může čerpat celá lingvistika. Český národní korpus.


Příspěvky v Meteoru 7. 3. 2015
01:09 Proč Slunce svítí
11:19 Platí teorie zamrzlé evoluce v politologii?
24:12 Co se českým vědcům povedlo nejvíc
33:17 Vražedné kudlanky
41:48 Tajemný oblak na Marsu
45:18 Největší databáze českého jazyka
48:55 Gravitační vlny se stále schovávají

Není to největší objev české jazykovědy v pravém slova smyslu. Ovšem rozhodně jí nejvíce pomáhá objevovat nové poznatky o češtině. Český národní korpus vznikal a vzniká už 20 let. Je dílem kolektivu autorů z Filosofické fakulty Univerzity Karlovy vedeného profesorem Františkem Čermákem. Za tu dobu nashromáždil přes tři miliardy slov a další přibývají.


České výkladové slovníky
Velký Příruční slovník jazyka českého pochází z let 1935-57. Na rozdíl od pozdějších slovníků se zaměřuje na popis významu jednotlivých slov. Ke každému heslu uvádí jako příklad užití slova citát z literatury.
Střední Slovník spisovného jazyka českého vycházel v šedesátých letech (s dodatkem z roku 1989). Má funkci kodifikační, tj. prakticky vymezuje „spisovnost“ slov po stránce pravopisné, výslovnostní i gramatické.
Aktualizací se dočkal jen jednosvazkový kodifikační Slovník spisovné češtiny pro školu a veřejnost. Poprvé vyšel v roce 1978, doplnění se dočkal v roce 1994 a další opravy v roce 2003.

Internetový vyhledavač nemá šanci

„Je epochální v tom, že poprvé v historii dává dostatečné množství kontextů o používání slov poznáním syntagmatické čili kombinatorické stránky jazyka a jeho slov,“ vysvětluje František Čermák. Podle něj se určitě nedá nahradit internetovými vyhledavači.

„Vedle kombinatorické stránky chování slov nabízí poznání slov v reálných kontextech, což v minulosti možné nebylo. Až z nich lze zobecnit jak jejich význam, tak úzus, to znamená přijatelné a smysluplné kombinace slov.“

Pravidla a příručky jsou pozadu

„Úzus je založený na nekonečné variabilitě a proměnách jazyka. Tím, jak nám jej korpus ukazuje, ukazuje zároveň jeho skutečný vývoj. To musí kodifikátory jazyka přivádět asi k zoufání,“ říká profesor Čermák.

„Periodicky přepisovali podobu jazyka, o které si mysleli, že je to ta správná, do doby, než ji sami popřeli vydáním nových pravidel. Ve skutečnosti to vývojové aspekty spíše zakrývalo. Jazyk se tím falešně prezentoval jako neměnný a ustrnulý. Přitom takový nikdy nebyl.“

Co nenajdeš v lexikonu...

Ukázka z Příručního slovníku jazyka českého - heslo "židle"

Základním podnětem pro vznik korpusu byla potřeba nového slovníku češtiny. Zastaralé byly ale nejen slovníky. Jak říká František Čermák, proměnu si zasloužila i metoda sběru slov:

„Stará základna byla budovaná ručně výpisky na kartičky. Za sto let se takto nashromáždilo maximálně dvanáct až patnáct milionů kusů. Dnešní počítačově založený korpus nabízí ve svých miliardách slov stonásobky potřebných informací.“

Český národní korpus se stal zdrojem poznání jazyka v celé lingvistice – i mimo ni. Na adrese korpus.cz je přístupný široké veřejnosti.

autoři: Petr Sobotka , mas
Spustit audio