Předmět: Práce s jazykovými korpusy

» Seznam fakult » FIF » KBH
Název předmětu Práce s jazykovými korpusy
Kód předmětu KBH/91MJK
Organizační forma výuky Seminář
Úroveň předmětu Doktorský
Rok studia nespecifikován
Semestr Zimní a letní
Počet ECTS kreditů 5
Vyučovací jazyk Čeština
Statut předmětu nespecifikováno
Způsob výuky Kontaktní
Studijní praxe Nejedná se o pracovní stáž
Doporučené volitelné součásti programu Není
Vyučující
  • Pořízka Petr, PhDr. Ph.D.
Obsah předmětu
Student bude během kurzu veden k tomu, aby si osvojil nejnutnější terminologii, teorii a metody k samostatné práci s textem. Konkrétní náplň kurzu se bude po dohodě řídit preferencemi a potřebami studentů-doktorandů. Je tedy vždy sestavován "na míru" pro aktuální seminář. Mezi ústřední body, z nichž je možno sestavit konkrétní program, patří zejména: -- práce s korpusovými (zejm. konkordančními) nástroji, konkrétně ---- tvorba a následná analýza frekvenčního slovníku textu ---- vytěžování dat: konkordance, n-gramy (klastry), kolokace/koligace, klíčová slova textu (a jejich vazby) ---- práce s anotovanou databází a komparace s textem neanotovaným; formát(y) korpusových dat ---- využití regulárních výrazů či speciálních dotazovacích jazyků (zejm. CQL) k vytěžování a filtrování dat -- zkoumání tematické koncentrace textu, bohatosti slovníku a dalších aspektů frekvenční struktury textu -- možnosti komparace a detekce vzájemných shod či rozdílností mezi texty -- zpracování, sumarizace a vizualizace výsledných dat -- základní principy testování hypotéz prostřednictvím vybraných statistických testů Korpus a vytěžování dat: V kurzu budou stručně shrnuty možnosti dotazovacího jazyka CQL (Corpus Query Language) - zejm. regulární a booleovské výrazy; tematizovány vybrané metody kvantitativní lingvistiky, jež umožňují vyhodnocování dat prostřednictvím statistických testů. Z hlediska lingvistické statistiky je možno se zaměřit zejm. na frekvenční distribuce (četnost výskytu), tvorbu frekvenčního slovníku, rozdíly mezi absolutní :: relativní :: normalizovanou frekvencí jednotek, tematickou koncentraci textu a sémanticky klíčové výrazy; statistické metody a nástroje v korpusových manažerech a programech (MI-score, t-score, chi-squared, log-likelihood...), testy statistické významnosti při testování statistických hypotéz (zejm. test dobré shody, tzv. chí-kvadrát, Studentův t-test...). Jako součást kurz lze nabídnout i základní možnosti zpracování číselných dat (Excel, příp. dílčí specializované aplikace).

Studijní aktivity a metody výuky
Monologická (výklad, přednáška, instruktáž), Dialogická (diskuze, rozhovor, brainstorming), Metody práce s textem (učebnicí, knihou), Demonstrace
Výstupy z učení
Cílem je seznámit účastníky se základními pojmy, metodami a nástroji korpusové lingvistiky; s účelem připravit participanty kurzu na práci s korpusy, které se v posledních letech staly jednou ze základních pomůcek pro vědecké studium jazyka. Konkrétní náplň kurzu se bude po dohodě řídit preferencemi a potřebami studentů-doktorandů.
Obeznámenost se základními metodami vytěžování korpusových dat Schopnost sestavit malý korpus jazykových dat Schopnost interpretace korpusových dat
Předpoklady
nespecifikováno

Hodnoticí metody a kritéria
Rozbor produktů pracovní činnosti studenta (technické práce), Seminární práce

- aktivní práce v semináři - vypracovaný seminární projekt (dílčí cvičení)
Doporučená literatura
  • Pražský akademický korpus (http://ufal.mff.cuni.cz/rest/CAC/doc/cac-guide/cz/html).
  • Pražský závislostní korpus (http://ufal.mff.cuni.cz/pdt2.0/index-cz.html).
  • Ústav Českého národního korpusu (http://ucnk.ff.cuni.cz).
  • Baker, P. - Hardie, A. - McEnery, T. A Glossary of Corpus Linguistics. Edinburgh 2006.
  • Benko, V. a kol. (2019). Webové korpusy Aranea. Bratislava.
  • Čermák - Klímová - Petkevič. Studie z korpusové lingvistiky. Praha 2000..
  • Čermák, F. - Blatná, R. (eds.). Jak využívat Český národní korpus. Praha 2005.
  • Čermák, F. - Blatná, R. Korpusová lingvistika: Stav a modelové přístupy. Praha 2006..
  • Čermák, F. - Křen, M. (eds.). (2004). Frekvenční slovník češtiny. Praha.
  • Čermák, F. (ed.). Frekvenční slovník mluvené češtiny. Praha 2007.
  • Kol. aut. (2007). Průvodce českým akademickým korpusem 1.0.. Praha.
  • Kol. Manuál práce s ČNK (wikidokumentace). .
  • McEnery, T.-Wilson, A. Corpus Linguistics. An Introduction. Edinburgh 2001.
  • Pořízka, P. (2014). Tvorba korpusů a vytěžování jazykových dat (metody, modely, nástroje). Olomouc.
  • Šonková, J. (2008). Morfologie mluvené češtiny: Frekvenční analýza. Praha.
  • Wynne Martin (ed.). (2005). Developing Linguistic Corpora: A Guide to Good Practice. Oxford.


Studijní plány, ve kterých se předmět nachází
Fakulta Studijní plán (Verze) Kategorie studijního oboru/specializace Doporučený ročník Doporučený semestr