| Název předmětu | Lingvistický data-mining 2 - Korpusová lingvistika |
|---|---|
| Kód předmětu | KOL/91PM2 |
| Organizační forma výuky | Seminář |
| Úroveň předmětu | Doktorský |
| Rok studia | nespecifikován |
| Semestr | Zimní a letní |
| Počet ECTS kreditů | 15 |
| Vyučovací jazyk | Čeština |
| Statut předmětu | Povinně-volitelný |
| Způsob výuky | Kontaktní |
| Studijní praxe | Nejedná se o pracovní stáž |
| Doporučené volitelné součásti programu | Není |
| Vyučující |
|---|
|
| Obsah předmětu |
|
Podrobnější výklad o několika nejvýznamnějších přístupech moderní formální lingvistiky, a to chomskyanského GB a minimalismu, lexikální funkční gramatiky J. Bresnanové, teorie optimalismu, kategoriální gramatiky a různých přístupech gramatiky závislostní. V celém výkladu bude brán výrazný zřetel na strukturální lingvistiku Pražské školy a její výsledky.
|
| Studijní aktivity a metody výuky |
| Přednášení |
| Výstupy z učení |
|
Cílem předmětu je rozvést znalosti z prvních dvou kurzů a stavět na programovacím jazyku R, ve kterém budou řešeny praktické úlohy především vícerozměrné datové analýzy. V tomto kurzu je řešen způsob porovnávání podobnosti objektů popsaných více než jednou vlastností, jejich shlukování dle podobnosti, porozumění vztahů jednotlivých vlastností mezi sebou a jejich vliv na utváření skupin. Dále je brán zřetel na smysluplnou vizualizaci takových dat a jejich interpretaci klasickými metodami až po ty nejmodernější. Tyto znalosti jsou dále rozšířeny o teorii grafů, jejich vizualizaci, aplikacím na sociální sítě a jejich vytěžování z různých zdrojů. Tento předmět přináší hlubší praktické i teoretické dovednosti. Vícerozměrné analýzy - Využití více kvantifikovaných vlastností, úskalí - Vzdálenosti a podobnosti mezi objekty - Vizualizace a interpretace vícerozměrných dat, vztahy mezi vlastnostmi - Shlukovací metody, hledání vzorů a skupin, popis a interpretace dat - Aplikace metod v praxi Problematika získávání dat - Korpusy, online databáze, otevřené datasety - Získávání dat z internetových zdroj: přístup přes API, REST, formáty JSON, XML - Web-Scrapping Texty a vícerozměrná data - Užití kvantitativní lingvistiky při popisu textů, editační vzdálenosti, latentní sémantika - Klasické způsoby modelování textů, jejich úskalí a řešení - Aplikace explikovaných vícerozměrných metod od shlukování až po vizualizace - Aplikace metod v praxi na určování autorství, jazyka, podobnosti děl, užití v sociologii, antropologii ad. Teorie grafů a sociální sítě - Teorie grafů a aplikace na sociální a jiné sítě, analýza sociální sítí (SNA) - Způsoby vytěžování vztahů z textu: dopisy, knihy, rukopisy, ? - Sociální sítě na internetu: diskuzní fóra a další - získávání dat a vztahů - Časová osa a vývoj vztahů - Nástroje Gephi a Cytoscape - Aplikace v historiografii, sociologii, politologii Úvod do geoinformačních systémů - Analýza dat vztahujících se k oblastem - Způsoby vizualizace dat
|
| Předpoklady |
|
Předmět je určen pouze pro studenty doktorského studia.
|
| Hodnoticí metody a kritéria |
|
Ústní zkouška
(1) Vypracování a splnění zadaných úloh. (2) Přečtení zadaných materiálů. |
| Doporučená literatura |
|
| Studijní plány, ve kterých se předmět nachází |
| Fakulta | Studijní plán (Verze) | Kategorie studijního oboru/specializace | Doporučený semestr | |
|---|---|---|---|---|
| Fakulta: Filozofická fakulta | Studijní plán (Verze): Lingvistika a Digital Humanities (2025) | Kategorie: Filologické vědy | - | Doporučený ročník:-, Doporučený semestr: - |
| Fakulta: Filozofická fakulta | Studijní plán (Verze): Lingvistika a Digital Humanities (2025) | Kategorie: Filologické vědy | - | Doporučený ročník:-, Doporučený semestr: - |
| Fakulta: Filozofická fakulta | Studijní plán (Verze): Lingvistika a Digital Humanities (2020) | Kategorie: Filologické vědy | - | Doporučený ročník:-, Doporučený semestr: - |
| Fakulta: Filozofická fakulta | Studijní plán (Verze): Lingvistika a Digital Humanities (2020) | Kategorie: Filologické vědy | - | Doporučený ročník:-, Doporučený semestr: - |