Problematika ověřování a určování autorství je nahlížena optikou mnoha různých vědních oborů a zkoumána za použití nejrůznějších přístupů. V této práci se zaměříme na ověřování autorství prostřednictvím kvantitativních metod. Pro naše účely jsme vybrali tři z nich: textové ukazatele, model Bag-of-Words a nízkofrekvenční lexikum hapax legomenon. Za pomoci faktorové analýzy vybereme textové ukazatele a jejich výpovědní hodnotu ve vztahu k otázce autorství zkoumaných textů vyhodnotíme prostřednictvím logistické regrese. Dále se zaměříme na použití modelu Bag-of-Words. Výstupy analýz, které získáme použitím tohoto modelu, budeme prezentovat prostřednictvím vizualizační metody vícerozměrného škálování. Třetím zkoumaným přístupem je využití nízkofrekvenčního lexika hapax legomenon jako ukazatele autorského stylu. Zde pro vizualizaci výsledků analýz použijeme nejen metodu vícerozměrného škálování, ale pro porovnání informačního přínosu použijeme i metodu hierarchického shlukování. Tato práce si klade za cíl ukázat, které z vybraných textových ukazatelů mají statisticky významný přínos a na příkladech grafických vizualizací modelu Bag-of-Words, a modelu Bag-of-Words aplikovaného na hapax legomenon, srovnáme jejich informační přínos pro vyhodnocení autorství textu.
Anotace v angličtině
Authorship verification and attribution are viewed through the lens of many different scientific disciplines and investigated using a variety of approaches. In this work, we focus on authorship verification through quantitative methods. We utilize three methods: text indicators, the Bag-of-Words model, and the low-frequency lexicon hapax legomena. With the help of factor analysis, we select suitable text indicators and evaluate their statistical significance and informative value with respect to the authorship of the examined texts through logistic regression. We then employ the Bag-of-Words model and visualize its results using the multi-dimensional scaling method. Finally, we use the low-frequency lexicon hapax legomena as indicators of author writing styles. In addition to the multi-dimensional scaling method, we visualize its results using the hierarchical clustering method to compare its advantages.
In this work, we determine which of the selected text indicators are statistically significant. We compare the advantages of the Bag-of-Words model and its application to the hapax legomena through graphical visualizations of their results and determine their benefits in the analysis of text authorship.
Problematika ověřování a určování autorství je nahlížena optikou mnoha různých vědních oborů a zkoumána za použití nejrůznějších přístupů. V této práci se zaměříme na ověřování autorství prostřednictvím kvantitativních metod. Pro naše účely jsme vybrali tři z nich: textové ukazatele, model Bag-of-Words a nízkofrekvenční lexikum hapax legomenon. Za pomoci faktorové analýzy vybereme textové ukazatele a jejich výpovědní hodnotu ve vztahu k otázce autorství zkoumaných textů vyhodnotíme prostřednictvím logistické regrese. Dále se zaměříme na použití modelu Bag-of-Words. Výstupy analýz, které získáme použitím tohoto modelu, budeme prezentovat prostřednictvím vizualizační metody vícerozměrného škálování. Třetím zkoumaným přístupem je využití nízkofrekvenčního lexika hapax legomenon jako ukazatele autorského stylu. Zde pro vizualizaci výsledků analýz použijeme nejen metodu vícerozměrného škálování, ale pro porovnání informačního přínosu použijeme i metodu hierarchického shlukování. Tato práce si klade za cíl ukázat, které z vybraných textových ukazatelů mají statisticky významný přínos a na příkladech grafických vizualizací modelu Bag-of-Words, a modelu Bag-of-Words aplikovaného na hapax legomenon, srovnáme jejich informační přínos pro vyhodnocení autorství textu.
Anotace v angličtině
Authorship verification and attribution are viewed through the lens of many different scientific disciplines and investigated using a variety of approaches. In this work, we focus on authorship verification through quantitative methods. We utilize three methods: text indicators, the Bag-of-Words model, and the low-frequency lexicon hapax legomena. With the help of factor analysis, we select suitable text indicators and evaluate their statistical significance and informative value with respect to the authorship of the examined texts through logistic regression. We then employ the Bag-of-Words model and visualize its results using the multi-dimensional scaling method. Finally, we use the low-frequency lexicon hapax legomena as indicators of author writing styles. In addition to the multi-dimensional scaling method, we visualize its results using the hierarchical clustering method to compare its advantages.
In this work, we determine which of the selected text indicators are statistically significant. We compare the advantages of the Bag-of-Words model and its application to the hapax legomena through graphical visualizations of their results and determine their benefits in the analysis of text authorship.
Diplomová práce bude zaměřená na ověření autorství prostřednictvím kvantitativní analýzy. Cílem práce bude provést sérii kvantitativních analýz dvou předem vyhotovených korpusů a na základě porovnání výsledků rozhodnout, jestli jsou texty obou korpusů dílem jednoho či více autorů.
Zásady pro vypracování
Diplomová práce bude zaměřená na ověření autorství prostřednictvím kvantitativní analýzy. Cílem práce bude provést sérii kvantitativních analýz dvou předem vyhotovených korpusů a na základě porovnání výsledků rozhodnout, jestli jsou texty obou korpusů dílem jednoho či více autorů.
Seznam doporučené literatury
BENEŠOVÁ, M. Kvantitativní analýza textu se zvláštním zřetelem k analýze fraktální. Olomouc: Univerzita Palackého v Olomouci, 2011. COULTHARD, M., JOHNSON A. An Introduction to Forensic Linguistics: Language in Evidence. New York: Routledge, 2007. ČECH, R., POPESCU I.-I., ALTMANN G. Metody kvantitativní analýzy (nejen) básnických textů. Olomouc: Univerzita Palackého v Olomouci, 2014. MATLACH, V. Kvantitativně lingvistický software. Diplomová práce (Mgr.). Olomouc: Univerzita Palackého v Olomouci, 2014. MUSILOVÁ, V. Význam a možnosti lingvistických a psychologických analýz při zjišťování autorství textů. Bulletin advokacie 5, 1994, 19\textendash24. SVOBODOVÁ, M. Forenzní lingvistika: obsah a možnosti. SaS 58, 1997, 124\textendash129. VAŠÁK, P. Statistika a sporné autorství. SaS 27, 1966, 364\textendash370.
Seznam doporučené literatury
BENEŠOVÁ, M. Kvantitativní analýza textu se zvláštním zřetelem k analýze fraktální. Olomouc: Univerzita Palackého v Olomouci, 2011. COULTHARD, M., JOHNSON A. An Introduction to Forensic Linguistics: Language in Evidence. New York: Routledge, 2007. ČECH, R., POPESCU I.-I., ALTMANN G. Metody kvantitativní analýzy (nejen) básnických textů. Olomouc: Univerzita Palackého v Olomouci, 2014. MATLACH, V. Kvantitativně lingvistický software. Diplomová práce (Mgr.). Olomouc: Univerzita Palackého v Olomouci, 2014. MUSILOVÁ, V. Význam a možnosti lingvistických a psychologických analýz při zjišťování autorství textů. Bulletin advokacie 5, 1994, 19\textendash24. SVOBODOVÁ, M. Forenzní lingvistika: obsah a možnosti. SaS 58, 1997, 124\textendash129. VAŠÁK, P. Statistika a sporné autorství. SaS 27, 1966, 364\textendash370.