Portál UPOL - Prohlížení

Prohlížení (S025)

Hlavní nabídka Prohlížení IS/STAG

Najít Kvalifikační práce

Tisk/export:

Export dat do formátu PDF - který můžete pohodlně vytisknout...

Tento odkaz můžete zkopírovat a použít například jako záložku prohlížeče pro zobrazení aktuální pozice v Prohlížení IS/STAG.

Nalezené termíny, počet: 1

Stránkování výsledků vyhledávání

Nalezeno 1 záznamů Tisk Export do Xls URL na seznam

Příjmení (rod. přijm.)	Jméno	Os. číslo	Název	Stav práce		Vedoucí/školitelé	Oponenti	Typ práce	Dat. obhaj.	Název
Student	Typ práce	-	-	-	-	-	-	-	-	-	-
VLASÁKOVÁ	Veronika	F170009	Software na klasifikaci textů Software na klasifikaci textů			Matlach Vladimír	Faltýnek Dan	bakalářská	02.09.2020	Software na klasifikaci textů
Veronika VLASÁKOVÁ (F170009)	bakalářská	0XX	0XX	0XX	0XX	0XX	0XX	0XX	0XX	0XX	0XX

Informace o kvalifikační práci Software na klasifikaci textů

Základní údaje

Anotace
Dokument, ke kterému přistupujete, podléhá autorskému zákonu. Jeho porušením se můžete vystavit trestnímu postihu!
Jméno	VLASÁKOVÁ Veronika
Akad. rok	2018/2019
Zadávající pracoviště	KOL
Datum obhajoby	2. 9. 2020
Typ práce	bakalářská
Stav práce	Dokončená práce s úspěšnou obhajobou (DUO).
Úplnost vyplnění požadovaných údajů	- Všechny požadované údaje o této VŠKP jsou vyplněny.
Hlavní téma	Porovnání dokumentů z pohledu kvantitativní lingvistiky a NLP
Hlavní téma v angličtině	Document comparison in terms of quantative linguistics and NLP
Název dle studenta	Software na klasifikaci textů
Název dle studenta v angličtině	Text classification software
Souběžný název	-
Podnázev	-
Vedoucí	Matlach Vladimír, Mgr. Ph.D.
Oponent	Faltýnek Dan, doc. Mgr. Ph.D.
Anotace	Cílem této bakalářské práce je v programovacím jazyce Python vytvořit software, který umožní uživateli trénovat klasifikaci textů a evaluovat její výsledky. Teoretická část této práce představuje software a vysvětluje, jak ho má uživatel použít. Konkrétně je v ní popsáno, s jakými vlastnostmi software pracuje, jak se dají texty předzpracovat, jak vyhodnotit výsledky použitých metod a jak software nainstalovat a nastavit. V praktické části této práce je ukázáno, jak software pracuje s konkrétními problémy. Vyzkoušeno je několik různých druhů klasifikace textů. Jedná se o rozpoznání jazyka, a to u náhodně vybraných jazyků a jazyků ze stejné rodiny, určení autorství u profesionálních autorů a u neprofesionálních autorů, rozpoznání sentimentu a rozpoznání spamu. Výsledky jednotlivých klasifikací textů jsou poté evaluovány. Závěr celou práci shrnuje a představuje možnosti dalšího rozšíření a zlepšení softwaru.
Anotace v angličtině	The aim of this bachelor thesis is to create software in the programing language Python, which would allow the user to train text classification and evaluate its results. The theoretical part of this thesis introduces the software and explains how to use it. Specifically, it is described what feature the software works with, how the texts can be preprocessed, how to evaluate the results of the chosen methods and how to install and configure the software. In the practical part of this thesis it is shown how the software works with specific issues. Several different kinds of text classification are tested. It is language recognition, on randomly chosen languages and on languages from the same family, author identification with professional authors and with nonprofessional authors, sentiment detection and spam detection. The results of each text classification are then evaluated. The conclusion summarizes the entire thesis and introduces the possibilities of expansion and improvement of the software.
Klíčová slova	Zpracování přirozeného jazyka, Python, Kvantitativní lingvistika, Klasifikace textů, Bag of words
Klíčová slova v angličtině	Natural language processing, Python, Quantitative linguistics, Text classification, Bag of words
Rozsah průvodní práce	73 s. (82945 znaků)
Jazyk	CZ
Cílem této bakalářské práce je v programovacím jazyce Python vytvořit software, který umožní uživateli trénovat klasifikaci textů a evaluovat její výsledky. Teoretická část této práce představuje software a vysvětluje, jak ho má uživatel použít. Konkrétně je v ní popsáno, s jakými vlastnostmi software pracuje, jak se dají texty předzpracovat, jak vyhodnotit výsledky použitých metod a jak software nainstalovat a nastavit. V praktické části této práce je ukázáno, jak software pracuje s konkrétními problémy. Vyzkoušeno je několik různých druhů klasifikace textů. Jedná se o rozpoznání jazyka, a to u náhodně vybraných jazyků a jazyků ze stejné rodiny, určení autorství u profesionálních autorů a u neprofesionálních autorů, rozpoznání sentimentu a rozpoznání spamu. Výsledky jednotlivých klasifikací textů jsou poté evaluovány. Závěr celou práci shrnuje a představuje možnosti dalšího rozšíření a zlepšení softwaru.
Anotace v angličtině
The aim of this bachelor thesis is to create software in the programing language Python, which would allow the user to train text classification and evaluate its results. The theoretical part of this thesis introduces the software and explains how to use it. Specifically, it is described what feature the software works with, how the texts can be preprocessed, how to evaluate the results of the chosen methods and how to install and configure the software. In the practical part of this thesis it is shown how the software works with specific issues. Several different kinds of text classification are tested. It is language recognition, on randomly chosen languages and on languages from the same family, author identification with professional authors and with nonprofessional authors, sentiment detection and spam detection. The results of each text classification are then evaluated. The conclusion summarizes the entire thesis and introduces the possibilities of expansion and improvement of the software.
Klíčová slova
Zpracování přirozeného jazyka, Python, Kvantitativní lingvistika, Klasifikace textů, Bag of words
Klíčová slova v angličtině
Natural language processing, Python, Quantitative linguistics, Text classification, Bag of words
Zásady pro vypracování	Diplomantka provede rešerši literatury k tématu diplomové práce, tj. literatury zahrnující metody kvantitativní lingvistiky a metod strojového zpracování jazyka (NLP), na základě těchto rešerší vystaví logickou osnovu diplomové práce. Diplomová práce bude obsahovat popisy metod využitelných při porovnávání dvou a více textů s explikací jejich zamýšlených a potenciálních účelů, které budou dále zmapovány a vyhodnoceny metodami vícerozměrné analýzy (např. MDS) a/nebo strojového učení (např. SVM, Naive Bayes, mělké a hluboké neuronové sítě). Následně práce vyhodnotí a doplní lingvistickou interpretací nejúspěšnější aplikace metod ke konkrétním účelům a dále z nich označí tu nejuniverzálnější. Diplomantka pro každou metodu uvede potřebné úpravy datasetu (textů) ve smyslu zisku rigorózních výsledků.
Zásady pro vypracování
Diplomantka provede rešerši literatury k tématu diplomové práce, tj. literatury zahrnující metody kvantitativní lingvistiky a metod strojového zpracování jazyka (NLP), na základě těchto rešerší vystaví logickou osnovu diplomové práce. Diplomová práce bude obsahovat popisy metod využitelných při porovnávání dvou a více textů s explikací jejich zamýšlených a potenciálních účelů, které budou dále zmapovány a vyhodnoceny metodami vícerozměrné analýzy (např. MDS) a/nebo strojového učení (např. SVM, Naive Bayes, mělké a hluboké neuronové sítě). Následně práce vyhodnotí a doplní lingvistickou interpretací nejúspěšnější aplikace metod ke konkrétním účelům a dále z nich označí tu nejuniverzálnější. Diplomantka pro každou metodu uvede potřebné úpravy datasetu (textů) ve smyslu zisku rigorózních výsledků.
Seznam doporučené literatury	Čech, R., Popescu, I. I., Altmann, G. (2014). Metody kvantitativní analýzy (nejen) básnických textů. Olomouc. Goldberg, Yoav. "Neural network methods for natural language processing." Synthesis Lectures on Human Language Technologies 10.1 (2017). Jurafsky, Dan, and James H. Martin. Speech and language processing. Vol. 3. London: Pearson, 2014. Manning, Ch. D., Raghavan, P., Schütze, H. (2008). An Introduction to Information Retrieval. New York: Cambridge University Press. Popescu, I. (2009). Word Frequency Studies. Rogers, S., Girolami, M. (2016). A First Course in Machine Learning. United States: Chapman & Hall/CRC. Spencer, Neil Hardy. (2014). Essentials of Multivariate Data Analysis.
Seznam doporučené literatury
Čech, R., Popescu, I. I., Altmann, G. (2014). Metody kvantitativní analýzy (nejen) básnických textů. Olomouc. Goldberg, Yoav. "Neural network methods for natural language processing." Synthesis Lectures on Human Language Technologies 10.1 (2017). Jurafsky, Dan, and James H. Martin. Speech and language processing. Vol. 3. London: Pearson, 2014. Manning, Ch. D., Raghavan, P., Schütze, H. (2008). An Introduction to Information Retrieval. New York: Cambridge University Press. Popescu, I. (2009). Word Frequency Studies. Rogers, S., Girolami, M. (2016). A First Course in Machine Learning. United States: Chapman & Hall/CRC. Spencer, Neil Hardy. (2014). Essentials of Multivariate Data Analysis.
Přílohy volně vložené	1 CD
Přílohy vázané v práci	-
Převzato z knihovny	Ano
Plný text práce
Přílohy
Posudek(y) oponenta
Hodnocení vedoucího
Záznam průběhu obhajoby	Diplomantka představila cíle a záměry bakalářské práce. Byly přečteny posudky vedoucího práce a oponenta. Následovala diskuze. Diplomantka zodpověděla položené otázky.
Soubor s průběhem obhajoby

Prohlížení - Portál UPOL

Navigace první úrovně

Prohlížení (S025)

Hlavní nabídka Prohlížení IS/STAG

Najít Kvalifikační práce

Nalezené termíny, počet: 1

Stránkování výsledků vyhledávání

Informace o kvalifikační práci Software na klasifikaci textů