Apache Hadoop zahrnuje technologie pro zpracování velkých objemů dat v distribuovaném prostředí výpočetních zdrojů. V úvodních partiích práce jsou popsány principy fungování systému a jeho základních komponent. Následuje porovnání s jinými datovými úložišti, zejména relačními databázemi. Stěžejní částí je řešení praktického případu užití systému - zpracování dat z oblasti geografických informačních systémů. Výsledkem je návrh vlastního clusteru, instalace systému včetně potřebných komponent a porovnání výkonu s relační databází PostgreSQL.
Anotace v angličtině
Apache Hadoop includes technologies for processing large volumes of data in a distributed computing resource environment. The introductory parts of the thesis describe the principles of the system and its basic components. The following is a comparison with other data stores, especially relational databases. The key part is the solution of the practical use case of the system - processing of data from geographic information systems. The result is a custom cluster design, system installation, including required components, and performance comparisons with the PostgreSQL relational database.
Klíčová slova
Hadoop, Big Data, Hive, Gis Tools for Hadoop, PostGIS, distribuované
úložište, cluster
Klíčová slova v angličtině
Hadoop, Big Data; Hive, Gis Tools for Hadoop, PostGIS, distributed
storage, cluster
Rozsah průvodní práce
61
Jazyk
CZ
Anotace
Apache Hadoop zahrnuje technologie pro zpracování velkých objemů dat v distribuovaném prostředí výpočetních zdrojů. V úvodních partiích práce jsou popsány principy fungování systému a jeho základních komponent. Následuje porovnání s jinými datovými úložišti, zejména relačními databázemi. Stěžejní částí je řešení praktického případu užití systému - zpracování dat z oblasti geografických informačních systémů. Výsledkem je návrh vlastního clusteru, instalace systému včetně potřebných komponent a porovnání výkonu s relační databází PostgreSQL.
Anotace v angličtině
Apache Hadoop includes technologies for processing large volumes of data in a distributed computing resource environment. The introductory parts of the thesis describe the principles of the system and its basic components. The following is a comparison with other data stores, especially relational databases. The key part is the solution of the practical use case of the system - processing of data from geographic information systems. The result is a custom cluster design, system installation, including required components, and performance comparisons with the PostgreSQL relational database.
Klíčová slova
Hadoop, Big Data, Hive, Gis Tools for Hadoop, PostGIS, distribuované
úložište, cluster
Klíčová slova v angličtině
Hadoop, Big Data; Hive, Gis Tools for Hadoop, PostGIS, distributed
storage, cluster
Zásady pro vypracování
Cílem práce je ukázat možnosti systému Hadoop v oblasti distribuovaného ukládání a zpracování velkého množství dat. Práce by se měla zabývat následujícími oblastmi:
- Co je Hadoop cluster, co nabízí, porovnání s jinými datovými úložišti pro strukturovaná data, především relačními databázemi (výhody, nevýhody, omezení - možnosti indexování, transakcí, škálovatelnost atd.).
- Přehled základních komponent Hadoop clusteru. Detailnější pohled na komponenty pro ukládání strukturovaných dat, jejich porovnání a typické úlohy vhodné pro konkrétní komponenty (Hive, HBase, Kudu).
- Příklad použití (use case) - získání dat z externích zdrojů, načtení do Hadoopu, zpracování (transformace či jiný výpočet) v clusteru, prezentace. Vhodným příkladem by mohlo být zpracování geografických dat z GIS systému s využitím výpočetní síly Hadoop clusteru.
- Závěr, hodnocení. Co se podařilo, v čem Hadoop naplnil očekávání, případně v čem nikoliv.
Zásady pro vypracování
Cílem práce je ukázat možnosti systému Hadoop v oblasti distribuovaného ukládání a zpracování velkého množství dat. Práce by se měla zabývat následujícími oblastmi:
- Co je Hadoop cluster, co nabízí, porovnání s jinými datovými úložišti pro strukturovaná data, především relačními databázemi (výhody, nevýhody, omezení - možnosti indexování, transakcí, škálovatelnost atd.).
- Přehled základních komponent Hadoop clusteru. Detailnější pohled na komponenty pro ukládání strukturovaných dat, jejich porovnání a typické úlohy vhodné pro konkrétní komponenty (Hive, HBase, Kudu).
- Příklad použití (use case) - získání dat z externích zdrojů, načtení do Hadoopu, zpracování (transformace či jiný výpočet) v clusteru, prezentace. Vhodným příkladem by mohlo být zpracování geografických dat z GIS systému s využitím výpočetní síly Hadoop clusteru.
- Závěr, hodnocení. Co se podařilo, v čem Hadoop naplnil očekávání, případně v čem nikoliv.
Seznam doporučené literatury
Apache Hadoop [online]. Dostupné z: http://hadoop.apache.org/
Machine Learning | Analytics | Cloud - Cloudera [online]. Dostupné z: https://www.cloudera.com/
White, T.: Hadoop: The Definitive Guide, 4th Edition. O'Reilly Media, 2015.
Date C.J.: Relational Theory for Computer Professionals: What Relational Databases Are Really All About (Theory in Practice). O'Reilly Media, 2013.
Holubová, I., Kosek, J., Minařík, J., Novák, D.: Big Data a NoSQL databáze. GRADA Publishing, a.s., 2015.
Seznam doporučené literatury
Apache Hadoop [online]. Dostupné z: http://hadoop.apache.org/
Machine Learning | Analytics | Cloud - Cloudera [online]. Dostupné z: https://www.cloudera.com/
White, T.: Hadoop: The Definitive Guide, 4th Edition. O'Reilly Media, 2015.
Date C.J.: Relational Theory for Computer Professionals: What Relational Databases Are Really All About (Theory in Practice). O'Reilly Media, 2013.
Holubová, I., Kosek, J., Minařík, J., Novák, D.: Big Data a NoSQL databáze. GRADA Publishing, a.s., 2015.
Přílohy volně vložené
DVD
Přílohy vázané v práci
-
Převzato z knihovny
Ano
Plný text práce
Přílohy
Posudek(y) oponenta
Hodnocení vedoucího
Záznam průběhu obhajoby
V úvodu své prezentace student představil cíle své práce, zpracování velkého objemu dat pomocí technologie Hadoop. Dále popsal framework Apache Hadoop a porovnal jej s relační databázi. V závěru diplomant popsal parametry testovaných sestav a zhodnotil výsledky testů.
Po studentově prezentaci vedoucí a oponent přečetli své posudky.