|
Předzpracování a transformace textových kolekcí dat
Maruna, Viktor ; Burget, Radek (oponent) ; Bartík, Vladimír (vedoucí práce)
Tato bakalářská práce se zabývá problematikou získávání znalostí z textů, především se zaměřením na předzpracování a transformaci. V teoretické části práce jsou obsaženy informace o vývoji a metodach procesů získávání znalostí z textů, textových kolekcí dat a využití v praxi. Další část této práce detailně popisuje jednotlivé kroky procesu předzpracování a transformace textových kolekcí dat. V závěrečných částech je přehled o vývoji aplikace, testování a osobní zhodnocení práce.
|
|
Identifikace pohlaví z textu
Mačát, Jakub ; Burda, Karel (oponent) ; Červenec, Radek (vedoucí práce)
Práce je zaměřena na identifikaci pohlaví z textu výhradně z emailové formy a s tím spojené současné metody získávání dat a textu. Jejich výhody, nevýhody a možnosti použití. Dále byl realizován program na rozpoznávání pohlaví v programovacím jazyku Java. V programu Rapid Miner je ukázáno zpracování pomocí různých algoritmů strojového učení. U obou programů jsou popsány jejich základní vlastnosti, užité metody a použité operátory při realizaci. Programy byly testovány na reálných datech. Dále jsou zde uvedeny metody na rozšíření programů. Nakonec jsou zobrazeny příklady jak programy zpracovávají zadané úlohy.
|
|
Shlukování slov podle významu
Jadrníček, Zbyněk ; Otrusina, Lubomír (oponent) ; Smrž, Pavel (vedoucí práce)
Tato práce se zabývá problémem sémantické podobnosti slov v angličtině. Čtenář je nejprve informován o teorii shlukování slov podle významu, poté jsou popsány některé metody a nástroje související s tématem. V praktické části navrhneme a implementujeme systém pro výpočet sémantické podobnosti slov využívající nástroj Word2Vec, konkrétně se zaměříme na biomedicínské texty z databáze MEDLINE. Na závěr práce budeme diskutovat dosažené výsledky a předložíme několik návrhů, jak systém vylepšit.
|
|
Aplikace pro sumarizaci textu
Mička, Jakub ; Zendulka, Jaroslav (oponent) ; Bartík, Vladimír (vedoucí práce)
V této práci jsem se zaměřil na implementaci webové aplikace, která slouží jako prostředek pro automatickou tvorbu souhrnů v anglickém jazyce. Automatická tvorba souhrnů je v řešení prováděna pomocí metody TextRank a Latentní sémantické analýzy. Obě tyto metody jsou vylepšeny o rozpoznávání pojmenovaných entit. Přínosem této práce je zjištění, že využití rozpoznávání pojmenovaných entit u Latentní sémantické analýzy a především u metody TextRank, vede k vytváření kvalitnějších souhrnů. Tato kvalita souhrnů byla ověřena pomocí metrik ROUGE.
|
|
Daňové aspekty tokenizace z pohledu české a zahraniční právní úpravy
Komorous, Jiří ; Sejkora, Tomáš (vedoucí práce) ; Kotáb, Petr (oponent)
Daňové aspekty tokenizace z pohledu české a zahraniční právní úpravy Abstrakt v českém jazyce Cílem této diplomové práce je poskytnout ucelený přehled daňových povinností souvisejících s procesem tokenizace za použití Distributed Ledger Technology z pohledu české právní úpravy, analyzovat problematické oblasti platné daňové legislativy a navrhnout, jak by případně měla daňová legislativa k tokenizaci přistupovat. Tato diplomová práce si dále klade za cíl poskytnout komparativní náhled na zdaňování procesu tokenizace ve vybraných státech světa a zhodnotit tak rozdílné daňové povinnosti z pohledu daňového subjektu. V první části práce jsou nejprve stručně představeny kryptoaktiva a je zde rovněž popsána jejich právní povaha. Dále je v této části rozebráno vymezení kryptoaktiv vůči kryptoměnám a definice pojmu token. Druhá část je zaměřena na bližší analýzu procesu tokenizace a z ní vzešlých tokenů. Pozornost je soustředěna především na klasifikaci tokenů a komparaci rozdílných přístupů ke klasifikaci ze strany odlišných jurisdikcí. Dle účelu tokenizace jsou vydány tokeny různé právní povahy s odlišnými daňovými povinnostmi, je tedy stěžejní si možné druhy vydaných tokenů definovat a stanovit jejich právní vymezení. Třetí část poskytuje analýzu daňových povinností dopadajících na vydavatele tokenů z pohledu...
|
|
Rychlý a trénovatelný tokenizér pro přirozené jazyky
Maršík, Jiří ; Bojar, Ondřej (vedoucí práce) ; Spousta, Miroslav (oponent)
V této práci představujeme systém pro dezambiguaci hranic mezi tokeny a větami. Charakteristickým znakem programu je jeho značná konfigurovatelnost a všestrannost, tokenizér si dokáže poradit např. i s nepřerušovaným čínským textem. Tokenizér používá klasifikátory založené na modelech s maximální entropií, a jedná se tudíž o systém strojového učení, kterému je nutné předložit již tokenizovaná ukázková data k trénování. Program je doplněn nástrojem pro hlášení úspěšnosti tokenizace, což pomáhá zejména při rychlém vývoji a ladění tokenizačního procesu. Systém byl vyvinut pouze za pomoci multiplatformních knihoven a při vývoji byl kladen důraz zejména na efektivitu a správnost. Po nezbytném přehledu jiných tokenizérů a krátkém úvodu do teorie modelů s maximální entropií se většina textu práce zabývá vlastní implementací tokenizéru a vyhodnocením jeho úspěšnosti.
|
|
Aplikace pro sumarizaci textu
Mička, Jakub ; Zendulka, Jaroslav (oponent) ; Bartík, Vladimír (vedoucí práce)
V této práci jsem se zaměřil na implementaci webové aplikace, která slouží jako prostředek pro automatickou tvorbu souhrnů v anglickém jazyce. Automatická tvorba souhrnů je v řešení prováděna pomocí metody TextRank a Latentní sémantické analýzy. Obě tyto metody jsou vylepšeny o rozpoznávání pojmenovaných entit. Přínosem této práce je zjištění, že využití rozpoznávání pojmenovaných entit u Latentní sémantické analýzy a především u metody TextRank, vede k vytváření kvalitnějších souhrnů. Tato kvalita souhrnů byla ověřena pomocí metrik ROUGE.
|
|
Rychlý a trénovatelný tokenizér pro přirozené jazyky
Maršík, Jiří ; Bojar, Ondřej (vedoucí práce) ; Spousta, Miroslav (oponent)
V této práci představujeme systém pro dezambiguaci hranic mezi tokeny a větami. Charakteristickým znakem programu je jeho značná konfigurovatelnost a všestrannost, tokenizér si dokáže poradit např. i s nepřerušovaným čínským textem. Tokenizér používá klasifikátory založené na modelech s maximální entropií, a jedná se tudíž o systém strojového učení, kterému je nutné předložit již tokenizovaná ukázková data k trénování. Program je doplněn nástrojem pro hlášení úspěšnosti tokenizace, což pomáhá zejména při rychlém vývoji a ladění tokenizačního procesu. Systém byl vyvinut pouze za pomoci multiplatformních knihoven a při vývoji byl kladen důraz zejména na efektivitu a správnost. Po nezbytném přehledu jiných tokenizérů a krátkém úvodu do teorie modelů s maximální entropií se většina textu práce zabývá vlastní implementací tokenizéru a vyhodnocením jeho úspěšnosti.
|
|
Identifikace pohlaví z textu
Mačát, Jakub ; Burda, Karel (oponent) ; Červenec, Radek (vedoucí práce)
Práce je zaměřena na identifikaci pohlaví z textu výhradně z emailové formy a s tím spojené současné metody získávání dat a textu. Jejich výhody, nevýhody a možnosti použití. Dále byl realizován program na rozpoznávání pohlaví v programovacím jazyku Java. V programu Rapid Miner je ukázáno zpracování pomocí různých algoritmů strojového učení. U obou programů jsou popsány jejich základní vlastnosti, užité metody a použité operátory při realizaci. Programy byly testovány na reálných datech. Dále jsou zde uvedeny metody na rozšíření programů. Nakonec jsou zobrazeny příklady jak programy zpracovávají zadané úlohy.
|
|
Předzpracování a transformace textových kolekcí dat
Maruna, Viktor ; Burget, Radek (oponent) ; Bartík, Vladimír (vedoucí práce)
Tato bakalářská práce se zabývá problematikou získávání znalostí z textů, především se zaměřením na předzpracování a transformaci. V teoretické části práce jsou obsaženy informace o vývoji a metodach procesů získávání znalostí z textů, textových kolekcí dat a využití v praxi. Další část této práce detailně popisuje jednotlivé kroky procesu předzpracování a transformace textových kolekcí dat. V závěrečných částech je přehled o vývoji aplikace, testování a osobní zhodnocení práce.
|