keywords:"information extraction" - Výsledky hledání - Digitální repozitář

host :: přihlásit Digitální repozitář
		Hledej		Nový záznam		Nápověda		O repozitáři

Hlavní stránka > Výsledky hledání: keywords:"information extraction"

Hledej:

Tipy pro vyhledávaní :: Rozšířené hledání

Hledej ve sbírkách:

Seřadit podle:	Zobrazit výsledky:	Výstupní formát:

	Automaticky aktualizovaný webový portál Staněk, Petr ; Škoda, Petr (oponent) ; Smrž, Pavel (vedoucí práce) Tato bakalářská práce se věnuje návrhu a implementaci automaticky aktualizovaného webového portálu, který řeší nedostatky portálů plněných obsahem lidmi. Dále předkládá srovnání existujících vědeckých portálů, rozebírá problematiku extrakce, ukládání a vyhledávání informací. Obecné mechanismy jsou demonstrovány na portálu evropských výzkumných projektů, který odstraňuje nedostatky oficiálního informačního portálu pro evropský výzkum a inovace Cordis. Práce bere jako prototyp existující produkt bakalářské práce a jejím cílem je vylepšit kvalitu extrakce a rozšířit tento systém tak, aby zjišťoval případné problémy a upozorňoval na ně administrátora. Toho bylo dosaženo zvýšením robustnosti a rychlosti extraktoru, evidováním všech důležitých událostí spojených s extrakcí a na druhé straně implementací samostatné administrační sekce webového portálu, která administrátora informuje o problémech a nabízí mu prostředky k jejich řešení. Úplný záznam
	Komunikační agent pro informace o Brně Jurkovič, Juraj ; Fajčík, Martin (oponent) ; Smrž, Pavel (vedoucí práce) Cieľom tejto práce je preskúmať a následne aplikovať techniky a technické riešenia pri vývoji informačných agentov. Práca sa zameriava na riešenia jednotlivých podproblémov pomocou existujúcich systémov, prepojenie týchto systémov, jejich prispôsobenie pre danú doménu a implementáciu jednotlivých modulov. Uživateľské rozhranie je postavené na multiplatformnej četovacej aplikácii Telegram. Extrakciu informácií zo vstupu uživatela vykonáva služba Dialogflow. Pre uspokojenie požiadavky užívateľa je použitých niekoľko externých služieb. Pre vyhľadávanie v štruktúrovaných dátach je použitá technológia Elasticsearch. Pre extrakciu odpovedí z voľného textu je použitý systém R-net. Výsledkom je systém ktorého znalostnú bázu, ako aj množinu dotazov ktoré je schopný uspokojiť, možno jednoducho rozšíriť a ktorý môže byť nasadený na ľubovoľnú četovaciu platformu. Úplný záznam
	Administrační rozhraní systému pro extrakci informací Gongol, Jakub ; Bartík, Vladimír (oponent) ; Burget, Radek (vedoucí práce) Práce se zabývá problematikou extrakce informací z webových stránek. Cílem je návrh a vytvoření webové aplikace administračního rozhraní systému pro extrakci informací na platformě Java. Aplikace poskytuje editor pro specifikaci zadaní extrakčních úloh ve formě interaktivních grafů, možnost načítání ontologií ze souboru a automatické vykreslení grafu na základě výběru z načtených ontologických vlastností. Řešení zajišťuje integraci s nástrojem FITLayout. Úplný záznam
	Nástroj pro rozpoznání a kontrolu objednávek spedice Kalivoda, Vojtěch ; Hradiš, Michal (oponent) ; Herout, Adam (vedoucí práce) Cílem této práce je návrh a implementace webového nástroje, který usnadní práci dispečerům spedičních a dopravních firem pomocí automatizovaného rozpoznání důležitých informací v objednávkách. Díky rozpoznání nemusí být všechny informace ručně přepisovány dispečery, což vede k ušetření času. Rozpoznávání objednávek je postaveno na vyhledání entit v dokumentu, reprezentace jejich okolí vektory za pomocí word2vec modelů a následné klasifikace pomocí konvolučních neuronových sítí. Nástroj dokáže v reálném čase rozpoznat 20 typů informací s průměrnou úspěšností 72.35~\%. V rámci práce byl shromážděn dataset necelých 1~700 objednávek a 141 z nich bylo anotováno. Součástí práce je webová aplikace, která slouží jako rozhraní pro nástroj a sběr dat. Úplný záznam
	Extraction of information from identity documents Hudcovský, Erik ; Lattenberg, Ivo (oponent) ; Caha, Tomáš (vedoucí práce) This thesis is about the processing information from personal documents (ID card or passport) into the form that is further easily to be processed for computers and the IT industry in general. This process is implemented by the application I developed as part of my bachelor's thesis. The application contains the scanned document, the document type and the form of the required output. As the output we get the document type in the required format. The entire application is using in process an external OCR tool (OpticalCharacter Recognition), which is implemented so that it can be easily replaced by another OCR tool. I used Tesseract in my application. This OCR tool is the simpliest and most accurate of the free OCR tools at the same time. It also has strong community support and is still being developed. In this thesis, I also focused on its testing, both on the samples of text I created, and on real scans of documents. The application is also processed as an installation package, so it can be easily imported into other projects. The entire application is displayed as OpenSource on GitHube under the free license of MIT. Úplný záznam
	Automatizovaná extrakce informací z emailů Kanda, Rastislav ; Zbořil, František (oponent) ; Vídeňský, František (vedoucí práce) Táto práca má za úlohu oboznámiť sa s možnosťami extrakcie informácií z textu. Na základe získaných poznatkov navrhnúť a implementovať systém, ktorý bude schopný získať potrebné informácie z emailových správ. Navrhnutý systém má pomôcť firme Kiwi.com s.r.o. v spracovávaní emailových správ od dopravných spoločností. V momentálnej sitácii je možné tieto emailové správy spracovávať automaticky. Avšak na to aby mohli byť automaticky spracované, je nutné manuálne vytvoriť šablónu pre extrakciu dát zo správy. Zmenou v tomto prístupe je algoritmus ROBULA+, ktorý dokáže po zadaní lokátoru XPath, vygenerovať robustnejší XPath lokátor, ktorý bude odolnejší voči zmenám štruktúry v zdrojovom kóde HTML. Algoritmus ROBULA+ je použitý ako centrálny prvok pri automatizácii vytvárania šablón pre spracovávanie emailových správ. Úspešnosť implementovaného systému je možné označiť za dostačujúcu (približne 75%), čo znamená že v troch zo štyroch správach je možné úspešne získať referenciu k vytvorenej rezervácii. Úplný záznam
	Metody extrakce informace z textových dokumentů Sychra, Tomáš ; Burget, Radek (oponent) ; Bartík, Vladimír (vedoucí práce) Získávání znalostí z textových dokumentů představuje podmnožinu obecného získávání dat - dataminingu. Textové dokumenty však mají vlastnosti odlišné od běžných databází. Tato práce obsahuje přehled metod použitelných pro dolování informací z textů. Nejpoužívanější dolovací úlohou je klasifikace. Popíši možné přístupy při klasifikování dokumentů. V závěru představím algoritmus Winnow, který by měl při klasifikaci dosahovat dobrých výsledků v porovnání s ostatními algoritmy. Součástí práce je i popis implementace algoritmu Winnow a přehled dosažených výsledků. Úplný záznam
	Kontrola konzistence informací extrahovaných z textu Stejskal, Jakub ; Otrusina, Lubomír (oponent) ; Smrž, Pavel (vedoucí práce) Tato práce je zaměřena na strojové techniky, které jsou využívány při zpracování přirozeného jazyka a extrakce informací z textu. Přibližuje obecné metody začínající zpracováním surového textu, až po extrakci vztahů ze zpracovaných jazykových konstrukcí a uvádí možnosti využití pro získaná relační data, které je možné vidět například u projektu DBpedia. Dalším milníkem této práce je návrh a realizace automatického systému pro extrakci informací o entitách, které nemají vlastní článek na anglické verzi Wikipedie. Práce představuje vytvořené algoritmy pro extrakci entit s vlastním jménem, ověření existence článků extrahovaných entit a nakonec samotnou extrakci informací o jednotlivých entitách, které lze využívat při kontrole konzistence informací. Na závěr je možné zhlédnout dosažené výsledky a návrhy dalšího vývoje vytvořeného systému. Úplný záznam
	Digitální steganografie pro spustitelné soubory Bever, Ľuboš ; Šimek, Václav (oponent) ; Strnadel, Josef (vedoucí práce) Steganografia pre spustiteľné súbory je najmenej rozšírenou steganografiou. Výskumy z tejto oblasti utíchli po niekoľkých, len málo, pokusoch o jej implementáciu. Cieľom práce je implementácia existujúcich metód a návrh ich modifikácie. Týmto vznikol rozšíriteľný software, ktorý je možné použiť pre implementáciu ďalších metód. Implementované metódy boli riadnym testovaním zhodnotené a porovnané. Výsledky porovnania ukazujú, že použitá metóda substitúcie inštrukcií približne odpovedá jej referenčnej hodnote 1/110, avšak výsledky sú veľmi závislé od vstupných binárnych súborov. Navrhnuté rozšírenie tejto metódy dosahuje v priemere dátovú rýchlosť 1/84, čo je len o 1,5-krát menej ako hodnota získaná z inej existujúcej implementácie, v ktorej bol pre hľadanie ekvivalenčných tried použitý špecializovaný software. Maximálna dátová rýchlosť získaná z testovacích programov je 1/38. Úplný záznam
	Document Information Extraction Janík, Roman ; Špaňhel, Jakub (oponent) ; Hradiš, Michal (vedoucí práce) With development of digitization comes the need for historical document analysis. Named Entity Recognition is an important task for Information extraction and Data mining. The goal of this thesis is to develop a system for extraction of information from Czech historical documents, such as newspapers, chronicles and registry books. An information extraction system was designed, the input of which is scanned historical documents processed by the OCR algorithm. The system is based on a modified RoBERTa model. The extraction of information from Czech historical documents brings challenges in the form of the need for a suitable corpus for historical Czech. The corpora Czech Named Entity Corpus (CNEC) and Czech Historical Named Entity Corpus (CHNEC) were used to train the system, together with my own created corpus. The system achieves 88.85 F1 score on CNEC and 87.19 F1 score on CHNEC, obtaining new state-of-the-art results. Úplný záznam

Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.

Digitální repozitář :: :: :: ::
Powered by v1.1.2
Spravuje

Tato stránka je dostupná také v následujících jazycích:
Česky English