Název: Extrakce informací z textu
Autoři: Michalko, Boris ; Labský, Martin (vedoucí práce) ; Svátek, Vojtěch (oponent) ; Nováček, Jan (oponent)
Typ dokumentu: Diplomové práce
Rok: 2008
Jazyk: slo
Nakladatel: Vysoká škola ekonomická v Praze
Abstrakt: Cieľom tejto práce je preskúmať dostupné systémy pre extrakciu informácií a možnosti ich použitia v projekte MedIEQ. Teoretickú časť obsahuje úvod do oblasti extrakcie informácií. Popisujem účel, potreby a použitie a vzťah k iným úlohám spracovania prirodzeného jazyka. Prechádzam históriou, nedávnym vývojom, meraním výkonnosti a jeho kritikou. Taktiež popisujem všeobecnú architektúru IE systému a základné úlohy, ktoré má riešiť, s dôrazom na extrakciu entít. V praktickej časti sa nacházda prehľad algoritmov používaných v systémoch pre extrakciu informácií. Opisujem oba typy algoritmov ? pravidlové aj štatistické. V ďalšej kapitole je zoznam a krátky popis existujúcich voľných systémov. Nakoniec robím vlastný experiment s dvomi systémami ? LingPipe a GATE na vybraných korpusoch. Meriam rôzne výkonnostné štatistiky. Taktiež som vytvoril malý slovník a regulárny výraz pre email aby som demonštroval taktiež pravidlá pre extrahovanie určitých špecifických informácií.
Klíčová slova: extrakce informací; named entity recognition; rozpoznávání vzorů; text mining; zpracování přirozeného jazyka

Instituce: Vysoká škola ekonomická v Praze (web)
Informace o dostupnosti dokumentu: Dostupné v digitálním repozitáři VŠE.
Původní záznam: http://www.vse.cz/vskp/eid/5154

Trvalý odkaz NUŠL: http://www.nusl.cz/ntk/nusl-2840


Záznam je zařazen do těchto sbírek:
Školství > Veřejné vysoké školy > Vysoká škola ekonomická v Praze
Vysokoškolské kvalifikační práce > Diplomové práce
 Záznam vytvořen dne 2011-07-01, naposledy upraven 2022-03-03.


Není přiložen dokument
  • Exportovat ve formátu DC, NUŠL, RIS
  • Sdílet