Název:
From the corpus as an open source for investigation to commercial products
Překlad názvu:
Od korpusu jako otevřeného zdroje pro bádání ke komerčním produktům
Autoři:
Šimandl, Josef Typ dokumentu: Příspěvky z konference Konference/Akce: Gramatika a korpus 2005, Praha (CZ), 2005-11-23 / 2005-11-25
Rok:
2007
Jazyk:
eng
Abstrakt: [eng][cze] The development of corpora is sketched, from large collections of texts without tagging through tagged corpora to machines that operate above tagged corpora and produce data presented as data about language, such as Word Sketches (TM). The article remarks that every corpus is merely a representation of texts and that the quality of representation is to be examined. The unavoidable question in research is how is the corpus built and how, under what principles, the service software operates. Both in case we explore a corpus with distortions, where texts appear in a way nobody has written them so (digits and their environment uses to be phenomena of that sort), and in case we are not allowed to have an insight "below the bonnet" or to change working parameters, we hardly may speak about doing scholarly research.Článek nastiňuje vývoj korpusů od velkých souborů neznačkovaných textů přes značkované korpusy k nástrojům, které operují nad značkovanými korpusy a produkují data prezentovaná jako data o jazyku, jako jsou např. Word Sketches (TM). Článek připomíná, že každý korpus je jen reprezentací textů a že se musíme ptát po kvalitě reprezentace. Nezbytná otázka při výzkumu je, jak je korpus vybudován a jak, na základě jakých principů, pracuje obslužný program. Tam, kde zkoumáme korpus s deformacemi, kde se texty objevují v podobě, jak je nikdo nenapsal (číslice a jejich okolí jsou často jevy takového druhu), stejně jako tam, kde nemáme dovoleno dívat se "pod kapotu" nebo měnit pracovní parametry, sotva můžeme mluvit o tom, že bychom dělali vědecký výzkum.
Klíčová slova:
corpus linguistics; linguistic corpus; tagging Číslo projektu: CEZ:AV0Z90610518 (CEP), GA405/03/0377 (CEP) Poskytovatel projektu: GA ČR Zdrojový dokument: Gramatika a korpus 2005, ISBN 80-86496-32-5
Instituce: Ústav pro jazyk český AV ČR
(web)
Informace o dostupnosti dokumentu:
Dokument je dostupný v příslušném ústavu Akademie věd ČR. Původní záznam: http://hdl.handle.net/11104/0156399