National Repository of Grey Literature 220 records found  1 - 10nextend  jump to record: Search took 0.00 seconds. 
Machine learning in audio effects
Sychra, Jakub ; Mošner, Ladislav (referee) ; Černocký, Jan (advisor)
Získávání hudebních efektů z mixovaných skladeb je složité téma, které vyžaduje znalosti jak v oblasti zpracování signálů, tak zkušenosti s audio inženýrstvím. Tato práce cílí na tvorbu systém, který by byl schopen identifikovat sekvence a parametry kytarových efektů z mixovaných skladeb. Trénovací data byla vytvořena za využití čistých kytarových zvuků z datasetu IDMT-SMT-Audio-Effects. Tyto data byla následně augmentována populárními kytarovými efekty (BitCrush, Chorus, Clipping, Compressor, Delay, Distortion, High-pass filter, Ladder filter, Low-pass filter, Limiter, Phaser a Reverb), které byly implementovány pomocí knihovny Pedalboard tvořící mezivrstvu mezi jazykem Python a standartními VST efekty. Samotný rozpoznávací systém je založený na architektuře VGGish, k níž jsou přidány klasifikační (přítomnost efektu) a regresní (parametry efektů) hlavy. Výkon modelu je hodnocen na základě přesnosti klasifikace a regrese, a také v neformálních poslechových testech.
Differential-based deepfake speech detection
Staněk, Vojtěch ; Černocký, Jan (referee) ; Firc, Anton (advisor)
Technologie deepfake řeči umožňuje vytvářet velmi realistické sytnetické nahrávky. Tato možnost představuje významné riziko, neboť hrozí její zneužití v mnoha oblastech, od milionových podvodů po rozporování pravosti důkazních materiálů. Tato diplomová práce představuje inovativní metodu pro detekci takových deepfake nahrávek, a to s využitím reálných nahrávek řečníka. Na rozdíl od ostatních přísupů využívá pravé nahrávky k získání důležité dodatečné informace o mluvčím. Porovnáním opravdových nahrávek s potenciálně upravenými nebo vygenerovanými lze efektivně a spolehlivě určit pravost řeči na nahrávce. Dosavadní výsledky ukazují, že tento inovativní přístup může být hodnotným nástrojem v rozpoznávání deepfake řeči, zejména nahrávek vytvořených s využitím technologie konverze hlasu (voice conversion), čímž nabízí zcela nový způsob obrany proti hrozbě deepfake zločinů.
Whispered to Normal Speech Conversion
Gajda, Richard ; Černocký, Jan (referee) ; Brukner, Jan (advisor)
Cílem této práce je vyvinout alternativní řešení k potřebě paralelních datasetů pro natrénování modelů pro konverzi šeptané řeči na normální, a to za pomoci syntézy pseudo-šeptané řeči. Pseudo-šeptané datasety, vygenerované z open-source řečových datasetů jsou použity pro natrénování modelu pro konverzi řeči - na vokodéru BigVGAN. Tento natrénovaný model je nezávislý na mluvčím i jazyce a je ve výsledku porovnán s výchozí implementací (baseline) a již existujícími řešeními.
Very Low Bit-Rate Speech Coding Based on Neural Networks
Jochman, Stanislav ; Malenovský, Vladimír (referee) ; Černocký, Jan (advisor)
Vrámci tejto práce sme skúmali možnosti zlepšenia kvality zvuku produkovaným pomocou neurónovej siete LPCNet. Analyzovali sme vplyv použitia dátových setov zameraných na cieľový jazyk a ich vplyv na kvalitu výsledného zvuku. Pre meranie kvality kódovania reči sme využili hodnotiaci systém WARP-Q. Cieľom našej práce bolo navrhnúť vylepšenie trénovacieho dátového setu a použitie postfilterov pre zlepšenie kvality zvuku. Naše výsledky ukazujú merateľné zlepšenia s využitím malého slovenského dátového setu. Rovnako sme zaznamenali, že využitie dolnopriepustného filteru a filtra zlepšujúceho formanty zlepšilo kvalitu výsledného zvuku.
Automatic Creation of Organ Overtures for Church Songs
Maňák, Ondřej ; Černocký, Jan (referee) ; Fapšo, Michal (advisor)
The focus of this master's thesis is an automatic creation of organ overtures for church songs from both theoretical and practical points of view. Organ overture is a short introduction to a church song. According to the fact that it can be described by a finite set of rules, it is possible to use techniques for solving Constraint Satisfaction Problems. An effective instrument to develop such system can be C++ programming language and Gecode library.
Tone and Chord Recognition as an Android Application
Kucharovič, Oliver ; Černocký, Jan (referee) ; Szőke, Igor (advisor)
The aim of this work is to recognize tones and chords on any musical instrument using the microphone on Android mobile devices. The app scans or records the sounds which are analyzed. It writes to a visual representation which is similar to the musical notation. The work describes the problems of recognition and the solution of the problem using fast Fourier transformation and analysis of the spectrum of volumes. Work describes the theory of music and the training of individual tones. The application was subjected to user tests and recognition accuracy tests. The conclusion includes tests results and statistics from the Google Play publication.
Integration of Voice Technologies on Mobile Platforms
Černičko, Sergij ; Černocký, Jan (referee) ; Schwarz, Petr (advisor)
The goal of the thesis is being familiar with methods a techniques used in speech processing. Describe the current state of research and development of speech technology. Project and implement server speech recognizer that uses BSAPI. Integrate client that will use server for speech recognition to mobile dictionaries of Lingea company.
Improving Robustness of Speaker Recognition using Discriminative Techniques
Novotný, Ondřej ; Ferrer, Luciana (referee) ; Pollák, Petr (referee) ; Černocký, Jan (advisor)
Tato práce pojednává o využití diskriminativních technik v oblasti rozpoznávání  mluvčích za účelem získání větší robustnosti těchto systémů vůči vlivům negativně ovlivňující jejich výkonnost. Mezi tyto vlivy řadíme šum, reverberaci nebo přenosový kanál. Práce je rozdělena do dvou hlavních částí. V první části se věnujeme teoretickému úvodu do problematiky rozpoznávání mluvčích. Popsány jsou  jednotlivé kroky rozpoznávacího systému od extrakce akustických příznaků, extrakce vektorových reprezentací nahrávek, až po tvorbu finálního rozpoznávacího skóre. Zvláštní důraz je věnován technikám extrakce vektorové reprezentace nahrávky, kdy popisujeme dvě rozdílná paradigmata možného přístupu, i-vektory a x-vektory. Druhá část práce se již více věnuje diskriminativním technikám pro zvýšení robustnosti. Techniky jsou organizovány tak, aby odpovídaly postupnému průchodu nahrávky rozpoznávacím systémem.  Nejdříve je věnována pozornost  předzpracování signálu pomocí neuronové sítě pro odšumění a obohacení signálu řeči jako univerzální technice, která je nezávislá na následně použitém rozpoznávacím systému.  Dále se zameřujeme na využití diskriminativního přístupu při extrakci příznaků a extrakci vektorových reprezentací nahrávek. Práce rovněž pokrývá přechod od generativního paradigmatu k plně diskriminativnímu přístupu v systémech pro rozpoznávání mluvčích.  Veškeré techniky jsou následně vždy experimentálně ověřeny a zhodnocen jejich přínos. V práci je navrženo několik přístupů, které se osvědčily jak u generativního přístupu v podobě i-vektorů, tak i u diskriminativních x-vektorů, a díky nim bylo dosaženo významného zlepšení. Pro úplnost jsou, v oblasti problematiky robustnosti, do práce zařazeny i další techniky, jako je normalizace skóre, či více-scénářové trénování systémů. Závěrem se práce zabývá problematikou robustnosti diskriminativních systému z pohledu dat využitých při jejich trénování.
Chatbot Capable of Information Search
Ďurista, Michal ; Beneš, Karel (referee) ; Černocký, Jan (advisor)
Pojem ''chatbot'' je v dnešnej dobe umelej inteligencie veľmi populárny výraz. Chatbotov vidno stále viac a viac v biznis riešeniach dnešných firiem. Hlavným cieľom práce je vytvoriť algoritmus, ktorý je schopný vyťahovať informácie a implementovať ho do chatbota. Tieto informácie možno nájsť na webových stránkach reálneho zákazníka. Práca rovnako poskytuje prehľad súčasnej situácie chatbotov ako aj Microsoft technológií pre ich vývoj. Technické detaily na ktorých tieto technológie pracujú, predovšetkým spracovanie prirodzeného jazyka, sú taktiež zahrnuté. Práca popisuje implementáciu algoritmu ako aj chatbota samotného spolu s procesom testovania v skutočnom priemyselnom prostredí.
Automatic Link Detection in Parts of Audiovisual Documents
Sychra, Marek ; Černocký, Jan (referee) ; Szőke, Igor (advisor)
This paper deals with topic detection. Specifically link detection - finding similarities amongst a group of short documents according to their topic and story segmentation - finding borders between two topically different parts in a large document. The main motivation for research was practical application with the use of presentation materials from lectures at FIT (linking parts of different lectures and courses). The solution of link detection is achieved by text and word analysis, which includes learning the meaning and importance of each word. Story segmentation uses this while searching for the boundaries. Both parts of the problem (link detection, story segmentation) gave great results while testing with a standard dataset (world news reports). During evaluation of lecture processing the success rate was lower, but still good.

National Repository of Grey Literature : 220 records found   1 - 10nextend  jump to record:
Interested in being notified about new results for this query?
Subscribe to the RSS feed.