Název:
Automatická segmentace řeči pro VHF kanál
Překlad názvu:
Automatic Speech Detection for VHF Channel
Autoři:
Nováková, Mária ; Veselý, Karel (oponent) ; Szőke, Igor (vedoucí práce) Typ dokumentu: Bakalářské práce
Rok:
2023
Jazyk:
eng
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [eng][cze]
Výskyt hluku a šumu v pozadí audio leteckej komunikácie je problémom, ktorému denne čelia operanti riadenia letovej prevádzky. Aby bola zaistená bezpečná letecká preprava, komunikácia medzi vežou a lietatlom musí byť čo najefektívnejšia. Hlavnú rolu vo vylepšovaní kvality komunikácie hrá detekcia hlasovej aktivity. Správna detekcia reči je nevyhnutá pre rozpoznanie začiatku komunikácie pre systémy. Začiatok komunikácie začína stlačením tlačítka push-to-talk pomocou rádiového systému. Na rozpoznávanie reči existujú rôzne prístupy a implementácie. Za pomoci neurónových sietí sa dá detekcia reči upresniť. Výhodou používania umelej inteligencie je jej adaptácia na nové podnety. Táto práca ponúka riešenie na detekciu reči a push-to-talk udalostí v leteckej komunikácií. Navrhnuté riešenia budú evaluované a porovnané. Na záver, dostupná implementácia GPVAD je prepracovaná na riešenie tohto problému. Strojové učenie má zas a znova príležitosť predviesť svoje schopnosti.
A noisy environment in air traffic communication is an unavoidable problem. The communication between the control tower and the pilot should be the most reliable and effective. That is why voice activity detection is crucial for recognising the start of the speech segment of the communicants for automated systems. The speakers take turns providing information by pressing the push-to-talk button. To detect voice activity, various approaches are used. Even though these methods are effective, machine learning can easily outshine them. Neural networks are widely used in voice activity detection as well as in other areas. Properly trained models are efficient and adaptable. In this thesis, a solution for voice activity detection together with push-to-talk detection is proposed. Proposed models are evaluated and compared. The adaptation of the GPVAD approach is discussed and compared to the proposed models. Neural networks will have their chance to once again prove that they are suitable for any task.
Klíčová slova:
air traffic control; annotation; artificial neural networks; convolutional neural networks; convolutional recurrent neural networks; data augmentation; deep learning; push-to-talk; python; very high-frequency channel; voice activity detection; anotácia; augmentácia dát; detekcia hlasovej aktivity; hlboké učenie; konvolučné neurónové siete; konvolučné rekurentné neurónové siete; push-to-talk; python; riadenie letovej prevádzky; umelé neurónové siete; veľmi vysokofrekvenčný kanál
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/211027