Název:
Modelování molekulární podobnosti pomocí fragmentů
Překlad názvu:
Modeling of fragment-based molecular similarity
Autoři:
Lamprecht, Matyáš ; Škoda, Petr (vedoucí práce) ; Mráz, František (oponent) Typ dokumentu: Bakalářské práce
Rok:
2019
Jazyk:
cze
Abstrakt: [cze][eng] Nedílnou součástí vývoje léčiv je tzv. virtuální screening, jehož cílem je počítačová identifikace biologicky aktivních molekul. Jednou z variant virtuálního screeningu je li- gandový virtuální screening, jenž je založen na využití známých biologicky aktivních molekul a podobnostního vyhledávání. Molekulu lze reprezentovat jako graf, molekulární podobnost lze pak modelovat na základě stejných fragmentů (podgrafů) mezi dvěma mole- kulami. Běžnou praxí je fragmenty hashovat do omezeného číselného intervalu a používat tato hashovaná čísla pro výpočet molekulární podobnosti. Při tomto hashování ovšem může dojít ke kolizím. Obecně jsou kolize považovány za nežádoucí, neb dochází ke ztrátě informace o molekule. Našim cílem bylo vyzkoušet, zda-li mohou kolize fragmentů vést k lepším výsledkům. Za tímto účelem jsme navrhli několik podobnostních modelů postave- ných na fragmentech. Pro účely vyhodnocení jsme implementovali testovací prostředí, jenž umožňuje snadné testování a vyhodnocení různých modelů. Z provedených experimentů plyne, že vybrané kolize vedou k lepším výsledkům, než jsou výsledky běžně používaných metod. Dokonce existují kolize, které v určitém modelu dosahují AUC přesahující 0.99. 1Virtual screening is a part of computer-aided drug design, which aims to identify biologically active molecules. The ligand-based virtual screening employs known bio- logically active molecules and similarity search. A common approach to computation of molecular similarity is to utilize molecular fingerprints. Hashed structural molecular fingerprints hash fragments (subgraphs) of molecular graphs into a bit string reducing the problem of molecular similarity to the bit string similarity. Due to the hashing two distinct fragments may collide, which causes information loss. For this reason collisions are considered unwanted and they are generally believed to decrease a performance. Our goal was, contrary to the general believe, test whether collisions can have positive impact on the performance. For this purpose we designed several similarity models based on fragments. In order to make testing and evaluation easy we implemented testing environ- ment. Results of our experiments prove that some collisions can outperform commonly used methods. Moreover some collisions in a specific model can lead to a performance of AUC over 0.99. 1
Klíčová slova:
cheminformatika; molekulární reprezentace; virtuální screening; cheminformatics; molecular representation; virtual screening