Název:
Rozdíl v distribuci aminokyselin v sekvencích strukturovaných a nestrukturovaných proteinů
Překlad názvu:
Difference in amino acid distribution in sequences of structured and unstructured proteins
Autoři:
Sotáková, Patrícia ; Vondrášek, Jiří (vedoucí práce) ; Sanchez Rocha, Alma Carolina (oponent) Typ dokumentu: Bakalářské práce
Rok:
2023
Jazyk:
eng
Abstrakt: [eng][cze] Disordered proteins are a topic of growing interest. With ongoing research describing the relationship between sequence and structure, this work aims to investigate features in an amino acid sequence that could indicate finger- prints of structured or disordered proteins. These fingerprints could deepen our understanding of disordered regions or protein folding. Furthermore, this knowledge could help design new deep-learning predictors of protein dis- order or protein domain recognition. Statistical analysis was performed on sequences obtained from Protein Data Bank and DisProt database, including a comparison of protein sequences with artificial ones generated under the assumption of amino acid pairwise independence. Subsequently, we identified triples of two amino acids and their distance that are significantly different in occurrence to the artificial set. Based on this analysis, we sorted the triples into the following categories: overestimated, random, and underesti- mated. Observed pairs with abnormal frequency in a given distance can be interpreted as a fingerprint of secondary structure, motif, domain, or other unknown identification of disordered proteins depending on the dataset. A simple example of a sequence fingerprint was observed in the PDB dataset; the abundance of histidines in...Nestrukturované proteiny jsou v dnešní době předmětem rostoucího zájmu. Vzhledem k probíhajícímu výzkumu, jež se snaží o popis vztahů mezi sekvencí a strukturou, je cílem této práce prozkoumat vlastnosti sekvencí aminoky- selin, které by mohly indikovat fingerprinty strukturovaných nebo neuspořá- daných proteinů. Identifikace těchto fingerprintů by mohla prohloubit naše pochopení nestrukturovaných oblastí či skládání proteinů. Kromě toho by tyto získané poznatky mohly pomoci při navrhování nových prediktorů hlu- bokého učení pro rozpoznávání nestrukturovanosti proteinů a proteinových domén. Statistická analýza byla provedena na sekvencích získaných z databází Protein Data Bank a DisProt. Součástí analýzy bylo porovnání proteinových sekvencí se sekvencemi uměle vygenerovanými s předpokladem aminokyseli- nové párové nezávislosti. Následně jsme identifikovali triplety dvou aminoky- selin a jejich vzdálenosti, jejichž výskyt se významně liší od vygenerovaného datasetu. Na základě této analýzy jsme triplety roztřídili do následujících kategorií: nadhodnocené, standardní a podhodnocené. Pozorované dvo- jice s mimořádnou frekvencí v dané vzdálenosti lze interpretovat jako fin- gerprint sekundární struktury, motivu, domény nebo jiné neznámé identi- fikace nestrukturovaných proteinů v závislosti na...
Klíčová slova:
DisProt; neuspořádané proteiny; PDB; sekvenční motivy; statistická analýza; strukturované proteiny; disordered proteins; DisProt; PDB; sequence motifs; statistical analysis; structured proteins