• Artykuły
 • Forum
 • Ciekawostki
 • Encyklopedia
 • Pojawia się nowe narzędzie do kontrolowania jakości bazy danych białek

  21.10.2008. 17:06
  opublikowane przez: Maksymilian Gajda

  Publiczne bazy danych nadal zawierają nieprawidłowe, niepełnie lub błędnie przewidziane geny i białka, mimo ostatnich wysiłków, aby udoskonalić komputerowe opisy genomów. Błędy te stawiają pod znakiem zapytania wiarygodność baz danych. Jednakże zespół naukowców opracował nowe narzędzie, nazwane MisPred, które jest skutecznym sposobem na kontrolowanie jakości bazy danych.

  Prace, ostatnio opisane w ogólnodostępnym czasopiśmie BMC Bioinformatics, prowadzone były jako projekt UE pt. BioSapiens, finansowany na kwotę 12 mln EUR w ramach tematu "Nauki o życiu, genomika i biotechnologia na rzecz zdrowia" Szóstego Programu Ramowego (6PR).

  Narzędzie MisPred, jak informuje zespół, korzysta z pięciu podstawowych reguł w celu identyfikacji podejrzanych, nieprawidłowych, niepełnych czy błędnie przewidzianych wpisów, w oparciu o założenie, że sekwencja będzie prawdopodobnie błędna, jeśli któraś z jej części kłóci się z dostępną obecnie wiedzą o genach kodujących białka i o białkach: (1) białka pozakomórkowe lub przezbłonowe muszą posiadać odpowiednie sygnały wydzielnicze; (2) w białku posiadającym części wewnątrz- i pozakomórkowe musi się znaleźć segment przezbłonowy; (3) w jednym białku nie mogą znaleźć się jednocześnie domeny pozakomórkowe i jądrowe; (4) liczba reszt aminokwasów u blisko powiązanych członków rodziny domeny globularnej musi mieścić się w stosunkowo niewielkim przedziale; oraz (5) białko musi być kodowane przez eksony umieszczone na jednym chromosomie.

  Kierownikiem zespołu był profesor László Patthy z Instytutu Enzymologii Węgierskiej Akademii Nauk. "Ostatnie badania pokazały, że znaczna część genów eukariotycznych jest nieprawidłowo przewidywana na poziomie transkrypcji" - stwierdził profesor Patthy. "Ponieważ analizy wykonywane przez MisPred są w stanie wykryć wiele tego typu błędów i mogą pomóc w ich usunięciu, wydaje się nam, że narzędzie to może znacznie poprawić jakość danych opisujących sekwencje białka w oparciu o przewidywanie genów."

  Profesor Patthy zaznaczył jednak, że w wielu wydzielanych białkach może rzeczywiście "brakować peptydów sygnałowych, ponieważ zostały wydzielone bez sekwencji liderowej". Dodał jeszcze: "Nie można także wykluczyć na obecnym etapie, że nie powstają transchromosomalne chimery, które pełnią normalne funkcje fizjologiczne. Mimo to, fakt że analizy bazy danych Swiss-Prot wykonane za pomocą narzędzia MisPred wykazały bardzo niewiele takich wyjątków, dowodzi, że reguły, którymi kieruje się MisPred znajdują na ogół zastosowanie."

  Badanie wykazało, że większość błędnych przewidywań wynika z braku spodziewanych peptydów sygnałowych oraz z naruszenia integralności domeny. "Co ciekawe - komentuje zespół - nawet w ręcznie korygowanym zbiorze danych UniProtKB/Swiss-Prot znajdują się błędnie przewidziane lub nieprawidłowe białka, choć błędnie przewidzianych pozycji jest znacznie mniej niż w bazach UniProtKB/TrEMBL, EnsEMBL czy GNOMON."

  Według członków zespołu narzędzie MisPred pozwoli naukowcom zyskać więcej czasu na prowadzenie większej liczby badań w zakresie błędnie przewidywanych genów.

  Więcej informacji:
  BioSapiens:
  http://www.biosapiens.info/

  BMC Bioinformatics:
  http://www.biomedcentral.com/1471-2105/9/353

  Teksty pokrewne: 27851, 28645

  Z serwisu CORDIS
  url: http://cordis.europa.eu/fetch?CALLER=PL_NEWS&ACTION=D&SESSION=&RCN=30001
  Źródło danych: BioMed Central
  Referencje dokumentu: Nagy, A et al. (2008) Identyfikacja i korekta nieprawidłowych, niepełnych i błędnie przewidzianych białek w publicznych bazach danych. BMC Bioinformatics 9:353. doi:10.1186/1471-2105-9-353.

  Czy wiesz że...? (wersja beta)
  Operacyjne bazy danych - bazy wykorzystywane wszędzie tam, gdzie istnieje potrzeba nie tylko na gromadzenie danych, ale również na możliwość ich modyfikowania. Ten typ baz przechowuje dane dynamiczne, tzn. takie, które ulegają ciągłym zmianom i przedstawiają aktualny stan rzeczy, której dotyczą. Zazwyczaj to ten typ bazy można spotkać w różnych organizacjach i firmach. Przykładem takiej bazy danych są np. bazy inwentaryzacyjne lub bazy obsługi zamówień. Białka fuzyjne (białka chimeryczne) – białka powstające z połączenia 2 lub większej liczby genów, które pierwotnie były odpowiedzialne za produkcję niezależnych białek. Produktem genu fuzyjnego jest białko (polipeptyd), którego funkcja jest w pewnym stopniu pochodną funkcji białek kodowanych przez geny wchodzące w skład takiego połączenia. Normalizacja bazy danych jest to proces mający na celu eliminację powtarzających się danych w relacyjnej bazie danych. Główna idea polega na trzymaniu danych w jednym miejscu, a w razie potrzeby linkowania do danych. Taki sposób tworzenia bazy danych zwiększa bezpieczeństwo danych i zmniejsza ryzyko powstania niespójności (w szczególności problemów anomalii).

  Testy strukturalne (ang. white-box testing) – znane są także jako testy białej lub szklanej skrzynki. Polegają na testowaniu programu poprzez podawanie na wejściu takich danych, aby program przeszedł przez każdą zaimplementowaną ścieżkę. Zasady te są definiowane przez kryteria pokrycia wszystkich pętli oraz wszystkich warunków. Testy białej skrzynki nie są w stanie wykazać braku implementacji funkcji, którą powinien posiadać system docelowy. Sprawdzają jednak dokładnie operacje wykonywane w zaimplementowanych metodach. BLAST (ang. Basic Local Alignment Search Tool) – narzędzie bioinformatyczne (algorytm) służący do lokalnego przyrównywania sekwencji aminokwasów białek lub nukleotydów DNA. BLAST umożliwia naukowcom porównywanie zadanej sekwencji z sekwencjami zawartymi w biologicznych bazach danych i ocenę ich podobieństwa.

  Sqlplus: SQL*Plus jest terminalowym klientem baz danych Oracle. Stanowi on interaktywne narzędzie służące do wykonywania określonych zadań lub zapytań SQL/PL/SQL oraz administracji serwerem baz danych Oracle. Histony łącznikowe – rodzina małych, zasadowych białek histonowych, do których zalicza się histon H1 i jego odmianę histon H5. W porównaniu z innymi histonami cechuje je względnie duża heterogenność. Średnia masa histonu łącznikowego wynosi około 20 kDa. Białko to jest zlokalizowane w obrębie nukleosomu w miejscu, w którym DNA schodzi i wchodzi do nukleosomu, tworząc swego rodzaju klamrę spinającą całość. Histony łącznikowe zbudowane są z trzech domen: globularnej domeny głównej oraz dwóch małych domen - N-końcowej i C-końcowej. Domena główna złożona jest z około 80 aminokwasów. Jedna z hipotez na temat pochodzenia tej domeny zakłada, że jest ona produktem fuzji bogatego w lizynę prokariotycznego białka kondensującego DNA i białka pełniącego funkcje strukturalne. GH5 (globularna domena histonu H5) posiada podobną strukturę przestrzenną jak bakteryjne białka CAP co może częściowo popierać powyższą teorię. Warto odnotować, że pomimo swojej nazwy żadne z tych białek nie posiadają charakterystycznej domeny nazywanej "fałdem histonowym" Obecnie istnieją co najmniej trzy modele przedstawiające ułożenie histonu H1 na nukleosomie. Niestety z powodu niedoboru danych strukturalnych (brak precyzyjnie wyznaczonej struktury trzeciorzędowej tego białka) nie można definitywnie potwierdzić żadnego z tych modeli.

  Wyzwalacz (ang. trigger) jest to procedura wykonywana automatycznie jako reakcja na pewne zdarzenia w tabeli bazy danych. Wyzwalacze mogą ograniczać dostęp do pewnych danych, rejestrować zmiany danych lub nadzorować modyfikacje danych. Białaczka włochatokomórkowa – rzadka postać nowotworu hematologicznego, charakteryzująca się akumulacją nieprawidłowych limfocytów B. Zazwyczaj jest klasyfikowana jako podtyp przewlekłej białaczki limfatycznej. Pierwszy człon nazwy wywodzi się od białawego koloru próbki krwi chorego na ostrą białaczkę. Drugi człon nazwy jest związany z tym, iż z powodu części wystających promieniście z powierzchni nieprawidłowe limfocyty B wyglądają "włochato" pod mikroskopem, natomiast infiltracja szpiku kostnego i śledziony ma charakter rozproszony.

  Entrez – system służący do uzyskiwania danych, rozwijany przez National Center for Biotechnology Information (NCBI). Zapewnia zintegrowany dostęp do różnych dziedzin danych, takich jak literatura, sekwencje nukleotydów i białek, kompletne genomy, czy struktury trójwymiarowe. Zaawansowana opcja wyszukiwania podaje nie tylko dokładny wynik wyszukiwania, lecz również związane rekordy z tej samej domeny, które nie mogły być uzyskane w inny sposób, oraz powiązanych rekordów z innych domen. Entrez obsługuje wiele baz danych, m.in.: PubMed, PubMed Central, OMIM, OMIA, PubChem Compound, PubChem Substance. Entrez jest jednym z najpowszechniej używanych systemów uzyskiwania danych z biologicznych internetowych baz danych.

  Wyzwalacz (ang. trigger) – procedura wykonywana automatycznie jako reakcja na pewne zdarzenia w tabeli bazy danych. Wyzwalacze mogą ograniczać dostęp do pewnych danych, rejestrować zmiany danych lub nadzorować modyfikacje danych.

  Nadrodzina immunoglobulin (synonim: białka immunoglobulinopodobne, ang. immunoglobulin superfamily, IgSF) – grupa białek wyodrębniona na podstawie istnienia w ich strukturze tzw. splotu immunoglobulinowego. Większość członków tej rodziny to białka o masie cząsteczkowej 70-100 kDa. Nadrodzina immunoglobulin jest uznawana za największą grupę białek o podobnej budowie. Na podstawie analizy genomu człowieka zidentyfikowano 756 genów, których produkty białkowe zawierają domenę immunoglobulinową . Białka immunoglobulinopodobne spotykane są również u bakterii, a ich analiza wskazuje, że pochodzą one od genów eukariotycznych i zostały nabyte w trakcie ewolucji na drodze poziomego transferu genów . Firma Embarcadero Technologies powstała w październiku 1993 roku. Została założona przez Stephena Wonga i Stuarta Browninga. Firma wprowadziła na rynek narzędzie bazodanowe dla Sysbase DBA – Rapid SQL. Rapid SQL udostępnił administratorom baz danych intuicyjny międzyplatformowy interfejs maskujący zasadnicze zawiłości bazodanowe, przez co stały się one znacznie łatwiejsze do zarządzania. Obecnie Embarcadero oferuje szeroką gamę międzyplatformowych narzędzi bazodanowych obejmujących cały cykl życia baz danych - od etapu ich modelowania poprzez tworzenie i optymalizowanie, po administrowanie oraz łączenie/migrowanie danych wewnątrz lub pomiędzy różnymi bazami, włączając w to bazy Oracle, Microsoft SQL Server, IBM DB2, Sybase i MySQL.

  Rozproszona baza danych - baza danych istniejąca fizycznie na dwóch lub większej liczbie komputerów, traktowana jednak jak jedna logiczna całość, dzięki czemu zmiany w zawartości bazy w jednym komputerze są uwzględniane również w innych maszynach. Rozproszone bazy danych są stosowane ze względu na zwiększoną wydajność przetwarzania na wielu komputerach jednocześnie. Protein Data Bank, w skrócie PDB (pol. Bank Danych Białkowych) to baza danych zawierająca przede wszystkim dane o strukturze przestrzennej białek i kwasów nukleinowych.

  Dodano: 21.10.2008. 17:06  


  Najnowsze