• Artykuły
  • Forum
  • Ciekawostki
  • Encyklopedia
  • Niemieccy naukowcy biją rekord świata, dzięki nowatorskiemu systemowi przetwarzania danych

    30.03.2010. 17:12
    opublikowane przez: Maksymilian Gajda

    Informatycy z Niemiec zostali mistrzami świata, bowiem stworzyli system, który pobiera najmniejszą ilość energii do przetwarzania ogromnych ilości danych. Rekord zapisano w kategorii "JouleSort" rankingu Sort Benchmark, serii standardów pomiarowych, które jako pierwszy zdefiniował w 1998 r. - następnie sponsorował je i zarządzał nimi - znany informatyk amerykański Jim Gray. Zapewnienie sobie pierwszego miejsca w rankingu Sort Benchmark oznacza wielką wygraną dla małych, wydajnych energetycznie systemów przetwarzania danych.

    Zwycięzcy z Uniwersytetu im. Goethego i Instytutu Technologii w Karlsruhe (KIT) pobili rekord, który należał poprzednio do zespołu informatyków z Uniwersytetu Stanford w USA. Prace nad systemem oszczędzającym energię były nadzorowane przez profesora Ulricha Meyera (Uniwersytet im. Goethego) i Petera Sandersa (KIT), a realizowane przez doktorantów Johannesa Singlera (KIT) i Andreasa Beckmanna (Uniwersytet im. Goethego).

    W konkursie naukowcy musieli posortować trzy zbiory danych o wielkości odpowiednio 10GB (gigabajtów), 100GB oraz 1TB (terabajt), z których każdy składał się ze 100 bajtowych zestawów danych. Aby przetworzyć największy z tych zbiorów o wielkości 1TB (do zapisania takiej liczby danych na papierze potrzebna byłaby sterta kartek o wysokości 10 kilometrów) zespół zużył zaledwie 0,2 kilowatogodziny energii (mniej więcej ilość potrzebną do zagotowania 2 litrów wody).

    Aby stworzyć zwycięski system, zespół nie wykorzystał procesorów serwerowych o wysokich wymaganiach energetycznych, lecz zastosował niekonwencjonalne podejście, wybierając mikroprocesory pierwotnie opracowane do notebooków, takie jak procesory Intel Atom.

    Naukowcy zrównoważyli niską moc mikroprocesorów wysokowydajnymi algorytmami, a zamiast dysków twardych, które zużywają znaczne ilość energii, zastosowali dyski stałe (SSD). Tego typu dyski mogą być bardzo szybkie i bardziej efektywne pod względem energetycznym.

    "W perspektywie długoterminowej wiele małych, wydajnych energetycznie i współpracujących systemów zastąpi (używane do tej pory) systemy ciężkie" - wyjaśnia profesor Sanders. Pobicie rekordu świata dzięki tak małemu systemowi pokazuje, jak wiele energii można by zaoszczędzić w technologiach informatycznych na świecie.

    Naukowcy podeszli do projektu naukowego koncentrując się na jednym z podstawowych problemów informatyki - sortowaniu danych. Na przykład komputer podłączony do Internetu generuje ogromne ilości danych. Analiza tych danych wymaga posortowania ich według określonego kryterium. Wydajne sortowanie danych ma kluczowe znaczenie dla wyszukiwarek i baz danych, a przez to stanowi istotne wyzwanie w dziedzinie nauk informatycznych.

    Od 2007 r. nadzór nad rankingiem Sort Benchmark sprawuje specjalny komitet. Wśród członków komitetu tego konkursu znaleźli się Chris Nyberg z Ordinal Technology, Mehul Shah z Hewlett-Packarda oraz Naga Govindaraju z Microsoftu.

    Za: CORDIS

    Czy wiesz ĹĽe...? (beta)
    System pomiarowo-rozliczeniowy - teleinformatyczny system pozyskiwania, przetwarzania i udostępniania danych pomiarowych i pomiarowo-rozliczeniowych pochodzących z systemu zdalnego odczytu danych pomiarowych, systemów automatycznej rejestracji danych oraz z innych systemów. Transaction Processing Performance Council (TPC) jest organizacją typu non-profit założoną w 1985 w celu zdefiniowania testów wydajnościowych w dziedzinie przetwarzania danych. Organizacja ta publikuje wyniki testów, które dzięki dobrze zdefiniowanej metodyce są uważane za obiektywne i weryfikowalne. Wyniki testów TPC są powszechnie stosowane dla porównywania wydajności systemów przetwarzania danych. Specyficzną cechą tych testów jest podawanie wyników, nie tylko w ilości transakcji w jednostce czasu, ale też obliczanie kosztu pojedynczych transakcji bazując na cenie katalogowej użytego systemu. Testy wydajnościowe TPC są stale rozwijane by uzyskać wyniki w sytuacjach zbliżonych do tych, w jakich pracują systemy podczas komercyjnego stosowania przez organizacje zajmujące się przetwarzaniem danych. Stąd na przykład wprowadzenie testów w podziale według kategorii "wielkość bazy danych", gdy eksperci stwierdzili, że liczba rekordów w bazie danych może istotnie wpływać na uzyskiwane wyniki wydajnościowe. Big data – termin odnoszący się do dużych zbiorów danych, których przetwarzanie wymaga zastosowania specjalistycznego oprogramowania. W praktyce pojęcie dużego zbioru danych oznacza rozmiar wyrażany przy pomocy co najmniej dziesiątek terabajtów, a często nawet petabajtów. Big data ma zastosowanie wszędzie tam, gdzie dużej ilości cyfrowych danych towarzyszy potrzeba zdobywania nowych informacji lub wiedzy. Szczególne znaczenie odgrywa wzrost dostępności Internetu oraz usług świadczonych drogą elektroniczną, które w naturalny sposób są przystosowane do wykorzystywania baz danych.

    Pojęcie składu informatycznych nośników danych
    Zgodnie z rozporządzeniem Prezesa Rady Ministrów z dnia 18 stycznia 2011 r. w sprawie instrukcji kancelaryjnej, jednolitych rzeczowych wykazów akt oraz instrukcji w sprawie organizacji i zakresu działania archiwów zakładowych pod pojęciem składu informatycznych nośników danych rozumiany jest uporządkowany zbiór informatycznych nośników danych zawierających dokumentację w postaci elektronicznej. Przez informatyczny nośnik danych rozumie się materiał lub urządzenie służące do zapisywania, przechowywania i odczytywania danych w postaci cyfrowej. Podmiot publiczny, który organizuje przetwarzanie danych w systemie teleinformatycznym, musi stworzyć możliwość przekazywania danych także w postaci elektronicznej z wykorzystaniem informatycznych nośników danych lub środków komunikacji elektronicznej.

    Przesyłki przekazywane na informatycznym nośniku danych w systemie EZD (Elektroniczne Zarządzanie Dokumentacją)
    Przesyłki przekazywane na informatycznych nośnikach danych dzieli się na: Przestrzenna baza danych (ang. spatial database) - jest bazą danych zoptymalizowaną do składowania i odpytywania danych powiązanych z obiektami w przestrzeni, takimi jak: punkty, linie i wielokąty. Tradycyjne bazy danych mogą przyjmować dane w postaci liczbowej i znakowej, natomiast do przetwarzania przestrzennych typów danych potrzebują dodatkowej funkcjonalności. Open Geospatial Consortium stworzył specyfikację i zbiór standardów dodawania przestrzennych funkcjonalności do systemów bazodanowych.

    Amazon Simple Storage Service (Amazon S3) - internetowy nośnik danych firmy Amazon, ma prosty w obsłudze interfejs WWW, który umożliwia dostęp do przechowywanych danych i zarządzanie nimi. Ilość przechowywanych danych jest praktycznie nielimitowana. Jakość i skalowalność infrastruktury Amazon S3 jest taka sama jak ta używana przez firmę Amazon do udostępniania i zarządzania własną, globalną siecią stron internetowych. Rozproszona baza danych - baza danych istniejąca fizycznie na dwóch lub większej liczbie komputerów, traktowana jednak jak jedna logiczna całość, dzięki czemu zmiany w zawartości bazy w jednym komputerze są uwzględniane również w innych maszynach. Rozproszone bazy danych są stosowane ze względu na zwiększoną wydajność przetwarzania na wielu komputerach jednocześnie.

    MVCC (ang. "Multiversion Concurrency Control"), mechanizm kontroli współbieżności. Ogólna koncepcja wykorzystywana w różnej formie przez wiele współczesnych systemów baz danych, sprowadzająca się do umożliwienia jednoczesnego dostępu oraz wykonywania operacji na tych samych danych wielu odbiorcom. William Harvey Inmon (ur. 1945) – amerykański informatyk, uznawany przez wielu za ojca hurtowni danych. Bill Inmon napisał książkę, która była podstawą do nauki o hurtowniach danych. Stworzył on definicję hurtowni danych (ang. Data Warehouse) zawierającą czas zbierania danych w wariancie wsparcia zarządzania decyzjami. W porównaniu z podejściem innych pionierskich architektów hurtowni danych miedzy innymi Ralpha Kimballa, podejście Inmona jest często określane jako podejście top-down.

    Blob – w systemach zarządzania bazami danych: typ danych, który umożliwia przechowywanie dużych ilości danych binarnych jako pojedynczy obiekt w bazie danych, stosowany w szczególności do przechowywania danych multimedialnych, takich jak grafika, muzyka czy filmy.

    Kostka OLAP (ang. OLAP cube) – jest strukturą danych, która pozwala na szybką analizę danych. Przechowuje ona dane w sposób bardziej przypominający wielowymiarowe arkusze kalkulacyjne niż tradycyjną, relacyjną bazę danych. Można ją również zdefiniować jako zdolność manipulowania i analizowania danych z różnych punktów widzenia. Rozmieszczenie danych w kostkach pokonuje ograniczenia relacyjnych baz danych.

    Baza danych – zbiór danych zapisanych zgodnie z określonymi regułami. W węższym znaczeniu obejmuje dane cyfrowe gromadzone zgodnie z zasadami przyjętymi dla danego programu komputerowego specjalizowanego do gromadzenia i przetwarzania tych danych. Program taki (często pakiet programów) nazywany jest „systemem zarządzania bazą danych” (ang. database management system, DBMS). Open Geospatial Consortium (OGC) jest międzynarodową organizacją typu non-profit, zrzeszającą ponad 450 firm, agencji rządowych i uniwersytetów. Współpracują nad rozwijaniem i implementacją otwartych standardów dla danych i usług przestrzennych, systemów informacji geograficznej (GIS), do celów przetwarzania danych i ich udostępniania.

    Normalizacja bazy danych jest to proces mający na celu eliminację powtarzających się danych w relacyjnej bazie danych. Główna idea polega na trzymaniu danych w jednym miejscu, a w razie potrzeby linkowania do danych. Taki sposób tworzenia bazy danych zwiększa bezpieczeństwo danych i zmniejsza ryzyko powstania niespójności (w szczególności problemów anomalii).

    Dodano: 30.03.2010. 17:12  


    Najnowsze