• Artykuły
  • Forum
  • Ciekawostki
  • Encyklopedia
  • Drugie warsztaty nt. odkrywania koncepcji w nieustrukturyzowanych danych, Leuven, Belgia

    04.10.2011. 10:17
    opublikowane przez: Redakcja Naukowy.pl

    W dniach 6 - 10 maja 2012 r. w Leuven, Belgia, odbędą się drugie warsztaty nt. odkrywania koncepcji w nieustrukturyzowanych danych.

    Odkrywanie koncepcji to obszar badań wykorzystujący techniki skupione na człowieku w celu zdobycia wglądu w struktury koncepcyjne, na których opierają się dane. Tradycyjne techniki uczenia maszynowego koncentrują się głównie na danych ustrukturyzowanych, podczas gdy większość danych posiada formę nieustrukturyzowaną, często tekstową. Nieustrukturyzowane informacje, takie jak tekst czy obraz, można opisać znacznikami; z tekstów można ekstrahować kluczowe słowa za pomocą metod przetwarzania języka naturalnego i tak dalej.

    W porównaniu z tradycyjnymi technikami przeszukiwania danych instrumenty skupione na człowieku aktywnie angażują w proces odkrywania eksperta domeny. Narzędzia w owej domenie pozwalają przeszukiwać teksty i takie aplikacje sieciowe jak fora, blogi czy systemy społecznościowe.

    Wydarzenie poświęcone będzie innowacyjnym badaniom nad technikami odkrywania. Stworzy także forum dla badaczy i programistów zajmujących się instrumentami do przeszukiwania oraz problematyką analizy nieustrukturyzowanych danych.

    Za: CORDIS

    Czy wiesz ĹĽe...? (beta)
    Eksploracja danych (spotyka się również określenie drążenie danych, pozyskiwanie wiedzy, wydobywanie danych, ekstrakcja danych) (ang. data mining) - jeden z etapów procesu odkrywania wiedzy z baz danych (ang. Knowledge Discovery in Databases, KDD). Idea eksploracji danych polega na wykorzystaniu szybkości komputera do znajdowania ukrytych dla człowieka (właśnie z uwagi na ograniczone możliwości czasowe) prawidłowości w danych zgromadzonych w hurtowniach danych. Analiza danych – proces przetwarzania danych w celu uzyskania na ich podstawie użytecznych informacji i wniosków. W zależności od rodzaju danych i stawianych problemów, może to oznaczać użycie metod statystycznych, eksploracyjnych i innych. W przetwarzaniu komputerowym, trwała struktura danych albo czysto funkcyjna struktura danych to struktura danych, która zawsze zachowuje swoje poprzednie wersje, kiedy są modyfikowane. Takie struktury danych są w efekcie niezmienne, jako że operacje na nich nie powodują zmiany samej struktury, lecz powoduje powstanie nowej, uaktualnionej jej wersji. Trwała struktura danych nie jest strukturą danych składowaną na trwałym nośniku danych, takim jak dysk; jest to inne i niepowiązane znaczenie słowa "trwały".

    Normalizacja bazy danych jest to proces mający na celu eliminację powtarzających się danych w relacyjnej bazie danych. Główna idea polega na trzymaniu danych w jednym miejscu, a w razie potrzeby linkowania do danych. Taki sposób tworzenia bazy danych zwiększa bezpieczeństwo danych i zmniejsza ryzyko powstania niespójności (w szczególności problemów anomalii). Operacyjne bazy danych - bazy wykorzystywane wszędzie tam, gdzie istnieje potrzeba nie tylko na gromadzenie danych, ale również na możliwość ich modyfikowania. Ten typ baz przechowuje dane dynamiczne, tzn. takie, które ulegają ciągłym zmianom i przedstawiają aktualny stan rzeczy, której dotyczą. Zazwyczaj to ten typ bazy można spotkać w różnych organizacjach i firmach. Przykładem takiej bazy danych są np. bazy inwentaryzacyjne lub bazy obsługi zamówień.

    Web 3.0 to termin, który stworzono by opisać dalszą ewolucję Internetu oraz różnego rodzaju działań i koncepcji prowadzących do konwersji obecnego systemu przekazu wiedzy do modelu ogólnopojętej bazy danych. Web 3.0 to koncepcja przetworzenia zawartości stron do wzorca czytanego przez różne (w tym nieprzeglądarkowe) aplikacje, systemy wykorzystujące sztuczną inteligencję, rozwiązania semantyczne oraz oprogramowanie pozwalające wizualizować oraz przetwarzać dane w trzech wymiarach. Strony Web 3.0 będą też zdolne do rozpoznania zamiarów internauty na podstawie kontekstu przekazu danych. Ułatwi to i przyśpieszy uzyskanie potrzebnych informacji przez użytkownika. ETL (ang. Extract, Transform and Load) – narzędzia wspomagające proces pozyskania danych dla baz danych, szczególnie dla hurtowni danych.

    Kostka OLAP (ang. OLAP cube) – jest strukturą danych, która pozwala na szybką analizę danych. Przechowuje ona dane w sposób bardziej przypominający wielowymiarowe arkusze kalkulacyjne niż tradycyjną, relacyjną bazę danych. Można ją również zdefiniować jako zdolność manipulowania i analizowania danych z różnych punktów widzenia. Rozmieszczenie danych w kostkach pokonuje ograniczenia relacyjnych baz danych. Indeksowanie stron - proces analizy dokumentów dostępnych w World Wide Web (np. w formatach HTML, PDF) przez specjalny program komputerowy. Polega na gromadzeniu danych o występujących w dokumentach wyrazach i innych treściach (np. grafikach), które umieszcza się w wydajnych bazach danych umożliwiających późniejsze szybkie wyszukiwanie wyrazów i fraz bez konieczności ponownego analizowania i przeszukiwania źródłowych dokumentów. To dzięki indeksowaniu wyszukiwarka internetowa może podać wynik przeszukiwania miliardów dokumentów w bardzo krótkim czasie.

    Notatki kodowe – stanowią ważny instrument w procesie kodowania otwartego, zgodnie teorią ugruntowaną, która wykorzystywana jest podczas analizy danych jakościowych. Są formułowane jako pojedyncze fragmenty danych, które zostały połączone w różne klasy lub kategorie wraz z systemem ich wyszukiwania. Kategorie kodowe dopuszczają kodowanie danych w celu testowania hipotez, wynikających z wcześniej przyjętych teorii. Badacze tworzą kody posiłkując się bezpośrednim wglądem w dane oraz ich dokładną analizą.

    IBM InfoSphere Warehouse – środowisko do projektowania i wdrażania hurtowni danych. W ramach pakietu oprogramowania otrzymujemy narzędzia pozwalające na budowę procesów ETL, eksplorację danych (ang. Data Mining), a także tworzenie aplikacji analitycznych (OLAP) i raportów, opartych o dane strukturalne i niestrukturalne (pliki płaskie).

    Odzyskiwanie danych (ang. data recovery) – proces przywracania dostępu do danych zapisanych na dowolnym nośniku lub odtwarzaniu fizycznego zapisu w celu otrzymania pierwotnej struktury danych. W profesjonalnych laboratoriach, specjaliści są w stanie odzyskać dane utracone nawet w najcięższych przypadkach, jak pożar czy powódź. W chwili obecnej odzyskiwanie danych stało się jedną z wielu specjalności informatyki. Wymaga wiedzy z zakresu elektroniki, robotyki i automatyki, fizyki, programowania, oraz szeroko pojętych metod przechowywania danych: systemy bazodanowe, systemy plików i kryptologii. Przestrzenna baza danych (ang. spatial database) - jest bazą danych zoptymalizowaną do składowania i odpytywania danych powiązanych z obiektami w przestrzeni, takimi jak: punkty, linie i wielokąty. Tradycyjne bazy danych mogą przyjmować dane w postaci liczbowej i znakowej, natomiast do przetwarzania przestrzennych typów danych potrzebują dodatkowej funkcjonalności. Open Geospatial Consortium stworzył specyfikację i zbiór standardów dodawania przestrzennych funkcjonalności do systemów bazodanowych.

    Dodano: 04.10.2011. 10:17  


    Najnowsze