• Artykuły
  • Forum
  • Ciekawostki
  • Encyklopedia
  • Międzynarodowe warsztaty nt. statystycznego uczenia maszynowego w celu przetwarzania mowy, Kioto, Japonia

    03.01.2012. 16:26
    opublikowane przez: Redakcja Naukowy.pl

    Dnia 31 marca 2012 r. w Kioto, Japonia, odbędą się międzynarodowe warsztaty nt. statystycznego uczenia maszynowego w celu przetwarzania mowy.

    Do niedawna badania naukowe w dziedzinie statystycznego przetwarzania mowy koncentrowały się na wysokiej jakości adnotacji danych i oszczędnej konstrukcji modelowej z użyciem adnotowanych danych. Niemniej punkt nacisku przesuwa się na pytanie dotyczące skonstruowania modelu, który jest odporny na różnego rodzaju szumy w potężnych ilościach adnotowanych danych bez etykiet lub tylko z niewiarygodnymi etykietami.

    W ramach tego obszaru badawczego nieodzowna jest często analiza metod skalowalnych, które odpowiadają różnorodnym ilościom i poziomom jakości danych i dziedzinom wiedzy. Warsztaty zgromadzą interesariuszy z dziedziny uczenia maszynowego, mowy, języka naturalnego i przetwarzania obrazu. Uczestnicy będą omawiać skalowalne podejścia w dobie obfitości danych oraz problematykę przekształcania wiedzy opartej na ogromnych ilościach danych w konstrukcje modelowe w różnych domenach, posiadających mniej danych.

    Za: CORDIS

    Czy wiesz ĹĽe...? (beta)
    Analiza danych – proces przetwarzania danych w celu uzyskania na ich podstawie użytecznych informacji i wniosków. W zależności od rodzaju danych i stawianych problemów, może to oznaczać użycie metod statystycznych, eksploracyjnych i innych. Przetwarzanie mowy – dziedzina przetwarzania sygnałów, która dotyczy użytecznych operacji na nagraniach mowy lub analizy tych nagrań odbywającej się w czasie ciągłym lub na ich dyskretnych próbkach. Takimi operacjami mogą być rozpoznawanie mowy, kompresja danych, transmisja danych, pozbywanie się szumów i sygnałów zakłócających, wygładzanie, identyfikacja mówcy, weryfikacja mówcy, synteza mowy, rozpoznawanie emocji w mowie i wiele innych tego typu operacji. Transaction Processing Performance Council (TPC) jest organizacją typu non-profit założoną w 1985 w celu zdefiniowania testów wydajnościowych w dziedzinie przetwarzania danych. Organizacja ta publikuje wyniki testów, które dzięki dobrze zdefiniowanej metodyce są uważane za obiektywne i weryfikowalne. Wyniki testów TPC są powszechnie stosowane dla porównywania wydajności systemów przetwarzania danych. Specyficzną cechą tych testów jest podawanie wyników, nie tylko w ilości transakcji w jednostce czasu, ale też obliczanie kosztu pojedynczych transakcji bazując na cenie katalogowej użytego systemu. Testy wydajnościowe TPC są stale rozwijane by uzyskać wyniki w sytuacjach zbliżonych do tych, w jakich pracują systemy podczas komercyjnego stosowania przez organizacje zajmujące się przetwarzaniem danych. Stąd na przykład wprowadzenie testów w podziale według kategorii "wielkość bazy danych", gdy eksperci stwierdzili, że liczba rekordów w bazie danych może istotnie wpływać na uzyskiwane wyniki wydajnościowe.

    Sybase IQ to rozwiązanie firmy Sybase z obszaru Business Intelligence. Sybase IQ to serwer analityczny, który został zoptymalizowany do obsługi hurtowni danych i aplikacji wspierających podejmowanie decyzji. Przeznaczony jest do wydajnej analizy dużych ilości danych. Zawiera opatentowaną technologię Vertical Partitioning. Jest to kolumnowa baza danych (CODB). Dane przechowywane są kolumnami (każda kolumna oddzielnie), a nie wierszami (rekordami) jak to ma miejsce w konwencjonalnych bazach danych. Przyczynia się to do bardzo szybkiej obsługi złożonych, nieplanowanych zapytań. Sybase IQ nie wymaga czasochłonnego i kosztownego dostrajania, aby utrzymać wysoką wydajność przetwarzania zapytań. Carrot2 jest otwartym systemem do przetwarzania danych [tekstowych, w szczególności stosowany jest do grupowania rezultatów wyszukiwania danych w wyszukiwarkach internetowych, choć może być użyty również do innych typów danych i zastosowań.

    Grupowanie (analiza skupień) (ang. data clustering) – pojęcie z zakresu eksploracji danych oraz uczenia maszynowego, wywodzące się z szerszego pojęcia, jakim jest klasyfikacja bezwzorcowa. Przetwarzanie danych (ang. data processing) – przekształcanie treści i postaci danych wejściowych (ang. input) metodą wykonywania systematycznych operacji w celu uzyskania wyników (ang. output) w postaci z góry określonej. Wyróżnia się przetwarzanie numeryczne (stosunkowo skomplikowane algorytmy i niewielkie ilości danych) oraz systemowe (stosunkowo proste algorytmy i duże ilości danych).

    Amazon Simple Storage Service (Amazon S3) - internetowy nośnik danych firmy Amazon, ma prosty w obsłudze interfejs WWW, który umożliwia dostęp do przechowywanych danych i zarządzanie nimi. Ilość przechowywanych danych jest praktycznie nielimitowana. Jakość i skalowalność infrastruktury Amazon S3 jest taka sama jak ta używana przez firmę Amazon do udostępniania i zarządzania własną, globalną siecią stron internetowych. Normalizacja bazy danych jest to proces mający na celu eliminację powtarzających się danych w relacyjnej bazie danych. Główna idea polega na trzymaniu danych w jednym miejscu, a w razie potrzeby linkowania do danych. Taki sposób tworzenia bazy danych zwiększa bezpieczeństwo danych i zmniejsza ryzyko powstania niespójności (w szczególności problemów anomalii).

    Napęd taśmowy (ang. streamer) – urządzenie do przenoszenia danych z systemów komputerowych na taśmę magnetyczną w celu archiwizacji. Obecnie najbardziej popularne napędy wykorzystują taśmy umieszczone w specjalnych kasetach.

    Przestrzenna baza danych (ang. spatial database) - jest bazą danych zoptymalizowaną do składowania i odpytywania danych powiązanych z obiektami w przestrzeni, takimi jak: punkty, linie i wielokąty. Tradycyjne bazy danych mogą przyjmować dane w postaci liczbowej i znakowej, natomiast do przetwarzania przestrzennych typów danych potrzebują dodatkowej funkcjonalności. Open Geospatial Consortium stworzył specyfikację i zbiór standardów dodawania przestrzennych funkcjonalności do systemów bazodanowych.

    SOUD, Połączony System Przetwarzania Danych o Przeciwniku (ros. Система Объединенного Учета Данных о Πротивнике (СОУД), znany także pod nazwą PSED (Połączony System Ewidencji Danych o Przeciwniku) – zintegrowany system gromadzenia, przetwarzania i wymiany danych wywiadowczych służb specjalnych państw bloku komunistycznego utworzony w 1977. Floating Car Data (FCD) to technologia służąca do wyznaczania średniej prędkości i czasu przejazdu na danym odcinku sieci drogowej. Technologia opiera się o analizę anonimowych danych GPS pochodzących z flot pojazdów lub nawigacji samochodowych. FCD opiera się na założeniu, że obserwując próbę pojazdów oraz zaawansowane algorytmy jesteśmy w stanie oszacować śrędnią prędkość i czas przejazdu całego strumienia ruchu. Dzięki swojej charakterystyce FCD pozwala na pozyskanie danych dla całej sieci drogowej, wszędzie tam gdzie poruszają się pojazdy. Jakość danych FCD zależy od ilości i jakości próby.

    System pomiarowo-rozliczeniowy - teleinformatyczny system pozyskiwania, przetwarzania i udostępniania danych pomiarowych i pomiarowo-rozliczeniowych pochodzących z systemu zdalnego odczytu danych pomiarowych, systemów automatycznej rejestracji danych oraz z innych systemów. DMP (Data Management Platform) jest to platforma do zarządzania danymi z różnych źródeł, w celu przetworzenia ich i udostępnienia dla platform zakupowych (DSP) i sprzedażowych (SSP). Daje centralną kontrolę nad procesami przetwarzania i analizy danych oraz realizacji kampanii, umożliwiając optymalizację działań marketingowych ukierunkowaną na dotarcie do większej liczby pożądanych klientów. Dane z platformy zawierają informacje, które reklamodawcy mogą wykorzystać do podjęcia decyzji czy chcą emitować reklamę właśnie temu użytnikowi.

    Dodano: 03.01.2012. 16:26  


    Najnowsze