• Artykuły
  • Forum
  • Ciekawostki
  • Encyklopedia
  • Polscy naukowcy uczą komputery języka naturalnego

    18.02.2011. 00:40
    opublikowane przez: Redakcja Naukowy.pl

    Dzięki pracom polskich lingwistów komputerowych policja jeszcze w tym roku będzie posługiwała się programem, który ułatwi wykrywanie przestępstw za pośrednictwem Internetu. O tym, jak nauczyć komputer języka naturalnego mówi PAP prof. Wiesław Lubaszewski z Katedry Lingwistyki Komputerowej UJ oraz z Katedry Informatyki AGH.

    Program, który opracowali polscy badacze będzie znacznie lepiej uwzględniał znaczenie słów w języku polskim niż tradycyjne wyszukiwarki. Umożliwi sprawniejsze niż dotychczas monitorowanie informacji w Internecie oraz precyzyjne wyszukiwanie tekstów. Będzie rozpoznawał w tekście nie tylko słowa, ale częściowo również ich kontekst, po to by stwierdzić, czy tekst rzeczywiście zawiera poszukiwaną informację. Innymi słowy, program potrafi odróżnić tekst o np. kocie od tekstu, w którym wyraz "kot" pojawił się przypadkowo.

    Programem zainteresowała się polska policja, która chce za jego pomocą wyszukiwać teksty mogące świadczyć o przestępstwie. W grudniu umowę licencyjną z Komendą Główną Policji podpisał rektor Akademii Górniczo-Hutniczej.

    "Jak ktoś chce coś ukryć, jakąś informację, to najlepiej nie w szufladzie, ale w Internecie" - uważa prof. Lubaszewski. Jego zdaniem, żeby dotrzeć do pożądanej informacji, użytkownik musi wiedzieć, jak jej szukać. Wyszukiwarka nie może zgadnąć, w jakim celu człowiek przeszukuje Internet i co dokładnie chce znaleźć, więc na zadane pytanie zwraca tysiące odpowiedzi, które szukającego wcale nie interesują.

    Na przykład, jeśli szukamy dobrego zakładu krawieckiego, to musimy wpisać w wyszukiwarce "zakład krawiecki", a później szukamy zakładu dobrego, otwierając każdą znalezioną stronę po to, by przeanalizować komentarze dołączone do strony zakładu przez jego klientów.

    Polski program pozwala zautomatyzować opisane czynności, jednak użytkownik przed rozpoczęciem wyszukiwania musi określić, co jego zdaniem znaczy "dobry". Ma to umożliwić sprawniejszą komunikację człowieka z maszyną i dokładniejsze przeszukiwanie treści w Internecie.

    Powstanie takiego programu umożliwił rozwój polskich badań nad lingwistyką komputerową, której zadaniem jest "uczenie" komputerów języka naturalnego, czyli takiego, jakim ludzie porozumiewają się między sobą. Badania takie mają wielkie znaczenie nie tylko dla sprawnego przeszukiwania zasobów, ale również dla tłumaczeń z jednego języka na drugi czy dla tworzenia interfejsu, w którym z komputerem porozumiewalibyśmy się mówiąc do niego.

    Prof. Lubaszewski wyjaśnia, że język naturalny jest językiem symbolicznym.

    "Napis czy ciąg dźwięków prowadzi nas do znaczenia, a znaczenie ma dla nas sens dzięki wiedzy o świecie - tłumaczy. - Jeśli widzimy napis +spaniela+ wiemy, że chodzi o psa. Człowiek potrafi taką informację szybko wyłowić. A komputer niekoniecznie".

    Jak wyjaśnia badacz, komputer musi najpierw odszukać (w swoim słowniku fleksyjnym), że słowo "spaniela" jest reprezentacją słowa spaniel. Potem komputerowi potrzebne są słowniki semantyczne lub ontologie, a więc narzędzia łączące słowa z wiedzą o świecie. Wyjaśnianiu słów komputerom służą np. słowniki semantyczne, w których opisane są znaczenia słowa i jego relacje z innymi słowami: np. że spaniel to okaz psa, że może się łasić, machać ogonem, szczekać itp. Ontologia uzupełni ten opis o informację, że spaniel to pies myśliwski itp.".

    Ponieważ słowniki semantyczne dla języka polskiego nie są jeszcze gotowe, zwykła wyszukiwarka nie umie np. rozróżniać w przeszukiwanych stronach wyrazów homonimicznych. Dlatego jeśli wpiszemy słowo "psa", wśród odpowiedzi znajdziemy nie tylko teksty o psach, ale i o antygenie "PSA", czy o producencie samochodów, którego nazwa ma taki skrót.

    W językach komputerowych każdy symbol musi być dokładnie zdefiniowany jednoznacznie, inaczej cały system nie mógłby działać poprawnie. Symbole powinny też być jednoznacznie powiązane z pewnymi operacjami, nie ma tam miejsca na interpretację symboli. "Jeśli komputer zaczyna coś interpretować, pojawia się taki niebieski ekran - komputer się zawiesza. A nasza wypowiedź w języku naturalnym domaga się interpretacji" - wyjaśnia Lubaszewski.

    Zdaniem uczonego, badania nad modelami komputerowymi w języku polskim są znacznie słabiej rozwinięte niż np. w języku angielskim. W Ameryce badania nad lingwistyką komputerową rozpoczęto już w latach 50. i prowadziły je ogromne grupy badawcze. W Polsce rozpoczęto badania znacznie później i nie były one aż tak intensywne, dlatego język nie jest aż tak dobrze zbadany.

    Naukowiec wyjaśnia, że język polski ma na przykład mocno rozwiniętą fleksyjność, co wymaga dodatkowych badań. Na przykład w polskim słowniku fleksyjnym istnieje szacunkowo 120 tys. wyrazów, z czego 11 tys. wyrazów to wyjątki. Już opracowanie takiego słownika było ogromnym wyzwaniem dla badaczy. Ale to dopiero początek. W słownikach semantycznych trzeba zgromadzić specyfikę użycia każdego z polskich wyrazów. Jest to niemal niemożliwe. W dodatku dla każdego języka trzeba tworzyć osobny słowik semantyczny.

    "Tylko część relacji syntagmatycznych (czyli np. dotyczących łączliwości wyrazów - PAP) można dosłownie przetłumaczyć. Narzędzia słownikowe musimy sobie zrobić sami. To wymaga ogromnych badań, których nie da się w pełni zalgorytmizować" - mówi Lubaszewski.

    Na razie w krakowskich pracowniach UJ i AGH powstał już słownik fleksyjny języka polskiego dla komputerów i trwają prace nad słownikiem semantycznym. Zgromadzone dotychczas relacje między wyrazami posłużą do semantycznego wyszukiwania tekstów w programie, który stosowany będzie od tego roku przez policję.

    PAP - Nauka w Polsce, Ludwika Tomala

    agt/ kap/


    Czy wiesz ĹĽe...? (beta)

    Gramatyka generatywna zamierza wyjaśnić kompetencję mówiącego (słuchającego) w zakresie tworzenia (rozumienia) zdań danego języka, polegającą między innymi na tym, że każdy mówiący jest zdolny do konstruowania zdań, których dotąd nie zbudował, a słuchający do rozumienia zdań, których dotąd nie słyszał. Inaczej mówiąc, każdy użytkownik języka jest w stanie rozstrzygnąć, czy dane zdanie należy do języka, w którym się wypowiada (jest poprawne w tym języku), czy też doń nie należy (jest w nim niepoprawne). Zdolność ta tłumaczy się faktem rozporządzania przez mówiącego skończoną liczbą reguł gramatycznych, za pomocą których tworzy on syntagmy i zdania ze znanych sobie wyrazów.

    Tłumacz – osoba, która dzięki znajomości co najmniej dwóch języków dokonuje przekładu wypowiedzi lub tekstu pisanego z języka źródłowego na język docelowy. Tłumaczenie wymaga nie tylko rozumienia tekstu, ale również sprawnego wyrażania jego treści w języku, na który ma być tłumaczony. Oprócz wysokich kompetencji językowych, dobry tłumacz powinien cechować się umiejętnością szybkiego uczenia się i wszechstronną wiedzą, a przynajmniej dobrą orientacją w swojej specjalizacji. Tłumacz musi także być osobą wzbudzającą zaufanie obu stron, którym umożliwia komunikację.

    Transkrypcja – w językoznawstwie system zapisu głosek danego języka za pomocą symboli graficznych (inaczej pisownia fonetyczna) lub system fonetycznej konwersji innego pisma. W szczególności może służyć do zapisu wyrazów jednego języka w formie pozwalającej łatwo odtworzyć brzmienie osobie go nie znającej – głoski jednego języka oddaje się wtedy znakami pisma innego języka, przy czym danej głosce nie zawsze musi odpowiadać tylko jeden znak, a niektóre znaki mogą być używane na oznaczanie kilku różnych głosek w języku wyjściowym. Transkrypcja taka zorientowana jest na odbiorcę posługującego się jednym, określonym językiem.

    Transkrypcja – w językoznawstwie system zapisu głosek danego języka za pomocą symboli graficznych (inaczej pisownia fonetyczna) lub system fonetycznej konwersji innego pisma. W szczególności może służyć do zapisu wyrazów jednego języka w formie pozwalającej łatwo odtworzyć brzmienie osobie go nie znającej – głoski jednego języka oddaje się wtedy znakami pisma innego języka, przy czym danej głosce nie zawsze musi odpowiadać tylko jeden znak, a niektóre znaki mogą być używane na oznaczanie kilku różnych głosek w języku wyjściowym. Transkrypcja taka zorientowana jest na odbiorcę posługującego się jednym, określonym językiem.

    Szyk wyrazów – układ wyrazów w zdaniu, czyli ich usytuowanie względem siebie w perspektywie czasowej (w mowie) lub przestrzennej (w piśmie). Szyk wyrazów jest bezpośrednim następstwem linearności każdego języka naturalnego.

    Przetwarzanie języka naturalnego (ang. natural language processing, NLP) – interdyscyplinarna dziedzina, łącząca zagadnienia sztucznej inteligencji i językoznawstwa, zajmująca się automatyzacją analizy, rozumienia, tłumaczenia i generowania języka naturalnego przez komputer. System generujący język naturalny przekształca informacje zapisane w bazie danych komputera na język łatwy do odczytania i zrozumienia przez człowieka. Zaś system rozumiejący język naturalny przekształca próbki języka naturalnego na bardziej formalne symbole, łatwiejsze do przetworzenia dla programów komputerowych. Wiele problemów NLP wiąże się zarówno z generacją, jak i rozumieniem języka np. model morfologiczny zdania (struktura słów), który komputer powinien zbudować, jest potrzebny zarazem do tego by zdanie było zrozumiałe, jak i gramatycznie poprawne.

    Przetwarzanie języka naturalnego (ang. natural language processing, NLP) – interdyscyplinarna dziedzina, łącząca zagadnienia sztucznej inteligencji i językoznawstwa, zajmująca się automatyzacją analizy, rozumienia, tłumaczenia i generowania języka naturalnego przez komputer. System generujący język naturalny przekształca informacje zapisane w bazie danych komputera na język łatwy do odczytania i zrozumienia przez człowieka. Zaś system rozumiejący język naturalny przekształca próbki języka naturalnego na bardziej formalne symbole, łatwiejsze do przetworzenia dla programów komputerowych. Wiele problemów NLP wiąże się zarówno z generacją, jak i rozumieniem języka np. model morfologiczny zdania (struktura słów), który komputer powinien zbudować, jest potrzebny zarazem do tego by zdanie było zrozumiałe, jak i gramatycznie poprawne.

    Dodano: 18.02.2011. 00:40  


    Najnowsze