|
|
|
Polski Serwis Naukowy - OnLine od 1999 roku
RSS
Warto przeczytać: Polski syntezator mowy IVONA 2 zostanie zainstalowany na wszystkich komputerach w szkołach dla niewidomych i słabowidzących uczniów w całej Polsce. Program ten pomoże uczniom obsługiwać komputer: przeglądać strony internetowe, odczytywać mejle i fr... Działającą on-line aplikację do oceny jakości głosu i mowy, przydatną szczególnie osobom po usunięciu krtani lub z wadami wymowy, opracowali naukowcy z Politechniki Świętokrzyskiej. Teraz szukają pieniędzy na wdrożenie projektu. Aplikację przygotowano prze... Andrzej Merta z Państwowej Agencji Atomistyki (PAA) zapewnił we wtorek, że awaria elektrowni jądrowej Fukushima I w Japonii nie spowoduje zagrożenia radiologicznego dla Polski.,,O zagrożeniu dla Polski nie ma w ogóle mowy - skażenie jest nieporównywalnie m... W Warszawie podpisano porozumienie między krajami Unii Europejskiej, dotyczące wprowadzenia badań słuchu, wzroku i mowy wśród dzieci w wieku szkolnym. Wprowadzenie tych badań ma być priorytetem rozpoczynającej się 1 lipca polskiej prezydencji. &quo... Wyniki nowych badań pokazują, że gen Foxp2, który jest znany ze swojego udziału w zdolności człowiek do mówienia, pomaga kontrolować strukturę nerwową mózgu. Badania zaprezentowane w czasopiśmie PLoS Genetics zostały częściowo dofinansowane z wewnątrzeuropejski...
Ostatnio na Forum:
Dyskusje
8
odp.
4
odp. Reklama:
Przetwarzanie języka naturalnegoTo hasło encyklopedii posiada podstrony: 1 [2],[3] Czy wiesz że...? Synteza mowy – polega na mechanicznej zamianie tekstu zapisanego w postaci znakowej na wypowiedź (mowę) w postaci dźwiękowej. Maszynę lub program komputerowy zamieniający tekst na mowę określa się mianem syntezatora mowy. W zależności od syntezatora, możemy uzyskać bardzo dokładną wymowę także słów nietypowych, literowanie różnych skrótów, odczytywanie liczb w tym również ułamków oraz odczytywanie dat poprzez dekomponowanie liczb. Syntezatory mowy mają wiele zastosowań. Pozwalają na zautomatyzowanie informowania bądź alarmowania użytkownika, są pomocne przy nauce języków obcych oraz tłumaczeniach, mogą także np. odczytywać dokumenty pisane alfabetem Brailla. Uczenie maszynowe albo uczenie się maszyn, systemy uczące się (ang. machine learning) – stosunkowo młoda i szybko rozwijająca się dziedzina wchodząca w skład nauk zajmujących się problematyką SI (patrz sztuczna inteligencja). Przetwarzanie języka naturalnego (ang. natural language processing, NLP) to interdyscyplinarna dziedzina, łącząca zagadnienia sztucznej inteligencji i językoznawstwa, zajmująca się automatyzacją analizy, rozumienia, tłumaczenia i generowania języka naturalnego przez komputer. System generujący język naturalny przekształca informacje zapisane w bazie danych komputera na język łatwy do odczytania i zrozumienia przez człowieka. Zaś system rozumiejący język naturalny przekształca próbki języka naturalnego na bardziej formalne symbole, łatwiejsze do przetworzenia dla programów komputerowych. Wiele problemów NLP wiąże się zarówno z generacją, jak i rozumieniem języka np. model morfologiczny zdania (struktura słów), który komputer powinien zbudować, jest potrzebny zarazem do tego by zdanie było zrozumiałe, jak i gramatycznie poprawne. Międzynarodowa Organizacja Normalizacyjna (ISO, ang. International Organization for Standardization, fra. Organisation internationale de normalisation) – organizacja pozarządowa zrzeszająca krajowe organizacje normalizacyjne.
Statystyka – nauka, której przedmiotem zainteresowania są metody pozyskiwania i prezentacji, a przede wszystkim analizy danych opisujących zjawiska, w tym masowe. NLP pokrywa się również w znacznej mierze z działem lingwistyki komputerowej i często uważany jest za poddział sztucznej inteligencji. Natomiast termin język naturalny używany jest, by odróżnić języki ludzkie (takie jak hiszpański czy szwedzki) od języka formalnego czy komputerowego (jak C++, Java lub LISP) . Choć analiza języka naturalnego może zajmować się i tekstem, i mową, prace nad syntezą mowy rozwinęły się jako oddzielny dział. Anafora (także epanafora, gr. anaphorá ‘podniesienie’) – lit. celowe powtórzenie tego samego słowa lub zwrotu na początku kolejnych segmentów wypowiedzi. Stosowana jest w poezji i oratorstwie.
Parser (inaczej analizator składniowy) w informatyce program dokonujący analizy danych wejściowych w celu określenia ich gramatycznej struktury w związku z formalną gramatyką. Nazwa analizator składniowy podkreśla analogię zastosowania programu do analizy stosowanej w gramatyce i lingwistyce. Dzięki temu procesowi komputery są w stanie przetworzyć czytelny dla człowieka tekst w strukturę danych przydatną do dalszej obróbki. Zadania i barieryAnaliza języka naturalnego jest, teoretycznie, bardzo atrakcyjną metodą porozumiewania się z komputerem. Jeden z pierwszych tego typu systemów SHRDLU, wzbudził ogromny entuzjazm naukowców, pracując zaskakująco dobrze na ograniczonych blokach słów i w obrębie ograniczonego języka. Entuzjazm szybko jednak wygasł, gdy system zderzył się z bardziej realnymi sytuacjami i prawdziwą złożonością oraz dwuznacznością słów. Język szwedzki (szw. svenska) – język północnogermański wschodni (wschodnioskandynawski), używany głównie w Szwecji i częściach Finlandii, przez ok. 9 mln ludzi. W Finlandii język szwedzki jest, obok fińskiego, językiem urzędowym, z uwagi na 5% szwedzkojęzycznych obywateli Finlandii zamieszkałych głównie na wybrzeżach tego kraju. Szwedzki jest dość dobrze zrozumiały dla Norwegów i w mniejszym stopniu także dla Duńczyków. Język standardowy w Szwecji, tzw. rikssvenska (szwedzki państwowy) oparty jest na dialektach regionu sztokholmskiego.
Lisp – rodzina języków programowania z długą historią i charakterystyczną składnią. Po raz pierwszy określony w 1958 roku, Lisp jest drugim z kolei pod względem wieku językiem programowania wysokiego poziomu pozostającym w użyciu (starszy jest tylko Fortran). Podobnie jak Fortran, Lisp wiele się zmienił w porównaniu ze swoimi początkami. W historii istniało wiele dialektów Lispu; dziś do najpopularniejszych należą trzy - Common Lisp , Scheme i Clojure. Sama definicja rozumienia jest dużym problemem analizy języka naturalnego. Wydaje się, że rozpoznanie języka naturalnego wymaga szerokiej wiedzy o świecie zewnętrznym i zdolności do przekształcania go. Z tego powodu rozumienie języka naturalnego nazywane jest często problemem AI-complete (problemem sztucznej inteligencji), który polega na tym, żeby dobrze rozumieć nasz świat i język, sztuczna inteligencja musiałaby postrzegać go tak samo jak my. Porównanie, comparatio (w niektorych kontekstach także similitudo) – dwuczłonowa konstrukcja semantyczna, w której cechy przedmiotu lub zjawiska X (tego, co porównujemy, comparandum) scharakteryzowanego w członie X zostają uwydatnione przez wskazanie na jego podobieństwo do przedmiotów lub zjawisk scharakteryzowanych w członie Y (tego, do czego porównujemy, comparans). Oba człony połączone są charakterystycznymi dla danego języka wyrażeniami – w języku polskim są to wyrażenia jak, jakby, jak gdyby, na kształt, niby, podobny, na podobieństwo itp., występujące przed comparansem, przy czym często są one uzupełniane występującymi przed comparandum wyrażeniami tak, tako itp. Kolejność członów comparndum i comparansa w języku polskim i wielu innych jest dowolna. Comparandum i comparans muszą więc posiadać wspólną cechę semantyczną, zwaną tertium comparationis, która stanowi podstawę i motywację porównania.
Język japoński (日本語 nihongo lub nippongo) – język używany przez ok. 130 mln mieszkańców Japonii oraz japońskich emigrantów na wszystkich kontynentach. Inne problemySegmentacja sygnału mowy W większości języków mówionych, dźwięki przedstawiane są jako następujące po sobie i przemieszane ze sobą litery. Dlatego przekształcenie sygnału analogowego w niestałe symbole może być bardzo trudnym procesem. W mowie naturalnej pomiędzy kolejnymi wyrazami występuje również mało pauz. To, gdzie dana pauza się znajduje zależy zazwyczaj od semantyki i gramatyki, jak również od kontekstu zdania. Korpus - zbiór tekstów służący badaniom lingwistycznym, np. określaniu częstości występowania form wyrazowych, konstrukcji składniowych, kontekstów w jakich pojawiają się dane wyrazy. Korpusy językowe znalazły szerokie zastosowanie we współczesnej leksykografii. Są też wykorzystywane jako zbiory danych uczących i testowych w metodach uczenia maszynowego stosowanych w przetwarzaniu języków naturalnych.
Analiza składniowa (parsowanie, ang. parsing) – w informatyce i lingwistyce proces analizy tekstu, w celu ustalenia jego struktury gramatycznej i zgodności z gramatyką języka. Słowo parsing pochodzi od łacińskiego pars(ōrātiōnis), które oznacza część mowy. Segmentacja tekstu Niektóre języki, takie jak chiński, japoński czy tajski, nie posiadają określonych granic wyrazów w języku pisanym. Zazwyczaj każda poważna analiza składniowa wymaga oznaczenia takich granic, co często bywa niełatwym zadaniem. Oznaczanie części mowy Jednoznaczność słów Język Québec oraz Ontario, Nouveau-Brunswick, – ok. 8 mln osób. Ok. 201 milionów używa francuskiego na całym świecie jako języka głównego (oszacowanie z r. 2009 wg Organisation mondiale de la Francophonie) a 72 miliony jako drugiego języka codziennego (w tym krajach Maghrebu). Wiele z tych osób mieszka w krajach, gdzie francuski jest jednym z języków urzędowych bądź powszechnie używanych (54 kraje). Paradoksalnie, w Algierii, Maroku, i Tunezji, gdzie nie ma statusu języka urzędowego jest bardziej rozpowszechniony niż w wielu krajach Czarnej Afryki, gdzie jest jedynym językiem urzędowym i używa go 96 milionów ludzi.
Program komputerowy (. Program jest zazwyczaj wykonywany przez komputer (np. wyświetlenie strony internetowej), czasami bezpośrednio – jeśli wyrażony jest w języku zrozumiałym dla danej maszyny lub pośrednio – gdy jest interpretowany przez inny program (interpreter). Program może być ciągiem instrukcji opisujących modyfikacje stanu maszyny ale może również opisywać obliczenia w inny sposób (np. rachunek lambda). Wiele wyrazów ma więcej niż jedno znaczenie, trzeba wiec wybrać słowo najlepiej pasujące do kontekstu. Syntaktyczna niejednoznaczność Gramatyka języka naturalnego jest dwuznaczna i zazwyczaj istnieje wiele możliwości analizy składniowej jednego zdania. Wybór najlepszej z nich wymaga najczęściej informacji o kontekście i semantyce. Ważnym czynnikiem problemu syntaktycznej niejednoznaczności są niejasne granice zdań. Nieprawidłowe, bądź nieregularne dane Proces Markowa – ciąg zdarzeń, w którym prawdopodobieństwo każdego zdarzenia zależy jedynie od wyniku poprzedniego. W ujęciu matematycznym, procesy Markowa to takie procesy stochastyczne, które spełniają własność Markowa.
Język formalny – jest to podzbiór zbioru wszystkich słów nad skończonym alfabetem. Język formalny jest kluczowym pojęciem w informatyce, logice matematycznej i językoznawstwie. Język formalny nie jest uściśleniem pojęcia języka naturalnego i nie powinien być z nim mylony. Z jednej strony przeszkodą może być również zagraniczny bądź regionalny akcent, jak również wada wymowy, a z drugiej błędy w tekście takie jak literówki i zła gramatyka bądź OCR. Akt mowy i plan Rozmówca może często uważać zdanie za pewnego rodzaju akcję. Struktura zdania, sama w sobie, może nie zawierać wystarczających informacji do zidentyfikowania tej akcji. Pytanie na przykład jest prośbą mówiącego o odpowiedź słuchacza. Odpowiedź ta może być wyrażona werbalnie, przez aktywność fizyczną lub pewnego rodzaju mieszankę obydwu. Przykładowe pytanie: „Czy możesz podać mi swoje imię?”, wymaga prostej odpowiedzi. Zakładając oczywiście, że je pamiętamy. Kiedy pytanie: „Czy możesz podać mi sól?” jest właśnie prośbą o aktywność fizyczną. Odpowiedź „Tak, mogę”, bez towarzyszącej jej czynności nie jest właściwą (choć „Nie” czy „Nie mogę jej dosięgnąć” wytłumaczy brak jakiejkolwiek czynności). Język hiszpański – język należący do rodziny romańskiej języków indoeuropejskich. Współczesne standardy literackie (z Hiszpanii i Ameryki hiszpańskojęzycznej) wywodzą się ze średniowiecznego języka kastylijskiego. Jeszcze dziś język hiszpański bywa nazywany kastylijskim, dla odróżnienia go od innych języków używanych w Hiszpanii (zob. niżej).
Tagowanie (ang. tagging - oznaczanie, zakładkowanie) - metoda oznaczania i umieszczania referencji do bloków danych. Pozwala to na odwoływanie się do nich według pewnej ich cechy - np. tagowanie poszczególnych części mowy w pliku tekstowym. Statystyczne NLPKiedy zaczniemy rozpatrywać dłuższe zdania w ramach realnej gramatyki większość z nich będzie niejednoznaczna i będzie mogła być analizowana na dziesiątki różnych sposobów. By rozwiązać takie trudności, jak i inne zapisane powyżej, statystyczna analiza języka naturalnego używa metody stochastycznej, prawdopodobieństwa i statystycznej. W metody zwalczania niejednoznaczności często zaangażowane są także korpusy języka i Łańcuch Markowa. Statystyczne NLP posiada wszystkie możliwe sposoby do zautomatyzowania analizy językowej włączając modele prawdopodobieństwa, teorie informacji i algebry liniowej. Technologia ta wywodzi się przede wszystkim z uczenia maszynowego i szybkiej analizy danych, z których obydwie są działami sztucznej inteligencji. Język tajski - język z rodziny języków dajskich, oficjalny język Tajlandii, używany jako pierwszy język jedynie w centralnej części Tajlandii (wokół Bangkoku). Na północy, południu oraz w regionie północno-wschodnim mówi się odrębnymi językami tajskimi.
Część mowy to specyficzna dla danego języka, wyróżniona głównie na podstawie kryteriów składniowych i fleksyjnych klasa wyrazów (zobacz też klasyfikacja części mowy). czytaj dalej: [2], [3]
Czy wiesz że...? beta Język analityczny a. izolujący – język, w którym o funkcji gramatycznej i składniowej wyrazu nie decydują końcówki fleksyjne jak w językach fleksyjnych ani specjalne przyrostki jak w językach aglutynacyjnych, lecz pozycja danego wyrazu w zdaniu. W językach izolujących większość pojedynczych morfemów może być samodzielnymi wyrazami. Istnieją też języki analityczne, które wyrażają stosunki gramatyczne za pomocą luźnych morfemów w postaci form czasownika posiłkowego, przysłówków i przyimków.
Literówka – błąd powstały w trakcie maszynowego przepisywania tekstu (np. na maszynie do pisania lub klawiaturze komputera), a niegdyś (w czasach zecerstwa) także błąd składu. Do literówek zaliczamy tylko czysto mechaniczne błędy typu: pominięcie znaku, powtórzenie, wstawienie niewłaściwego, wstawienie wielkiej litery zamiast małej itp.
Lingwistyka (językoznawstwo) – dział nauk humanistycznych badający istotę, budowę i rozwój języka. Specjalista w zakresie lingwistyki (językoznawstwa) – językoznawca, inaczej lingwista. Wyróżnia się lingwistykę teoretyczną i stosowaną.
Gramatyka (z greki [τέχνη] γραμματική) – dział językoznawstwa zajmujący się badaniem reguł, które rządzą generowaniem wyrazów i zdań języka. W zakres gramatyki wchodzą: fonologia, morfologia, składnia. Terminem tym określa się także sam zbiór reguł określających zasady tworzenia poprawnych wypowiedzi, zatem można powiedzieć, że każdy język ma własną gramatykę.
Parser (inaczej analizator składniowy) w informatyce program dokonujący analizy danych wejściowych w celu określenia ich gramatycznej struktury w związku z formalną gramatyką. Nazwa analizator składniowy podkreśla analogię zastosowania programu do analizy stosowanej w gramatyce i lingwistyce. Dzięki temu procesowi komputery są w stanie przetworzyć czytelny dla człowieka tekst w strukturę danych przydatną do dalszej obróbki.
Lingwistyka komputerowa - dział lingwistyki używający modeli komputerowych w celu testowania hipotez dotyczących mowy i języka oraz tworzenia programów komputerowych przetwarzających język naturalny.
Python – interpretowany, interaktywny język programowania stworzony przez Guido van Rossuma w 1990. Python posiada w pełni dynamiczny system typów i automatyczne zarządzanie pamięcią, jest zatem podobny do takich języków, jak Tcl, Perl, Scheme czy Ruby. Powyższa treść oraz zamieszczone w niej powiązane definicje/pojęcia - udostępniane są na licencji Creative Commons: uznanie autorstwa, na tych samych warunkach, z możliwością obowiązywania dodatkowych ograniczeń.
Zobacz szczegółowe informacje o warunkach korzystania
Wszystkie hasła znajdujące się w naszym mirrorze Wikipedii mają znaczenie informacyjne i edukacyjne. Nie mogą być traktowane jako porady. |