Języki naturalne jako narzędzie reprezentacji wiedzy

Znacząca ilość danych (wiedzy) w Internecie oraz intranecie jest reprezentowana za pomocą języków naturalnych. Co więcej, ta grupa języków jest stosowana jako podstawowy środek komunikowania i wymiany informacji. Zrozumiałe jest zatem oczekiwanie, że technologia przetwarzania języka naturalnego powinna wspomóc zadania realizowane w systemach zarządzania wiedzą nowej generacji. W dziedzinie przetwarzania języka osiągnięto już znaczące postępy. Świadczą o tym zastosowania tej technologii w systemach sztucznej inteligencji. Zainteresowanie zastosowaniami technologii języka w systemach zarządzania wiedzą dotyczy zarówno języka pisanego, jak i mówionego.

Dziedzina przetwarzania języka naturalnego (Natural Language Processing – NLP) definiowana jest jako wszelkie prace zmierzające do automatycznego tworzenia lub przetwarzania wypowiedzeń, związane ze znaczeniem lub strukturą lingwistyczną tych wypowiedzeń. W literaturze termin przetwarzanie języka naturalnego traktowany jest w zasadzie równoważnie z terminami inżynierii lingwistycznej oraz technologii języka. Prace z zakresu przetwarzania języka naturalnego powiązane są ściśle z dziedzinami lingwistyki formalnej oraz informatycznej. Związek ten wskazuje na zakres dziedziny przetwarzania języka naturalnego, obejmujący zarówno formalizację tekstu (przedstawienie wypowiedzi stworzonej w języku naturalnym za pomocą języka formalnego) oraz zaimplementowanie jej wyniku w programach komputerowych.  

Działania w obrębie przetwarzania języka obejmują siedem poziomów . Poziomy te różnią się między sobą pod względem typu analizowanych informacji z zakresu języka naturalnego. Ich charakterystykę przedstawiono w tabeli 1.

Tabela 1 Charakterystyka poziomów analizy języka

Poziom

Opis poziomu analizy języka

Fonologii

Dotyczy rozpoznawania i generowania mowy. Przetwarzanie mowy powiązane jest z fonetyką i opiera się na fizycznych własnościach sygnałów akustycznych. Działania na tym poziomie nie pojawiają się często w obszarze zarządzania wiedzą, ponieważ zwykle tylko niewielka część wiedzy jest prezentowana w postaci plików dźwiękowych lub strumieni. Technologie języka naturalnego na poziomie fonologii będą mogły być stosowane w przyszłości.

Leksyki

Procesy na tym poziomie traktują jako element wejściowy tekst w języku naturalnym. Tekst powinien przejść przez fazę tokenizacji, w czasie której są identyfikowane jednostki leksykalne (paragrafy, zdania, słowa itd.) oraz opisywane za pomocą znaczników części mowy. W niektórych statystycznych podejściach faza tokenizacji może być uproszczona i proces znakowania pominięty. Działania na tym poziomie są najistotniejsze dla wszystkich podejść opartych na słowach.

Morfologii

Działania na tym poziomie obejmują rozpoznawanie sufiksów, prefiksów i fleksyjnych (inflectional) form słów, analizę złożonych wyrażeń (compound analysis) oraz stemming lub lematyzację. Procesy lematyzacji oraz stemmingu dotyczą przekształcania słowa z formy, w jakiej wystąpiło (word-form) w jego postać podstawową lub rdzeń, przy czym proces lematyzacji uwzględnia również kontekst słowa oraz budowę gramatyczną zdania. Działania na tym poziomie są istotne dla wyszukiwań i powiązania ontologii z konkretnymi wystąpieniami pojęć.

Syntaktyki

Niezbędne na tym poziomie są dwa zadania: identyfikacja fragmentów zdań oraz przypisywanie ról do poszczególnych słów, z uwzględnieniem reguł gramatycznych języka i opisem (gramatyką) tego, jak słowa mogą być łączone w analizowanym języku. Działania na tym poziomie są pomocne dla schematów ontologicznych i wyszukiwanych konkretnych danych.

Semantyki

Poziom obejmuje 3 główne zadania: reprezentację wiedzy, usuwanie niejednoznaczności sensu słów oraz rozszerzanie reprezentacji wiedzy o synonimy i pokrewne słowa. Proces dodawania semantyki (znaczeń) do reprezentacji tekstu w ustalonym języku wymaga zadowalającego formalizmu reprezentacji wiedzy. Przykładem formalizmu jawnej reprezentacji wiedzy z semantyką formalnie wyspecyfikowaną i przetwarzalną przez komputer jest ontologia.

Pragmatyki

Poziom ten wprowadza rozwiązywanie wszystkich wypowiedzi (utterances), niejednoznaczności z wykorzystaniem możliwie jak najwięcej wiedzy o świecie. Techniki przetwarzania języka naturalnego są tu stosowane do interpretowania intencji, intuicji oraz wyjaśnienia wyrażeń metaforycznych za pomocą wiedzy zdroworozsądkowej (potocznej). W rzeczywistości przetwarzanie języka na tym poziomie polega na przekształcaniu informacji w wiedzę.

Dyskursu

Zrozumienie języka znacząco zależy od kontekstu. Podczas gdy poziom semantyki wprowadza pierwszą analizę znaczenia (głównie na poziomie zdania), poziom dyskursu bierze pod uwagę kontekst, opierając się na doświadczeniu i analizie całej narracji

Metody opisu i analizy języka naturalnego podzielone są na dwie klasy: metody formalne oraz metody statystyczne. Metody formalne opisu języka stosowane są w oparciu o przedstawione w tabeli 1 poziomy analizy języka naturalnego. Wśród nich wyróżnić można sposób opisu języka poprzez definiowanie gramatyk formalnych, a zatem zbioru reguł, dzięki którym można wygenerować każde słowo należące do danego języka formalnego (przy jednoczesnym zapewnieniu możliwości wygenerowania tylko słowa należącego do tego języka). Innym podejściem charakteryzują się metody statystyczne analizy języka. Zakładają one gromadzenie danych językowych oraz wyszukiwanie praw ilościowych charakteryzujących te dane. Zatem odnoszą się one do ilościowego podejścia do jakościowej analizy tekstu. Wśród statystycznych metod analizy języka wyróżnić można metody oparte na reprezentacji wektorowej dokumentów oraz analizę ukrytych grup semantycznych dokumentów.

Podstawowym celem prac w zakresie przetwarzania języka naturalnego jest automatyzacja analizy, tłumaczenia i generowania języka naturalnego. W szczególności inżynieria lingwistyczna spełnia funkcje:

  • poznawcze (np. rozumienie języków, kategoryzacja tekstów, badanie budowy języków),
  • gromadzenia danych tekstowych (np. tworzenie słowników, korpusów),
  • zastosowania języka naturalnego w aplikacjach (np. automatyczne generowanie wypowiedzi, streszczeń, wyszukiwanie dokumentów, wnioskowanie, klasyfikacja dokumentów).

Znaczenie technologii opartych na przetwarzaniu języka naturalnego wynika z tego, że uwalniają one użytkownika od problemów ekstrakcji wiedzy i interpretacji istotnej informacji znajdującej się w tekstach napisanych w języku naturalnym. Technologie te są podstawowe dla technologii zarządzania wiedzą, ponieważ umożliwiają:

  • automatyczne przetwarzanie dokumentów (treści) WWW,
  • maszynowo przetwarzane opisywanie (annotation) tekstów w języku naturalnym za pomocą pojęć zawartych w ontologii,
  • odkrywanie nowych elementów ontologii (tj. pojęć, klas, instancji, atrybutów, relacji, twierdzeń),
  • automatyczne wyszukiwanie elementów wiedzy.

Wymienione zagadnienia można traktować jako automatyzację tłumaczenia tekstów zapisanych w języku naturalnym na sformalizowany język reprezentacji wiedzy. Taka automatyzacja jest jednym z najbardziej pożądanych i obiecujących kierunków badań w dziedzinie systemów zarządzania wiedzą. Jej celem jest tworzenie baz wiedzy zapisanej w języku sformalizowanym, umożliwiającym operowanie tą wiedzą w sposób automatyczny.

Automatyzacja translacji z języka naturalnego ma długą historię. Pierwszych tłumaczeń dokonywano jednak na inny język naturalny. Zainteresowanie tego rodzaju pracami trwa nadal. Dla uproszczenia translacji z jednego języka na wiele innych wprowadzono język pośredni. Dzięki temu rozwiązaniu obok tego nurtu rozwija się interesująca nas problematyka automatycznej translacji z języka naturalnego na język reprezentacji wiedzy. Dotychczas opracowano wiele różnorodnych podejść do automatycznej translacji. Do najważniejszych należą translacje oparte na:

  • transferze morfologicznym,
  • przykładach,
  • wiedzy o języku i dziedzinie tłumaczonych tekstów,
  • metodach statystycznych.

Podstawową trudnością występującą podczas wszelkich prób zautomatyzowania translacji jest wieloznaczność wypowiedzi (tekstów) sformułowanych w języku naturalnym. Wieloznaczność ta, gwarantująca nadzwyczajną elastyczność języka oraz nieograniczoną niemal siłę wyrazu, tworzy istotne bariery w przekładzie na inny język zarówno na poziomie słownictwa, gramatyki (syntaktyki), jak i znaczenia (semantyki) wypowiedzi. Do radzenia sobie z wieloznacznością wypowiedzi i tekstów konieczne jest posiadanie inteligencji w postaci ogólnej wiedzy o świecie oraz zdrowego rozsądku, a w przypadku tekstów specjalistycznych także specyficznej wiedzy dziedzinowej. Są to cechy, w które w naturalny sposób jest wyposażony każdy człowiek. Podstawą ludzkiej inteligencji, co akceptuje coraz więcej badaczy języka, jest istotny czynnik o charakterze niealgorytmicznym. Translacja wymaga zatem kreatywności, wyobraźni i intuicji tłumacza.