Ograniczenia reprezentacji wiedzy z wykorzystaniem HTML

HTML (HyperText Markup Language) jest językiem znaczników, w którym instruuje się przeglądarkę, jak należy wyświetlić dokument udostępniany przez serwer klientowi. Znaczniki stosowane w HTML są znacznikami syntaktycznymi. Podstawowymi założeniami przyświecającymi powstaniu i rozwijaniu HTML były prostota (zarówno w przyswajaniu jak i realizacji) oraz pełna niezależność od platformy (sprzętu, systemu operacyjnego) wykorzystywanej do oglądania dokumentów.

Pierwsza wersja HTML opracowana na przełomie lat 80. i 90. przez T. Berners-Lee i R. Caillau pracujących dla CERN w Genewie składała się z niedużej liczby znaczników umożliwiających wyświetlanie tekstu wraz z odsyłaczami do innych tekstów. Wraz z upowszechnianiem się Internetu pojawiła się potrzeba dołączania do tekstu tabel, grafiki, plików multimedialnych, w które zostały wyposażone kolejne wersje HTML-a. W celu wypracowania wspólnego standardu i uniknięcia problemów wynikających z niekompatybilności powstających po stronie przeglądarek różnych producentów powołano organizację World Wide Web Consortium (W3C).

Jak dotychczas najbardziej powszechną wersją HTML-a jest wersja 4.01, która umożliwia zarządzanie wyglądem strony poprzez stosowanie kaskadowych arkuszy stylów (CSS), co pozwala oddzielić zawartość strony od sposobu jej prezentacji. Problemy związane z kompatybilnością przeglądarek nie zostały w pełni wyeliminowane, niemniej tworzenie stron poprawnie obsługiwanych przez różne przeglądarki stało się łatwiejsze niż dawniej.

HTML pozwala na stworzenie statycznych stron WWW. Chcąc umieścić zmieniające się informacje (np. na podstawie bazy danych oraz interakcji z użytkownikiem) wykorzystuje się języki skryptowe, takie jak PHP oraz JavaScript.

Dokument HTML jest dokumentem tekstowym wyposażonym w szereg znaczników. Należą do nich znaczniki formatujące wyjściową postać dokumentu, decydujące o czcionce tekstu, umiejscowieniu rysunków, tabel i wielu innych elementów. HTML poprzez hiperłącza oraz formularze definiuje także interakcje z użytkownikiem.

HTML nie jest językiem programowania; jego podstawowe zadanie to definiowanie struktury i wyglądu dokumentu. Znaczniki umieszczane są w nawiasach „<” oraz „>”. Przykładowo dokument HTML-a zawierający treść:

 <b>Witaj</b>

wyświetli tekst „Witaj” pogrubioną czcionką (rolą pary znaczników <b> i </b> jest zdefiniowanie pogrubienia czcionki dla tekstu nimi objętego).

Każdy element dokumentu HTML składa się z trzech części:

  • znacznika początkowego w formie <znacznik>, np. <b>,
  • zawartości elementu (tekst lub inne elementy (znaczniki można zagnieżdżać)),
  • znacznika końcowego w formie </znacznik>, np. </b> (niektóre znaczniki HTML-a nie posiadają znacznika końcowego, np. <br> - znacznik nowej linii).

Znaczniki mogą mieć przypisane atrybuty, które szczegółowo określają sposób prezentacji elementu. Atrybuty wpisuje się wraz z wartościami wewnątrz znacznika początkowego, np. <znacznik atrybut=’wartość’>.

Schemat dokumentu HTML wygląda następująco:

  <!DOCTYPE html PUBLIC ... >      - deklaracja typu dokumentu

<html>

           <head> ... </head>                   - nagłówek

           <body> ... </body>                  - zawartość strony

</html>

Opis znaczników HTML-a wraz z ich atrybutami można znaleźć w wielu publikacjach, przykładowo: [Wemp07], [PSWK05], [FrFr07] a także w Internecie, m.in. na stronach:

Znajomość HTML-a obecnie nie jest niezbędna do reprezentacji wiedzy na stronie internetowej. Można to zrobić przy pomocy wygodnych edytorów generujących automatycznie kod HTML. Niemniej dla twórców zaawansowanych aplikacji internetowych, poznanie języka kodowania struktury dokumentu hipertekstowego jest konieczne.

Wraz z otwarciem się firm na współpracę przy pomocy Internetu, wzrosła potrzeba na stworzenie możliwości semantycznego opisu dokumentów. Poszukiwania w tym kierunku zrodziły nowy standard opisu i wymiany dokumentów – XML – język umożliwiający stosowanie w reprezentacji wiedzy znaczników semantycznych.