Relacja z sympozjum „Formalny opis języka”

Część członków naszego koła wzięła udział w sympozjum poświęconym szeroko rozumianej humanistyce cyfrowej, zorganizowanym przez Instytut Lingwistyki Stosowanej UW oraz Instytut Języka Polskiego UW. Spotkanie odbyło się 16 listopada 2018 roku w budynku Wydziału Lingwistyki Stosowanej przy ul. Dobrej 55. Po czterech wystąpieniach badaczy z różnych polskich ośrodków naukowych była możliwość wzięcia udziału w warsztatach poświęconych samodzielnemu tworzeniu korpusów językowych – tam również nie zabrakło członków MKJS-u.

Poniżej zamieszczamy relację z wykładów wygłoszonych na sympozjum [1]:

  1. Adam Przepiórkowski, pracujący w Instytucie Podstaw Informatyki PAN oraz na Uniwersytecie Warszawskim, przedstawił referat pt. Lingwistyka formalna – po co?, w którym wyjaśnił założenia oraz zasadność formalnego opisu języka. Głównymi argumentami przemawiającymi za słusznością teorii formalistycznych są precyzja i eksplicytność opisu. Gramatyki stworzone w języku naturalnym nie są w stanie objąć całości języka (all grammars leak, jak głosi powiedzenie ukute prawdopodobnie przez Edwarda Sapira) [2], poza tym wykorzystanie do opisu słów języka naturalnego sprawia, że taka gramatyka jest niejednoznaczna. Precyzyjne i jednoznaczne sformułowanie gramatyki jest możliwe dzięki wykorzystaniu języka formalnego – np. języka logiki predykatów. Przepiórkowski zaprezentował dwa parsery składniowe stanowiące implementacje gramatyk formalnych – parser Świgra2 [3], wykorzystujący nieco zmodyfikowane założenia gramatyki formalnej Marka Świdzińskiego [4], oraz parser wykorzystujący gramatykę formalną POLFIE [5], rozwijaną przez Adama Przepiórkowskiego i Agnieszkę Patejuk, opartą na teorii Lexical-Functional Grammar.

    swigra
    Przykład formalnego opisu języka: drzewo rozbioru wygenerowane przez parser Świgra2    (http://swigra.nlp.ipipan.waw.pl)
  2. Kolejny referat – Dane ilościowe jako podstawa semantycznych modeli emotywnych – został wygłoszony przez prof. Barbarę Lewandowską-Tomaszczyk z Państwowej Wyższej Szkoły Zawodowej w Koninie. Celem wystąpienia była „prezentacja podstaw metodologii badań nad znaczeniem pojęć wyrażających emocje i uczucia, konstruowanej na podstawie badania danych ilościowych” [6]. Istotne dla teorii rozwijanej przez prelegentkę były pojęcia klasterów i megaklasterów znaczeniowych. Teoria przedstawiona przez Lewandowską-Tomaszczyk ma swoje praktyczne zastosowania. Wewnątrz danego klasteru, np. klasteru emocji związanych ze strachem, można – na podstawie układu proporcji takich czynników jak chęć ucieczki (flight), chęć zwalczenia strachu (fight) czy próg emotywny odczuwania strachu (OFI) – wyróżnić różnice semantyczne pomiędzy angielskimi słowami scared, petrified, cowered. Badaczka wykorzystuje również metody badań statystycznych GRID. Warto podać przykładowe wyniki badań ankietowych: okazuje się, że w języku polskim słowo strach łączy się z megaklasterem SMUTEK, w angielskim zaś fear bliższe jest megaklasterowi ANGER.
  3. Dr Piotr Pęzik z Uniwersytetu Łódzkiego wygłosił referat pt. Formalne, dystrybucyjne i psycholingwistyczne opisy frazeologii. Rozpoczął swój wykład od udowodnienia, że przy produkcji języka (tworzeniu kombinacji wyrazów) człowiek angażuje pamięć w dość wysokim stopniu. Świadczy o tym choćby fakt, że formalne znaczenie wyrazu jest nieużyteczne przy nauce języka obcego (najłatwiej wyjaśnić to na przykładzie: możemy znać angielskie słowo make, ale nie powiemy make a photo, musimy pamiętać, że w języku angielskim mówimy take a photo). Następnie prelegent przedstawił różne sposoby ekstrakcji frazeologii – formalne (odnoszące się do struktury semantycznej i składniowej konstrukcji) i dystrybucyjne. Badacz zaprezentował dwie bazy kolokacji: PHRIME [7], poświęconą językowi angielskiemu, oraz HASK [8], umożliwiającą badanie polszczyzny. Baza ta zawiera program Kolozaurus, który służy do porównywania kolokacji danych wyrazów i przedstawia wyniki w postaci grafu.
  4. Ostatni referat Mały korpus historyczny i czego możemy się z niego dowiedzieć wygłosiła dr hab. Magdalena Derwojedowa z Uniwersytetu Warszawskiego. Mieliśmy szansę dowiedzieć się, jak buduje się korpus historyczny i jakie trudności czyhają na potencjalnych badaczy. Ważnym elementem wystąpienia było przedstawienie możliwości badania morfologii, składni czy ortografii. Prof. Derwojedowa nie mogła osobiście uczestniczyć w sympozjum, więc podczas jej wystąpienia zostało wykorzystane połączenie internetowe. Niestety, jakość połączenia nie pozwoliła w pełni cieszyć się bogactwem spostrzeżeń prelegentki.

W części warsztatowej, którą poprowadził dr Witold Kieraś z Instytutu Podstaw Informatyki Polskiej Akademii Nauk, uczestnicy zapoznali się z Korpusomatem, czyli narzędziem służącym do tworzenia korpusów. Korpusomat to bezpłatna aplikacja łącząca analizator morfologiczny (Morfeusz), tager (Concraft), program do rozpoznawania nazw własnych (Liner 2) i do identyfikacji terminologii zawartej w poszczególnych tekstach (TermoPL) oraz wyszukiwarkę korpusową (MTAS). Elementy składające się na pokazywane przez dr. Kierasia narzędzie funkcjonowały już wcześniej niezależnie od siebie, lecz dopiero po ich zespoleniu analiza korpusowa stała się przystępna dla osób niezajmujących się zawodowo lingwistyką informatyczną.

korpusomat2
Przykładowy korpus stworzony przez Korpusomat (korpusomat.pl).

Osoby biorące udział w warsztatach mogły stworzyć własny korpus oraz przekonać się, jak należy w nim szukać interesujących ich informacji. Statystyki są generowane automatycznie i pozwalają na sprawdzenie listy frekwencyjnej słów użytych w danym tekście oraz procentowego udziału leksemów reprezentujących określone kategorie gramatyczne. Można również przeprowadzić bardziej szczegółowe badania językowe, a umożliwia to intuicyjny konstruktor zapytań.

Na koniec uczestnicy otrzymali certyfikaty udziału w warsztatach. Mamy więc dowody na to, że jesteśmy przeszkoleni – zachęcamy do skorzystania z naszej pomocy przy pracy z Korpusomatem!

 


 

 

[1] Streszczenia autorskie wystąpień można znaleźć pod adresem: https://formalny.ils.uw.edu.pl/program/streszczenia/ (dostęp: 27.12.2018). Dalej oznaczane w przypisach jako Streszczenia.

[2]    A. Przepiórkowski i in., Formalny opis języka polskiego. Teoria i implementacja, Warszawa 2002, s. 2.

[3]    http://swigra.nlp.ipipan.waw.pl/ (dostęp: 27.12.2018).

[4]    M. Świdziński, Gramatyka formalna języka polskiego, Warszawa 1992.

[5]    http://zil.ipipan.waw.pl/LFG/ (dostęp: 27.12.2018).

[6] Streszczenia.

[7]    http://phrime.tt.com.pl/#/ (dostęp 27.12.2018).

[8] Piotr Pęzik, Paradygmat dystrybucyjny w badaniach frazeologicznych. Powtarzalność, reprodukcja i idiomatyzacja [w:] Metodologie językoznawstwa. Ewolucja języka, ewolucja teorii językoznawczych, pod red. Piotra Stalmaszczyka, Łódź 2013; http://pelcra.pl/hask_pl/Home# (dostęp: 27.12.2018).

Skomentuj

Wprowadź swoje dane lub kliknij jedną z tych ikon, aby się zalogować:

Logo WordPress.com

Komentujesz korzystając z konta WordPress.com. Wyloguj /  Zmień )

Zdjęcie z Twittera

Komentujesz korzystając z konta Twitter. Wyloguj /  Zmień )

Zdjęcie na Facebooku

Komentujesz korzystając z konta Facebook. Wyloguj /  Zmień )

Połączenie z %s