Lukasz Stafiniak pages | NLP / Gramatyki

May 06, 2007, at 03:29 AM by lukstafi - semantics

Changed lines 3-4 from:

''[Na marginesie: słów'' '''węzeł''' ''i'' '''wierzchołek''' ''używam zamiennie (tzn. używam pierwszego bo jest ~~krótsze~~).]''

to:

''[Na marginesie: słĂłw'' '''węzeł''' ''i'' '''wierzchołek''' ''używam zamiennie (tzn. używam pierwszego bo jest krĂłtsze).]''

Changed lines 8-9 from:

~~Rozbiór~~ zdania nie musi zatrzymywać się na poziomie słowa: dzięki automatycznemu podziałowi słowa na morfemy możemy zmniejszyć wielkość słownika, a nawet radzić sobie z nieznanymi słowami. Dla przykładu, system konwersacyjny może swobodnie zapytać użytkownika o znaczenie wyrazu, kiedy jego rola gramatyczna jest dzięki analizie w pełni określona i znane są wzorce odmiany.

to:

RozbiĂłr zdania nie musi zatrzymywać się na poziomie słowa: dzięki automatycznemu podziałowi słowa na morfemy możemy zmniejszyć wielkość słownika, a nawet radzić sobie z nieznanymi słowami. Dla przykładu, system konwersacyjny może swobodnie zapytać użytkownika o znaczenie wyrazu, kiedy jego rola gramatyczna jest dzięki analizie w pełni określona i znane są wzorce odmiany.

Changed lines 17-18 from:

~~Ogólnie~~ o parsowaniu: [[http://www.cs.vu.nl/~dick/PTAPG.html | Parsing Techniques - A Practical Guide]]. Istotne hasła: metoda CYK, chart parsing, parsowanie top-down vs. bottom-up, Earley parser, metody LR.

to:

OgĂłlnie o parsowaniu: [[http://www.cs.vu.nl/~dick/PTAPG.html | Parsing Techniques - A Practical Guide]]. Istotne hasła: metoda CYK, chart parsing, parsowanie top-down vs. bottom-up, Earley parser, metody LR.

Changed lines 21-22 from:

[[http://www.cs.chalmers.se/~peb/pubs/p04-chart-pearl.pdf | Functional Pearls: Functional Chart Parsing of Context Free Grammars]] by Peter ~~Ljunglöf~~.

to:

[[http://www.cs.chalmers.se/~peb/pubs/p04-chart-pearl.pdf | Functional Pearls: Functional Chart Parsing of Context Free Grammars]] by Peter LjunglĂśf.

Changed lines 28-30 from:

!!! [[#unif]] Inkrementacyjna unifikacja (inkrementacyjne rozstrzyganie wię~~zów~~)
Drzewa ~~dowodów~~ (proof trees) jako drzewa rozbioru dla gramatyk unifikacyjnych, zobacz [[http://www.ida.liu.se/~ulfni/lpp/ | Logic, Programming and Prolog (2ed)]] rozdz. 3.6. Oczywiście chcemy możliwie szybko odcinać błędne ścieżki wyprowadzeń, dlatego (jak w Prologu), od razu propagujemy rozwiązania generowanych ~~równa~~ń. "Funkcję obliczeń" R wyznacza nam algorytm chart-parsera. (Rozdział 3.6 książki o Prologu ~~mówi~~ tylko o doklejaniu płytkich drzew odpowiadających produkcjom, u nas krawędzi z kropką na samym początku, ale idea przenosi się na doklejanie głębszych drzew. Pełne gramatyki unifikacyjne są opisane w rozdziale o "Definite Clause Grammars".)

to:

!!! [[#unif]] Inkrementacyjna unifikacja (inkrementacyjne rozstrzyganie więzĂłw)
Drzewa dowodĂłw (proof trees) jako drzewa rozbioru dla gramatyk unifikacyjnych, zobacz [[http://www.ida.liu.se/~ulfni/lpp/ | Logic, Programming and Prolog (2ed)]] rozdz. 3.6. Oczywiście chcemy możliwie szybko odcinać błędne ścieżki wyprowadzeń, dlatego (jak w Prologu), od razu propagujemy rozwiązania generowanych rĂłwnań. "Funkcję obliczeń" R wyznacza nam algorytm chart-parsera. (Rozdział 3.6 książki o Prologu mĂłwi tylko o doklejaniu płytkich drzew odpowiadających produkcjom, u nas krawędzi z kropką na samym początku, ale idea przenosi się na doklejanie głębszych drzew. Pełne gramatyki unifikacyjne są opisane w rozdziale o "Definite Clause Grammars".)

Changed lines 36-44 from:

# Dzielimy gramatykę na reguły leksykalne/słownikowe i pozostałe. Reguły leksykalne to te, ~~których~~ prawa strona rozpoczyna się od terminala (często będzie to tylko terminal). Tylko nieleksykalne reguły wstawiamy jako "pętelki" w każdą pozycję charta, reguły leksykalne grupujemy w słownik ze słów w ~~zbiór~~ reguł, i dla każdego słowa wstawiamy do charta przeskakujące to słowo krawędzie.

# Samo wstawianie "pętelek" do charta możemy potraktować leniwie: zgromadzić reguły nieleksykalne w słownik indeksowany (np.) przez część mowy (lub nazwę frazy) i w momencie wybierania z charta krawędzi do przedłużenia, dorzucić krawędzie odpowiadające regułom ze słownika dla potrzebnej części mowy. W ten ~~sposób~~ nie przeglądamy za każdym razem wszystkich reguł (nieleksykalnych).

# Można pokusić się o bardziej skomplikowane optymalizacje. Można badać klasy leksykalne (np. verb = transitive verb + intransitive verb), ~~których~~ derywacje z danej reguły wymagają / nie dopuszczają (tzn. klasy słów, ~~które~~ muszą / nie mogą się pojawić we frazie, ~~której~~ wyprowadzenia korzeniem jest dana reguła). Można skompilować gramatykę do bardziej wydajnej postaci (bardziej podobnej do postaci Greibach), ale w czasie parsowania rekonstruować drzewo rozbioru względem oryginalnej gramatyki.

!!!! [[#errdesc]] Pomysły na tłumaczenie błę~~dów~~ gramatycznych
Jeśli zdanie jest niepoprawne gramatycznie, to parsing kończy się bez krawędzi obejmujących całe zdanie. Szukamy (dynamicznie) cią~~gów~~ krawędzi dających minimalne pokrycie rozłączne zdania (tzn. minimalną ilość krawędzi, po ~~których~~ można przeskoczyć z początku na koniec). Budujemy nowy chart, tylko z krawędzi z tych cią~~gów~~. Do standardowych reguł chart-parsera dodajemy następujące reguły obsługi błę~~dów~~:

to:

# Dzielimy gramatykę na reguły leksykalne/słownikowe i pozostałe. Reguły leksykalne to te, ktĂłrych prawa strona rozpoczyna się od terminala (często będzie to tylko terminal). Tylko nieleksykalne reguły wstawiamy jako "pętelki" w każdą pozycję charta, reguły leksykalne grupujemy w słownik ze słĂłw w zbiĂłr reguł, i dla każdego słowa wstawiamy do charta przeskakujące to słowo krawędzie.

# Samo wstawianie "pętelek" do charta możemy potraktować leniwie: zgromadzić reguły nieleksykalne w słownik indeksowany (np.) przez część mowy (lub nazwę frazy) i w momencie wybierania z charta krawędzi do przedłużenia, dorzucić krawędzie odpowiadające regułom ze słownika dla potrzebnej części mowy. W ten sposĂłb nie przeglądamy za każdym razem wszystkich reguł (nieleksykalnych).

# Można pokusić się o bardziej skomplikowane optymalizacje. Można badać klasy leksykalne (np. verb = transitive verb + intransitive verb), ktĂłrych derywacje z danej reguły wymagają / nie dopuszczają (tzn. klasy słĂłw, ktĂłre muszą / nie mogą się pojawić we frazie, ktĂłrej wyprowadzenia korzeniem jest dana reguła). Można skompilować gramatykę do bardziej wydajnej postaci (bardziej podobnej do postaci Greibach), ale w czasie parsowania rekonstruować drzewo rozbioru względem oryginalnej gramatyki.

!!!! [[#errdesc]] Pomysły na tłumaczenie błędĂłw gramatycznych
Jeśli zdanie jest niepoprawne gramatycznie, to parsing kończy się bez krawędzi obejmujących całe zdanie. Szukamy (dynamicznie) ciągĂłw krawędzi dających minimalne pokrycie rozłączne zdania (tzn. minimalną ilość krawędzi, po ktĂłrych można przeskoczyć z początku na koniec). Budujemy nowy chart, tylko z krawędzi z tych ciągĂłw. Do standardowych reguł chart-parsera dodajemy następujące reguły obsługi błędĂłw:

Changed lines 51-53 from:

Nasyć chart przy pomocy poszerzonego zbioru reguł (poszerz odpowiednio używany algorytm parsowania). ~~Zwró~~ć użytkownikowi drzewa rozbioru odpowiadające krawędziom obejmującym całe zdanie wyprowadzone z minimalną ilością zastosowań reguł obsługi błę~~dów~~, razem z zapamiętanymi komentarzami.

!!! [[#speagram]] Obecny [[http://svn.sourceforge.net/viewvc/speagram/trunk/speagram/ | Speagram]]: trochę ~~ogólniejsze~~ gramatyki struktur frazowych

to:

Nasyć chart przy pomocy poszerzonego zbioru reguł (poszerz odpowiednio używany algorytm parsowania). ZwrĂłć użytkownikowi drzewa rozbioru odpowiadające krawędziom obejmującym całe zdanie wyprowadzone z minimalną ilością zastosowań reguł obsługi błędĂłw, razem z zapamiętanymi komentarzami.

!!! [[#speagram]] Obecny [[http://svn.sourceforge.net/viewvc/speagram/trunk/speagram/ | Speagram]]: trochę ogĂłlniejsze gramatyki struktur frazowych

Changed lines 57-58 from:

Po lewej stronie produkcji, wstawiamy term A opisujący własności drzewa rozbioru z korzeniem wyprowadzonym z tej produkcji, zależne od własności poddrzew. Po prawej stronie produkcji, zamiast nieterminali wstawiamy term A'_i_' opisujący interesujące nas własności, oraz relację R'_i_', w ~~której~~ term B opisujący potencjalne poddrzewo rozbioru ma być względem termu A'_i_'. Trzy rodzaje relacji wydają się rozsądne, w żargonie ję~~zyków~~ programowania nazywają się one: "pozycja inwariantna" (=), "pozycja kowariantna" (<), "pozycja kontrawariantna" (>). Budując drzewo rozbioru zdania pilnujemy niesprzeczności wymagań. Przykłady (''italiką'' oznaczone są terminale, a znakiem zapytania zmienne w termach własności, tzn. w typach):

to:

Po lewej stronie produkcji, wstawiamy term A opisujący własności drzewa rozbioru z korzeniem wyprowadzonym z tej produkcji, zależne od własności poddrzew. Po prawej stronie produkcji, zamiast nieterminali wstawiamy term A'_i_' opisujący interesujące nas własności, oraz relację R'_i_', w ktĂłrej term B opisujący potencjalne poddrzewo rozbioru ma być względem termu A'_i_'. Trzy rodzaje relacji wydają się rozsądne, w żargonie językĂłw programowania nazywają się one: "pozycja inwariantna" (=), "pozycja kowariantna" (<), "pozycja kontrawariantna" (>). Budując drzewo rozbioru zdania pilnujemy niesprzeczności wymagań. Przykłady (''italiką'' oznaczone są terminale, a znakiem zapytania zmienne w termach własności, tzn. w typach):

Changed lines 61-62 from:

z przedchodniości, ta produkcja jest ~~równowa~~żna następującym:

to:

z przedchodniości, ta produkcja jest rĂłwnoważna następującym:

Changed lines 66-67 from:

Konstrukcja z ję~~zyków~~ programowania. [@ let X be Y @] oznacza, że @@X@@ oblicza się do @@Y@@. Żeby to było dopuszczalne, @@Y@@ki muszą być @@X@@ami, tzn. typ @@Y@@ka musi być podtypem @@X@@a.

to:

Konstrukcja z językĂłw programowania. [@ let X be Y @] oznacza, że @@X@@ oblicza się do @@Y@@. Żeby to było dopuszczalne, @@Y@@ki muszą być @@X@@ami, tzn. typ @@Y@@ka musi być podtypem @@X@@a.

Changed lines 71-73 from:

Przymiotnik opisujący frazę rzeczownikową może mieć typ ~~ogólniejszy~~ niż ta fraza, na przykład może być rodzaju męskiego [@gender=m@], ~~który~~ jest nadtypem ~~rodzajów~~ @@m1@@, @@m2@@ i @@m3@@.

to:

Przymiotnik opisujący frazę rzeczownikową może mieć typ ogĂłlniejszy niż ta fraza, na przykład może być rodzaju męskiego [@gender=m@], ktĂłry jest nadtypem rodzajĂłw @@m1@@, @@m2@@ i @@m3@@.

Changed lines 77-78 from:

Są dwie możliwe interpretacje etykiet brakujących w opisie: sensowna formalnie interpretacja abstrakcyjna oraz praktyczna interpretacja polimorficzna. Interpretacja abstrakcyjna pod niewyspecyfikowane wartości etykiet podstawia @@Top@@, a interpretacja polimorficzna ignoruje etykiety nie występujące jednocześnie po obu stronach ~~porównania~~. W interpretacji abstrakcyjnej [@ NP[number=singular] @] oznacza ~~zbiór~~ wszystkich fraz rzeczownikowych w liczbie pojedynczej ([@ NP[gender=masculie, number=singular] @] jest ściśle konkretniejszy od tego typu), a w interpretacji polimorficznej [@ NP[number=singular] @] oznacza pewną frazę rzeczownikową w liczbie pojedynczej ([@ NP[gender=masculie, number=singular] @] jest i konkretniejszy i ~~ogólniejszy~~ od tego typu). Interpretacja polimorficzna okazuje się być wygodniejsza przy pisaniu gramatyk, ''It doesn't work in theory, but it works in practice...'' (Obecnie mamy w Speagramie interpretację polimorficzną.)

to:

Są dwie możliwe interpretacje etykiet brakujących w opisie: sensowna formalnie interpretacja abstrakcyjna oraz praktyczna interpretacja polimorficzna. Interpretacja abstrakcyjna pod niewyspecyfikowane wartości etykiet podstawia @@Top@@, a interpretacja polimorficzna ignoruje etykiety nie występujące jednocześnie po obu stronach porĂłwnania. W interpretacji abstrakcyjnej [@ NP[number=singular] @] oznacza zbiĂłr wszystkich fraz rzeczownikowych w liczbie pojedynczej ([@ NP[gender=masculie, number=singular] @] jest ściśle konkretniejszy od tego typu), a w interpretacji polimorficznej [@ NP[number=singular] @] oznacza pewną frazę rzeczownikową w liczbie pojedynczej ([@ NP[gender=masculie, number=singular] @] jest i konkretniejszy i ogĂłlniejszy od tego typu). Interpretacja polimorficzna okazuje się być wygodniejsza przy pisaniu gramatyk, ''It doesn't work in theory, but it works in practice...'' (Obecnie mamy w Speagramie interpretację polimorficzną.)

Changed lines 97-100 from:

HPSG przypisuje frazom -- począwszy od słów po całe zdania -- struktury atrybutowe (feature-structures) zawierające bardzo bogatą informację: fono/morfologiczną, syntaktyczną i semantyczną. HPSG składa się ze słownika, zawierającego struktury atrybutowe dla ~~poszczególnych~~ słów języka, oraz bardzo niewielu ~~schematów~~ reguł. Do HPSG można stosować chart-parsery: wypełnia się chart przez struktury atrybutowe słów zdania i następnie stosuje schematy reguł do konstrukcji/przekształcania krawędzi charta. Od "zwykłych" gramatyk unifikacyjnych (tzn. CFG + struktury atrybutowe) HPSG różni się więc tym, że produkcje nie są dane jawnie, tylko wydobywane ze struktur atrybutowych przez schematy reguł.

HPSG jest niederywacyjna (deklaratywna): zupełnie nieistotne jest, w jaki ~~sposób~~ skonstruowaliśmy strukturę atrybutową dla zdania, ta struktura zawiera całą potrzebną informację, oraz nietransformacyjna: struktury atrybutowe nie są modyfikowane, tylko łączone w większe struktury przez unifikację. Dlatego HPSG można też parsować "czysto więzowo" tak jak gramatyki zależności ([[#p4 | dependency grammars]]).

to:

HPSG przypisuje frazom -- począwszy od słĂłw po całe zdania -- struktury atrybutowe (feature-structures) zawierające bardzo bogatą informację: fono/morfologiczną, syntaktyczną i semantyczną. HPSG składa się ze słownika, zawierającego struktury atrybutowe dla poszczegĂłlnych słĂłw języka, oraz bardzo niewielu schematĂłw reguł. Do HPSG można stosować chart-parsery: wypełnia się chart przez struktury atrybutowe słĂłw zdania i następnie stosuje schematy reguł do konstrukcji/przekształcania krawędzi charta. Od "zwykłych" gramatyk unifikacyjnych (tzn. CFG + struktury atrybutowe) HPSG rĂłżni się więc tym, że produkcje nie są dane jawnie, tylko wydobywane ze struktur atrybutowych przez schematy reguł.

HPSG jest niederywacyjna (deklaratywna): zupełnie nieistotne jest, w jaki sposĂłb skonstruowaliśmy strukturę atrybutową dla zdania, ta struktura zawiera całą potrzebną informację, oraz nietransformacyjna: struktury atrybutowe nie są modyfikowane, tylko łączone w większe struktury przez unifikację. Dlatego HPSG można też parsować "czysto więzowo" tak jak gramatyki zależności ([[#p4 | dependency grammars]]).

Changed lines 108-109 from:

[[http://www.cis.upenn.edu/~xtag/tech-report/node5.html | Atrybutowe leksykalne TAGs]] ([[http://www.cis.upenn.edu/~xtag/ | strona gł~~ówna~~ projektu xTAG]])

to:

[[http://www.cis.upenn.edu/~xtag/tech-report/node5.html | Atrybutowe leksykalne TAGs]] ([[http://www.cis.upenn.edu/~xtag/ | strona głĂłwna projektu xTAG]])

Changed lines 111-112 from:

Gramatyki kategorialne są ~~równie~~ż formalizmem leksykalnym. Ze słowami związane są kategorie (typy), ~~które~~ ilustrują ~~sposób~~, w jaki słowa i frazy łączą się (kombinują) ze sobą tworząc większe frazy. Reguły zwykłych gramatyk kategorialnych (CG, ~~równowa~~żnych CFG) to:

to:

Gramatyki kategorialne są rĂłwnież formalizmem leksykalnym. Ze słowami związane są kategorie (typy), ktĂłre ilustrują sposĂłb, w jaki słowa i frazy łączą się (kombinują) ze sobą tworząc większe frazy. Reguły zwykłych gramatyk kategorialnych (CG, rĂłwnoważnych CFG) to:

Changed lines 129-132 from:

Wielomodalne CCG mają annotacje na ukośnikach ~~mówi~~ące, ~~które~~ reguły można do danej kategorii złożonej stosować. Kategorie mogą być indeksowane strukturami atrybutowymi, ~~które~~ są unifikowane pomiędzy kategoriami, ~~które~~ ze sobą kombinują (tzn. unifikowane są struktury atrybutowe ~~które~~ stałyby przy wystąpieniach @@Y@@ w powyższych regułach); wynikowe podstawienie jest stosowane do wszystkich struktur w danej derywacji. Całe kategorie też mogą być zmiennymi.

Do parsowania CCG używa się chart-~~parserów~~, każdej spoś~~ród~~ powyższych reguł odpowiada reguła dodawania krawędzi do charta.

to:

Wielomodalne CCG mają annotacje na ukośnikach mĂłwiące, ktĂłre reguły można do danej kategorii złożonej stosować. Kategorie mogą być indeksowane strukturami atrybutowymi, ktĂłre są unifikowane pomiędzy kategoriami, ktĂłre ze sobą kombinują (tzn. unifikowane są struktury atrybutowe ktĂłre stałyby przy wystąpieniach @@Y@@ w powyższych regułach); wynikowe podstawienie jest stosowane do wszystkich struktur w danej derywacji. Całe kategorie też mogą być zmiennymi.

Do parsowania CCG używa się chart-parserĂłw, każdej spośrĂłd powyższych reguł odpowiada reguła dodawania krawędzi do charta.

Changed lines 138-139 from:

Parsowanie dla gramatyk struktur frazowych istotnie wykorzystuje kolejność węzłów drzewa. Nie jest to korzystne w przypadku ję~~zyków~~ o zdaniach ze swobodnym szykiem. Szyk ~~wyrazów~~ nie musi być istotnym elementem składni: możemy rozpatrywać przynależność do języka modulo permutacja słów zdania. Aby parsować z pominięciem szyku, należy znaleźć jakiś odpowiednik programowania dynamicznego, ~~który~~ pozwoli inkrementacyjnie budować drzewo rozbioru. ~~Ogólnych~~ metod rozwiązywania ~~problemów~~ o naturze kombinatorycznej dostarcza ''programowanie wię~~zów~~''. Pierwszym językiem programowania wię~~zów~~ był Prolog, ale obecne języki / techniki programowania wię~~zów~~ są skuteczniejsze, zaopatrzone w bogatsze logiki i wydajniejsze mechanizmy (dziedziny). Jak widzieliśmy już wcześniej, parsery gramatyk unifikacyjnych budują drzewo obliczeń (gramatyki potraktowanej jako) program w Prologu, przycięte przez algorytm dynamiczny wiążący porządek (liniowy) węzłów drzewa z porządkiem słów zdania. Nasz obecny pomysł na parsowanie, to pominięcie "przycinania z zewnątrz", ale wykorzystanie ~~wspó~~łczesnych technik programowania wię~~zów~~.

to:

Parsowanie dla gramatyk struktur frazowych istotnie wykorzystuje kolejność węzłĂłw drzewa. Nie jest to korzystne w przypadku językĂłw o zdaniach ze swobodnym szykiem. Szyk wyrazĂłw nie musi być istotnym elementem składni: możemy rozpatrywać przynależność do języka modulo permutacja słĂłw zdania. Aby parsować z pominięciem szyku, należy znaleźć jakiś odpowiednik programowania dynamicznego, ktĂłry pozwoli inkrementacyjnie budować drzewo rozbioru. OgĂłlnych metod rozwiązywania problemĂłw o naturze kombinatorycznej dostarcza ''programowanie więzĂłw''. Pierwszym językiem programowania więzĂłw był Prolog, ale obecne języki / techniki programowania więzĂłw są skuteczniejsze, zaopatrzone w bogatsze logiki i wydajniejsze mechanizmy (dziedziny). Jak widzieliśmy już wcześniej, parsery gramatyk unifikacyjnych budują drzewo obliczeń (gramatyki potraktowanej jako) program w Prologu, przycięte przez algorytm dynamiczny wiążący porządek (liniowy) węzłĂłw drzewa z porządkiem słĂłw zdania. Nasz obecny pomysł na parsowanie, to pominięcie "przycinania z zewnątrz", ale wykorzystanie wspĂłłczesnych technik programowania więzĂłw.

Changed lines 141-144 from:

Aby zaprogramować całe parsowanie jako problem rozwiązywania wię~~zów~~, potrzebujemy reprezentować dowolne drzewo rozbioru w dziedzinie wię~~zów~~, ~~której~~ używamy. Reprezentować dowolne drzewo o liściach będących słowami ustalonego zdania jest trudno -- jest ich nieskończenie wiele. Musimy więc ograniczyć ilość węzłów wewnętrznych nie posiadających rozgałęzień. Najprościej jest wykluczyć takie węzły. Zauważmy, że wtedy węzłów wewnętrznych jest o jeden mniej niż liści, możemy więc każdemu węzłowi wewnętrznemu przyporządkować liść. Miło byłoby, gdyby sama gramatyka z każdym węzłem drzewa rozbioru wiązała liść-terminal-słowo zdania. Okazuje się, że takie gramatyki są naturalne, pracował nad nimi m.in. Lucien Tesniere, gł~~ówn~~ą pracę "Elements de syntaxe structurale" wydał w 1959, więc ~~równolegle~~ z pracami Chomsky'ego.

Samemu rozwiązywaniu wię~~zów~~ jest wszystko jedno, jaką strukturę narzucimy na graf, więc możemy "zrelaksować" prototypowy warunek, żeby strukturą rozbioru było drzewo. Spotkałem się z formalizmami, w ~~których~~ wymaga się, żeby to był graf acykliczny (DAG). Praktyczne wydaje się zezwolenie na cykle, może ograniczone do klik, np. żeby wyrażać związki koordynacji (tzn. konstrukcje złożone ~~wspó~~łrzędnie, np. "A i B"), z ~~którymi~~ "dependency grammars" mają pewne problemy.

to:

Aby zaprogramować całe parsowanie jako problem rozwiązywania więzĂłw, potrzebujemy reprezentować dowolne drzewo rozbioru w dziedzinie więzĂłw, ktĂłrej używamy. Reprezentować dowolne drzewo o liściach będących słowami ustalonego zdania jest trudno -- jest ich nieskończenie wiele. Musimy więc ograniczyć ilość węzłĂłw wewnętrznych nie posiadających rozgałęzień. Najprościej jest wykluczyć takie węzły. Zauważmy, że wtedy węzłĂłw wewnętrznych jest o jeden mniej niż liści, możemy więc każdemu węzłowi wewnętrznemu przyporządkować liść. Miło byłoby, gdyby sama gramatyka z każdym węzłem drzewa rozbioru wiązała liść-terminal-słowo zdania. Okazuje się, że takie gramatyki są naturalne, pracował nad nimi m.in. Lucien Tesniere, głĂłwną pracę "Elements de syntaxe structurale" wydał w 1959, więc rĂłwnolegle z pracami Chomsky'ego.

Samemu rozwiązywaniu więzĂłw jest wszystko jedno, jaką strukturę narzucimy na graf, więc możemy "zrelaksować" prototypowy warunek, żeby strukturą rozbioru było drzewo. Spotkałem się z formalizmami, w ktĂłrych wymaga się, żeby to był graf acykliczny (DAG). Praktyczne wydaje się zezwolenie na cykle, może ograniczone do klik, np. żeby wyrażać związki koordynacji (tzn. konstrukcje złożone wspĂłłrzędnie, np. "A i B"), z ktĂłrymi "dependency grammars" mają pewne problemy.

Changed lines 146-147 from:

Kompletny tutorial implementacji parsera dla "dependency grammar" na bazie programowania wię~~zów~~: [[http://citeseer.ist.psu.edu/duchier00constraint.html]].

to:

Kompletny tutorial implementacji parsera dla "dependency grammar" na bazie programowania więzĂłw: [[http://citeseer.ist.psu.edu/duchier00constraint.html]].

Changed lines 151-154 from:

* dezambiguacji na różnych poziomach rozbioru zdania, włączając niepewność co do użytych słów,

* przyspieszania parsowania, m.in. poprzez "beam search" (pomijanie mniej prawdopodobnych ~~wariantów~~)

to:

* dezambiguacji na rĂłżnych poziomach rozbioru zdania, włączając niepewność co do użytych słĂłw,

* przyspieszania parsowania, m.in. poprzez "beam search" (pomijanie mniej prawdopodobnych wariantĂłw)

Changed lines 158-159 from:

[[http://www.ircs.upenn.edu/~juliahr/Dissertation/index.html | Data and models for statistical parsing with Combinatory Categorial Grammar]], Chapter 4. A brief introduction to statistical parsing (faktycznie strony 121-152 wersji jednostronnej), ten rozdział przedstawia ~~ogólnie~~ parsowanie probabilistyczne (bez odniesień do CCG).

to:

[[http://www.ircs.upenn.edu/~juliahr/Dissertation/index.html | Data and models for statistical parsing with Combinatory Categorial Grammar]], Chapter 4. A brief introduction to statistical parsing (faktycznie strony 121-152 wersji jednostronnej), ten rozdział przedstawia ogĂłlnie parsowanie probabilistyczne (bez odniesień do CCG).

Changed lines 167-168 from:

[[http://www.uni-giessen.de/~g91062/Seminare/gk-cl/Allen95/al1995co.htm | Allen 1995 : Natural Language Understanding]] /

to:

* [[http://let.uvt.nl/general/people/rmuskens/pubs/comput.pdf | Harry Bunt and Reinhard Muskens, ''Computational Semantics'']]
* [[http://www.uni-giessen.de/~g91062/Seminare/gk-cl/Allen95/al1995co.htm | Allen 1995 : Natural Language Understanding]] /

April 27, 2007, at 02:30 PM by lukstafi - GB

Changed lines 3-4 from:

''[Na marginesie: sł�w'' '''węzeł''' ''i'' '''wierzchołek''' ''używam zamiennie (tzn. używam pierwszego bo jest ~~kr�tsze~~).]''

to:

''[Na marginesie: słów'' '''węzeł''' ''i'' '''wierzchołek''' ''używam zamiennie (tzn. używam pierwszego bo jest krótsze).]''

Changed lines 8-9 from:

~~Rozbi�r~~ zdania nie musi zatrzymywać się na poziomie słowa: dzięki automatycznemu podziałowi słowa na morfemy możemy zmniejszyć wielkość słownika, a nawet radzić sobie z nieznanymi słowami. Dla przykładu, system konwersacyjny może swobodnie zapytać użytkownika o znaczenie wyrazu, kiedy jego rola gramatyczna jest dzięki analizie w pełni określona i znane są wzorce odmiany.

to:

Rozbiór zdania nie musi zatrzymywać się na poziomie słowa: dzięki automatycznemu podziałowi słowa na morfemy możemy zmniejszyć wielkość słownika, a nawet radzić sobie z nieznanymi słowami. Dla przykładu, system konwersacyjny może swobodnie zapytać użytkownika o znaczenie wyrazu, kiedy jego rola gramatyczna jest dzięki analizie w pełni określona i znane są wzorce odmiany.

Changed lines 17-18 from:

~~Og�lnie~~ o parsowaniu: [[http://www.cs.vu.nl/~dick/PTAPG.html | Parsing Techniques - A Practical Guide]]. Istotne hasła: metoda CYK, chart parsing, parsowanie top-down vs. bottom-up, Earley parser, metody LR.

to:

Ogólnie o parsowaniu: [[http://www.cs.vu.nl/~dick/PTAPG.html | Parsing Techniques - A Practical Guide]]. Istotne hasła: metoda CYK, chart parsing, parsowanie top-down vs. bottom-up, Earley parser, metody LR.

Changed lines 21-22 from:

[[http://www.cs.chalmers.se/~peb/pubs/p04-chart-pearl.pdf | Functional Pearls: Functional Chart Parsing of Context Free Grammars]] by Peter ~~Ljungl�f~~.

to:

[[http://www.cs.chalmers.se/~peb/pubs/p04-chart-pearl.pdf | Functional Pearls: Functional Chart Parsing of Context Free Grammars]] by Peter Ljunglöf.

Changed lines 28-30 from:

!!! [[#unif]] Inkrementacyjna unifikacja (inkrementacyjne rozstrzyganie wię~~z�w~~)
Drzewa ~~dowod�w~~ (proof trees) jako drzewa rozbioru dla gramatyk unifikacyjnych, zobacz [[http://www.ida.liu.se/~ulfni/lpp/ | Logic, Programming and Prolog (2ed)]] rozdz. 3.6. Oczywiście chcemy możliwie szybko odcinać błędne ścieżki wyprowadzeń, dlatego (jak w Prologu), od razu propagujemy rozwiązania generowanych ~~r�wna~~ń. "Funkcję obliczeń" R wyznacza nam algorytm chart-parsera. (Rozdział 3.6 książki o Prologu ~~m�wi~~ tylko o doklejaniu płytkich drzew odpowiadających produkcjom, u nas krawędzi z kropką na samym początku, ale idea przenosi się na doklejanie głębszych drzew. Pełne gramatyki unifikacyjne są opisane w rozdziale o "Definite Clause Grammars".)

to:

!!! [[#unif]] Inkrementacyjna unifikacja (inkrementacyjne rozstrzyganie więzów)
Drzewa dowodów (proof trees) jako drzewa rozbioru dla gramatyk unifikacyjnych, zobacz [[http://www.ida.liu.se/~ulfni/lpp/ | Logic, Programming and Prolog (2ed)]] rozdz. 3.6. Oczywiście chcemy możliwie szybko odcinać błędne ścieżki wyprowadzeń, dlatego (jak w Prologu), od razu propagujemy rozwiązania generowanych równań. "Funkcję obliczeń" R wyznacza nam algorytm chart-parsera. (Rozdział 3.6 książki o Prologu mówi tylko o doklejaniu płytkich drzew odpowiadających produkcjom, u nas krawędzi z kropką na samym początku, ale idea przenosi się na doklejanie głębszych drzew. Pełne gramatyki unifikacyjne są opisane w rozdziale o "Definite Clause Grammars".)

Changed lines 36-44 from:

# Dzielimy gramatykę na reguły leksykalne/słownikowe i pozostałe. Reguły leksykalne to te, ~~kt�rych~~ prawa strona rozpoczyna się od terminala (często będzie to tylko terminal). Tylko nieleksykalne reguły wstawiamy jako "pętelki" w każdą pozycję charta, reguły leksykalne grupujemy w słownik ze sł�w w ~~zbi�r~~ reguł, i dla każdego słowa wstawiamy do charta przeskakujące to słowo krawędzie.

# Samo wstawianie "pętelek" do charta możemy potraktować leniwie: zgromadzić reguły nieleksykalne w słownik indeksowany (np.) przez część mowy (lub nazwę frazy) i w momencie wybierania z charta krawędzi do przedłużenia, dorzucić krawędzie odpowiadające regułom ze słownika dla potrzebnej części mowy. W ten ~~spos�b~~ nie przeglądamy za każdym razem wszystkich reguł (nieleksykalnych).

# Można pokusić się o bardziej skomplikowane optymalizacje. Można badać klasy leksykalne (np. verb = transitive verb + intransitive verb), ~~kt�rych~~ derywacje z danej reguły wymagają / nie dopuszczają (tzn. klasy sł�w, ~~kt�re~~ muszą / nie mogą się pojawić we frazie, ~~kt�rej~~ wyprowadzenia korzeniem jest dana reguła). Można skompilować gramatykę do bardziej wydajnej postaci (bardziej podobnej do postaci Greibach), ale w czasie parsowania rekonstruować drzewo rozbioru względem oryginalnej gramatyki.

!!!! [[#errdesc]] Pomysły na tłumaczenie błę~~d�w~~ gramatycznych
Jeśli zdanie jest niepoprawne gramatycznie, to parsing kończy się bez krawędzi obejmujących całe zdanie. Szukamy (dynamicznie) cią~~g�w~~ krawędzi dających minimalne pokrycie rozłączne zdania (tzn. minimalną ilość krawędzi, po ~~kt�rych~~ można przeskoczyć z początku na koniec). Budujemy nowy chart, tylko z krawędzi z tych cią~~g�w~~. Do standardowych reguł chart-parsera dodajemy następujące reguły obsługi błę~~d�w~~:

to:

# Dzielimy gramatykę na reguły leksykalne/słownikowe i pozostałe. Reguły leksykalne to te, których prawa strona rozpoczyna się od terminala (często będzie to tylko terminal). Tylko nieleksykalne reguły wstawiamy jako "pętelki" w każdą pozycję charta, reguły leksykalne grupujemy w słownik ze słów w zbiór reguł, i dla każdego słowa wstawiamy do charta przeskakujące to słowo krawędzie.

# Samo wstawianie "pętelek" do charta możemy potraktować leniwie: zgromadzić reguły nieleksykalne w słownik indeksowany (np.) przez część mowy (lub nazwę frazy) i w momencie wybierania z charta krawędzi do przedłużenia, dorzucić krawędzie odpowiadające regułom ze słownika dla potrzebnej części mowy. W ten sposób nie przeglądamy za każdym razem wszystkich reguł (nieleksykalnych).

# Można pokusić się o bardziej skomplikowane optymalizacje. Można badać klasy leksykalne (np. verb = transitive verb + intransitive verb), których derywacje z danej reguły wymagają / nie dopuszczają (tzn. klasy słów, które muszą / nie mogą się pojawić we frazie, której wyprowadzenia korzeniem jest dana reguła). Można skompilować gramatykę do bardziej wydajnej postaci (bardziej podobnej do postaci Greibach), ale w czasie parsowania rekonstruować drzewo rozbioru względem oryginalnej gramatyki.

!!!! [[#errdesc]] Pomysły na tłumaczenie błędów gramatycznych
Jeśli zdanie jest niepoprawne gramatycznie, to parsing kończy się bez krawędzi obejmujących całe zdanie. Szukamy (dynamicznie) ciągów krawędzi dających minimalne pokrycie rozłączne zdania (tzn. minimalną ilość krawędzi, po których można przeskoczyć z początku na koniec). Budujemy nowy chart, tylko z krawędzi z tych ciągów. Do standardowych reguł chart-parsera dodajemy następujące reguły obsługi błędów:

Changed lines 51-53 from:

Nasyć chart przy pomocy poszerzonego zbioru reguł (poszerz odpowiednio używany algorytm parsowania). ~~Zwr�~~ć użytkownikowi drzewa rozbioru odpowiadające krawędziom obejmującym całe zdanie wyprowadzone z minimalną ilością zastosowań reguł obsługi błę~~d�w~~, razem z zapamiętanymi komentarzami.

!!! [[#speagram]] Obecny [[http://svn.sourceforge.net/viewvc/speagram/trunk/speagram/ | Speagram]]: trochę ~~og�lniejsze~~ gramatyki struktur frazowych

to:

Nasyć chart przy pomocy poszerzonego zbioru reguł (poszerz odpowiednio używany algorytm parsowania). Zwróć użytkownikowi drzewa rozbioru odpowiadające krawędziom obejmującym całe zdanie wyprowadzone z minimalną ilością zastosowań reguł obsługi błędów, razem z zapamiętanymi komentarzami.

!!! [[#speagram]] Obecny [[http://svn.sourceforge.net/viewvc/speagram/trunk/speagram/ | Speagram]]: trochę ogólniejsze gramatyki struktur frazowych

Changed lines 57-58 from:

Po lewej stronie produkcji, wstawiamy term A opisujący własności drzewa rozbioru z korzeniem wyprowadzonym z tej produkcji, zależne od własności poddrzew. Po prawej stronie produkcji, zamiast nieterminali wstawiamy term A'_i_' opisujący interesujące nas własności, oraz relację R'_i_', w ~~kt�rej~~ term B opisujący potencjalne poddrzewo rozbioru ma być względem termu A'_i_'. Trzy rodzaje relacji wydają się rozsądne, w żargonie ję~~zyk�w~~ programowania nazywają się one: "pozycja inwariantna" (=), "pozycja kowariantna" (<), "pozycja kontrawariantna" (>). Budując drzewo rozbioru zdania pilnujemy niesprzeczności wymagań. Przykłady (''italiką'' oznaczone są terminale, a znakiem zapytania zmienne w termach własności, tzn. w typach):

to:

Po lewej stronie produkcji, wstawiamy term A opisujący własności drzewa rozbioru z korzeniem wyprowadzonym z tej produkcji, zależne od własności poddrzew. Po prawej stronie produkcji, zamiast nieterminali wstawiamy term A'_i_' opisujący interesujące nas własności, oraz relację R'_i_', w której term B opisujący potencjalne poddrzewo rozbioru ma być względem termu A'_i_'. Trzy rodzaje relacji wydają się rozsądne, w żargonie języków programowania nazywają się one: "pozycja inwariantna" (=), "pozycja kowariantna" (<), "pozycja kontrawariantna" (>). Budując drzewo rozbioru zdania pilnujemy niesprzeczności wymagań. Przykłady (''italiką'' oznaczone są terminale, a znakiem zapytania zmienne w termach własności, tzn. w typach):

Changed lines 61-62 from:

z przedchodniości, ta produkcja jest ~~r�wnowa~~żna następującym:

to:

z przedchodniości, ta produkcja jest równoważna następującym:

Changed lines 66-67 from:

Konstrukcja z ję~~zyk�w~~ programowania. [@ let X be Y @] oznacza, że @@X@@ oblicza się do @@Y@@. Żeby to było dopuszczalne, @@Y@@ki muszą być @@X@@ami, tzn. typ @@Y@@ka musi być podtypem @@X@@a.

to:

Konstrukcja z języków programowania. [@ let X be Y @] oznacza, że @@X@@ oblicza się do @@Y@@. Żeby to było dopuszczalne, @@Y@@ki muszą być @@X@@ami, tzn. typ @@Y@@ka musi być podtypem @@X@@a.

Changed lines 71-73 from:

Przymiotnik opisujący frazę rzeczownikową może mieć typ ~~og�lniejszy~~ niż ta fraza, na przykład może być rodzaju męskiego [@gender=m@], ~~kt�ry~~ jest nadtypem ~~rodzaj�w~~ @@m1@@, @@m2@@ i @@m3@@.

to:

Przymiotnik opisujący frazę rzeczownikową może mieć typ ogólniejszy niż ta fraza, na przykład może być rodzaju męskiego [@gender=m@], który jest nadtypem rodzajów @@m1@@, @@m2@@ i @@m3@@.

Changed lines 77-78 from:

Są dwie możliwe interpretacje etykiet brakujących w opisie: sensowna formalnie interpretacja abstrakcyjna oraz praktyczna interpretacja polimorficzna. Interpretacja abstrakcyjna pod niewyspecyfikowane wartości etykiet podstawia @@Top@@, a interpretacja polimorficzna ignoruje etykiety nie występujące jednocześnie po obu stronach ~~por�wnania~~. W interpretacji abstrakcyjnej [@ NP[number=singular] @] oznacza ~~zbi�r~~ wszystkich fraz rzeczownikowych w liczbie pojedynczej ([@ NP[gender=masculie, number=singular] @] jest ściśle konkretniejszy od tego typu), a w interpretacji polimorficznej [@ NP[number=singular] @] oznacza pewną frazę rzeczownikową w liczbie pojedynczej ([@ NP[gender=masculie, number=singular] @] jest i konkretniejszy i ~~og�lniejszy~~ od tego typu). Interpretacja polimorficzna okazuje się być wygodniejsza przy pisaniu gramatyk, ''It doesn't work in theory, but it works in practice...'' (Obecnie mamy w Speagramie interpretację polimorficzną.)

to:

Są dwie możliwe interpretacje etykiet brakujących w opisie: sensowna formalnie interpretacja abstrakcyjna oraz praktyczna interpretacja polimorficzna. Interpretacja abstrakcyjna pod niewyspecyfikowane wartości etykiet podstawia @@Top@@, a interpretacja polimorficzna ignoruje etykiety nie występujące jednocześnie po obu stronach porównania. W interpretacji abstrakcyjnej [@ NP[number=singular] @] oznacza zbiór wszystkich fraz rzeczownikowych w liczbie pojedynczej ([@ NP[gender=masculie, number=singular] @] jest ściśle konkretniejszy od tego typu), a w interpretacji polimorficznej [@ NP[number=singular] @] oznacza pewną frazę rzeczownikową w liczbie pojedynczej ([@ NP[gender=masculie, number=singular] @] jest i konkretniejszy i ogólniejszy od tego typu). Interpretacja polimorficzna okazuje się być wygodniejsza przy pisaniu gramatyk, ''It doesn't work in theory, but it works in practice...'' (Obecnie mamy w Speagramie interpretację polimorficzną.)

Added lines 87-90:

!!!! Government & Binding Theory

[[http://www.ifi.unizh.ch/CL/gschneid/dreitaegig.pdf | An Introduction to Government & Binding]]

Changed lines 97-100 from:

HPSG przypisuje frazom -- począwszy od sł�w po całe zdania -- struktury atrybutowe (feature-structures) zawierające bardzo bogatą informację: fono/morfologiczną, syntaktyczną i semantyczną. HPSG składa się ze słownika, zawierającego struktury atrybutowe dla ~~poszczeg�lnych~~ sł�w języka, oraz bardzo niewielu ~~schemat�w~~ reguł. Do HPSG można stosować chart-parsery: wypełnia się chart przez struktury atrybutowe sł�w zdania i następnie stosuje schematy reguł do konstrukcji/przekształcania krawędzi charta. Od "zwykłych" gramatyk unifikacyjnych (tzn. CFG + struktury atrybutowe) HPSG r�żni się więc tym, że produkcje nie są dane jawnie, tylko wydobywane ze struktur atrybutowych przez schematy reguł.

HPSG jest niederywacyjna (deklaratywna): zupełnie nieistotne jest, w jaki ~~spos�b~~ skonstruowaliśmy strukturę atrybutową dla zdania, ta struktura zawiera całą potrzebną informację, oraz nietransformacyjna: struktury atrybutowe nie są modyfikowane, tylko łączone w większe struktury przez unifikację. Dlatego HPSG można też parsować "czysto więzowo" tak jak gramatyki zależności ([[#p4 | dependency grammars]]).

to:

HPSG przypisuje frazom -- począwszy od słów po całe zdania -- struktury atrybutowe (feature-structures) zawierające bardzo bogatą informację: fono/morfologiczną, syntaktyczną i semantyczną. HPSG składa się ze słownika, zawierającego struktury atrybutowe dla poszczególnych słów języka, oraz bardzo niewielu schematów reguł. Do HPSG można stosować chart-parsery: wypełnia się chart przez struktury atrybutowe słów zdania i następnie stosuje schematy reguł do konstrukcji/przekształcania krawędzi charta. Od "zwykłych" gramatyk unifikacyjnych (tzn. CFG + struktury atrybutowe) HPSG różni się więc tym, że produkcje nie są dane jawnie, tylko wydobywane ze struktur atrybutowych przez schematy reguł.

HPSG jest niederywacyjna (deklaratywna): zupełnie nieistotne jest, w jaki sposób skonstruowaliśmy strukturę atrybutową dla zdania, ta struktura zawiera całą potrzebną informację, oraz nietransformacyjna: struktury atrybutowe nie są modyfikowane, tylko łączone w większe struktury przez unifikację. Dlatego HPSG można też parsować "czysto więzowo" tak jak gramatyki zależności ([[#p4 | dependency grammars]]).

Changed lines 108-109 from:

[[http://www.cis.upenn.edu/~xtag/tech-report/node5.html | Atrybutowe leksykalne TAGs]] ([[http://www.cis.upenn.edu/~xtag/ | strona gł~~�wna~~ projektu xTAG]])

to:

[[http://www.cis.upenn.edu/~xtag/tech-report/node5.html | Atrybutowe leksykalne TAGs]] ([[http://www.cis.upenn.edu/~xtag/ | strona główna projektu xTAG]])

Changed lines 111-112 from:

Gramatyki kategorialne są ~~r�wnie~~ż formalizmem leksykalnym. Ze słowami związane są kategorie (typy), ~~kt�re~~ ilustrują ~~spos�b~~, w jaki słowa i frazy łączą się (kombinują) ze sobą tworząc większe frazy. Reguły zwykłych gramatyk kategorialnych (CG, ~~r�wnowa~~żnych CFG) to:

to:

Gramatyki kategorialne są również formalizmem leksykalnym. Ze słowami związane są kategorie (typy), które ilustrują sposób, w jaki słowa i frazy łączą się (kombinują) ze sobą tworząc większe frazy. Reguły zwykłych gramatyk kategorialnych (CG, równoważnych CFG) to:

Changed lines 129-132 from:

Wielomodalne CCG mają annotacje na ukośnikach ~~m�wi~~ące, ~~kt�re~~ reguły można do danej kategorii złożonej stosować. Kategorie mogą być indeksowane strukturami atrybutowymi, ~~kt�re~~ są unifikowane pomiędzy kategoriami, ~~kt�re~~ ze sobą kombinują (tzn. unifikowane są struktury atrybutowe ~~kt�re~~ stałyby przy wystąpieniach @@Y@@ w powyższych regułach); wynikowe podstawienie jest stosowane do wszystkich struktur w danej derywacji. Całe kategorie też mogą być zmiennymi.

Do parsowania CCG używa się chart-~~parser�w~~, każdej spoś~~r�d~~ powyższych reguł odpowiada reguła dodawania krawędzi do charta.

to:

Wielomodalne CCG mają annotacje na ukośnikach mówiące, które reguły można do danej kategorii złożonej stosować. Kategorie mogą być indeksowane strukturami atrybutowymi, które są unifikowane pomiędzy kategoriami, które ze sobą kombinują (tzn. unifikowane są struktury atrybutowe które stałyby przy wystąpieniach @@Y@@ w powyższych regułach); wynikowe podstawienie jest stosowane do wszystkich struktur w danej derywacji. Całe kategorie też mogą być zmiennymi.

Do parsowania CCG używa się chart-parserów, każdej spośród powyższych reguł odpowiada reguła dodawania krawędzi do charta.

Changed lines 138-139 from:

Parsowanie dla gramatyk struktur frazowych istotnie wykorzystuje kolejność węzł�w drzewa. Nie jest to korzystne w przypadku ję~~zyk�w~~ o zdaniach ze swobodnym szykiem. Szyk ~~wyraz�w~~ nie musi być istotnym elementem składni: możemy rozpatrywać przynależność do języka modulo permutacja sł�w zdania. Aby parsować z pominięciem szyku, należy znaleźć jakiś odpowiednik programowania dynamicznego, ~~kt�ry~~ pozwoli inkrementacyjnie budować drzewo rozbioru. ~~Og�lnych~~ metod rozwiązywania ~~problem�w~~ o naturze kombinatorycznej dostarcza ''programowanie wię~~z�w~~''. Pierwszym językiem programowania wię~~z�w~~ był Prolog, ale obecne języki / techniki programowania wię~~z�w~~ są skuteczniejsze, zaopatrzone w bogatsze logiki i wydajniejsze mechanizmy (dziedziny). Jak widzieliśmy już wcześniej, parsery gramatyk unifikacyjnych budują drzewo obliczeń (gramatyki potraktowanej jako) program w Prologu, przycięte przez algorytm dynamiczny wiążący porządek (liniowy) węzł�w drzewa z porządkiem sł�w zdania. Nasz obecny pomysł na parsowanie, to pominięcie "przycinania z zewnątrz", ale wykorzystanie ~~wsp�~~łczesnych technik programowania wię~~z�w~~.

to:

Parsowanie dla gramatyk struktur frazowych istotnie wykorzystuje kolejność węzłów drzewa. Nie jest to korzystne w przypadku języków o zdaniach ze swobodnym szykiem. Szyk wyrazów nie musi być istotnym elementem składni: możemy rozpatrywać przynależność do języka modulo permutacja słów zdania. Aby parsować z pominięciem szyku, należy znaleźć jakiś odpowiednik programowania dynamicznego, który pozwoli inkrementacyjnie budować drzewo rozbioru. Ogólnych metod rozwiązywania problemów o naturze kombinatorycznej dostarcza ''programowanie więzów''. Pierwszym językiem programowania więzów był Prolog, ale obecne języki / techniki programowania więzów są skuteczniejsze, zaopatrzone w bogatsze logiki i wydajniejsze mechanizmy (dziedziny). Jak widzieliśmy już wcześniej, parsery gramatyk unifikacyjnych budują drzewo obliczeń (gramatyki potraktowanej jako) program w Prologu, przycięte przez algorytm dynamiczny wiążący porządek (liniowy) węzłów drzewa z porządkiem słów zdania. Nasz obecny pomysł na parsowanie, to pominięcie "przycinania z zewnątrz", ale wykorzystanie współczesnych technik programowania więzów.

Changed lines 141-144 from:

Aby zaprogramować całe parsowanie jako problem rozwiązywania wię~~z�w~~, potrzebujemy reprezentować dowolne drzewo rozbioru w dziedzinie wię~~z�w~~, ~~kt�rej~~ używamy. Reprezentować dowolne drzewo o liściach będących słowami ustalonego zdania jest trudno -- jest ich nieskończenie wiele. Musimy więc ograniczyć ilość węzł�w wewnętrznych nie posiadających rozgałęzień. Najprościej jest wykluczyć takie węzły. Zauważmy, że wtedy węzł�w wewnętrznych jest o jeden mniej niż liści, możemy więc każdemu węzłowi wewnętrznemu przyporządkować liść. Miło byłoby, gdyby sama gramatyka z każdym węzłem drzewa rozbioru wiązała liść-terminal-słowo zdania. Okazuje się, że takie gramatyki są naturalne, pracował nad nimi m.in. Lucien Tesniere, gł~~�wn~~ą pracę "Elements de syntaxe structurale" wydał w 1959, więc ~~r�wnolegle~~ z pracami Chomsky'ego.

Samemu rozwiązywaniu wię~~z�w~~ jest wszystko jedno, jaką strukturę narzucimy na graf, więc możemy "zrelaksować" prototypowy warunek, żeby strukturą rozbioru było drzewo. Spotkałem się z formalizmami, w ~~kt�rych~~ wymaga się, żeby to był graf acykliczny (DAG). Praktyczne wydaje się zezwolenie na cykle, może ograniczone do klik, np. żeby wyrażać związki koordynacji (tzn. konstrukcje złożone ~~wsp�~~łrzędnie, np. "A i B"), z ~~kt�rymi~~ "dependency grammars" mają pewne problemy.

to:

Aby zaprogramować całe parsowanie jako problem rozwiązywania więzów, potrzebujemy reprezentować dowolne drzewo rozbioru w dziedzinie więzów, której używamy. Reprezentować dowolne drzewo o liściach będących słowami ustalonego zdania jest trudno -- jest ich nieskończenie wiele. Musimy więc ograniczyć ilość węzłów wewnętrznych nie posiadających rozgałęzień. Najprościej jest wykluczyć takie węzły. Zauważmy, że wtedy węzłów wewnętrznych jest o jeden mniej niż liści, możemy więc każdemu węzłowi wewnętrznemu przyporządkować liść. Miło byłoby, gdyby sama gramatyka z każdym węzłem drzewa rozbioru wiązała liść-terminal-słowo zdania. Okazuje się, że takie gramatyki są naturalne, pracował nad nimi m.in. Lucien Tesniere, główną pracę "Elements de syntaxe structurale" wydał w 1959, więc równolegle z pracami Chomsky'ego.

Samemu rozwiązywaniu więzów jest wszystko jedno, jaką strukturę narzucimy na graf, więc możemy "zrelaksować" prototypowy warunek, żeby strukturą rozbioru było drzewo. Spotkałem się z formalizmami, w których wymaga się, żeby to był graf acykliczny (DAG). Praktyczne wydaje się zezwolenie na cykle, może ograniczone do klik, np. żeby wyrażać związki koordynacji (tzn. konstrukcje złożone współrzędnie, np. "A i B"), z którymi "dependency grammars" mają pewne problemy.

Changed lines 146-147 from:

Kompletny tutorial implementacji parsera dla "dependency grammar" na bazie programowania wię~~z�w~~: [[http://citeseer.ist.psu.edu/duchier00constraint.html]].

to:

Kompletny tutorial implementacji parsera dla "dependency grammar" na bazie programowania więzów: [[http://citeseer.ist.psu.edu/duchier00constraint.html]].

Changed lines 151-154 from:

* dezambiguacji na r�żnych poziomach rozbioru zdania, włączając niepewność co do użytych sł�w,

* przyspieszania parsowania, m.in. poprzez "beam search" (pomijanie mniej prawdopodobnych ~~wariant�w~~)

to:

* dezambiguacji na różnych poziomach rozbioru zdania, włączając niepewność co do użytych słów,

* przyspieszania parsowania, m.in. poprzez "beam search" (pomijanie mniej prawdopodobnych wariantów)

Changed lines 158-159 from:

[[http://www.ircs.upenn.edu/~juliahr/Dissertation/index.html | Data and models for statistical parsing with Combinatory Categorial Grammar]], Chapter 4. A brief introduction to statistical parsing (faktycznie strony 121-152 wersji jednostronnej), ten rozdział przedstawia ~~og�lnie~~ parsowanie probabilistyczne (bez odniesień do CCG).

to:

[[http://www.ircs.upenn.edu/~juliahr/Dissertation/index.html | Data and models for statistical parsing with Combinatory Categorial Grammar]], Chapter 4. A brief introduction to statistical parsing (faktycznie strony 121-152 wersji jednostronnej), ten rozdział przedstawia ogólnie parsowanie probabilistyczne (bez odniesień do CCG).

January 27, 2007, at 08:57 PM by 192.168.3.130 -

Changed line 79 from:

!! Formalizmy lingwistyczne używane w NLP

to:

!! [[#ling]] Formalizmy lingwistyczne używane w NLP

Changed line 133 from:

!! Gramatyki zależności (dependency grammars)

to:

!! [[#depgram]] Gramatyki zależności (dependency grammars)

Changed line 136 from:

!!! Struktura (drzewa) rozbioru

to:

!!! [[#deptree]] Struktura (drzewa) rozbioru

January 27, 2007, at 08:55 PM by 192.168.3.130 -

Changed line 7 from:

!! [[#p1]] Analiza morfologiczna (Computational Morphology, word tagging)

to:

!! [[#morf]] Analiza morfologiczna (Computational Morphology, word tagging)

Changed line 14 from:

!! [[#p2]] Parsowanie gramatyk struktur frazowych

to:

!! [[#pars]] Parsowanie gramatyk struktur frazowych

Changed line 19 from:

!!! [[#~~p21~~]] Praser CFG: algorytm Earleya.

to:

!!! [[#cfg]] Praser CFG: algorytm Earleya.

Changed line 23 from:

!!! [[#~~p22~~]] Parsery "shift-reduce" w kontekście NLP

to:

!!! [[#lr]] Parsery "shift-reduce" w kontekście NLP

Changed line 28 from:

!!! [[#~~p23~~]] Inkrementacyjna unifikacja (inkrementacyjne rozstrzyganie więz�w)

to:

!!! [[#unif]] Inkrementacyjna unifikacja (inkrementacyjne rozstrzyganie więz�w)

Changed lines 31-33 from:

!!! [[#~~p24~~]] Usprawnianie chart-parsera

!!!! [[#~~p241~~]] Pomysły na optymalizację

to:

!!! [[#chart]] Usprawnianie chart-parsera

!!!! [[#chartopt]] Pomysły na optymalizację

Changed line 42 from:

!!!! [[#~~p242~~]] Pomysły na tłumaczenie błęd�w gramatycznych

to:

!!!! [[#errdesc]] Pomysły na tłumaczenie błęd�w gramatycznych

Changed line 53 from:

!!! [[#~~p25~~]] Obecny [[http://svn.sourceforge.net/viewvc/speagram/trunk/speagram/ | Speagram]]: trochę og�lniejsze gramatyki struktur frazowych

to:

!!! [[#speagram]] Obecny [[http://svn.sourceforge.net/viewvc/speagram/trunk/speagram/ | Speagram]]: trochę og�lniejsze gramatyki struktur frazowych

Changed line 56 from:

!!!! ~~[[#p251]]~~ Nieterminale to typy, ale typy mogą posiadać bogatą strukturę.

to:

!!!! Nieterminale to typy, ale typy mogą posiadać bogatą strukturę.

Changed line 74 from:

!!!! ~~[[#p252]]~~ Etykiety i cechy. Interpretacja brakujących etykiet.

to:

!!!! Etykiety i cechy. Interpretacja brakujących etykiet.

Changed line 79 from:

!! ~~[[#p3]]~~ Formalizmy lingwistyczne używane w NLP

to:

!! Formalizmy lingwistyczne używane w NLP

Changed line 82 from:

!!! [[#~~p31~~]] Gramatyki transformacyjne

to:

!!! [[#transf]] Gramatyki transformacyjne

Changed line 87 from:

!!! [[#~~p32~~]] Lexical Functional Grammar (LFG)

to:

!!! [[#lfg]] Lexical Functional Grammar (LFG)

Changed line 92 from:

!!! [[#~~p33~~]] Head-driven Phrase Structure Grammar (HPSG)

to:

!!! [[#hpsg]] Head-driven Phrase Structure Grammar (HPSG)

Changed line 103 from:

!!! [[#~~p34~~]] (Lexicalized) Tree Adjoining Grammar (TAG, xTAG)

to:

!!! [[#xtag]] (Lexicalized) Tree Adjoining Grammar (TAG, xTAG)

Changed line 106 from:

!!! [[#~~p35~~]] Unification Categorial Grammar, Combinatory Categorial Grammar (UCG, CCG)

to:

!!! [[#ccg]] Unification Categorial Grammar, Combinatory Categorial Grammar (UCG, CCG)

Changed line 133 from:

!! ~~[[#p4]]~~ Gramatyki zależności (dependency grammars)

to:

!! Gramatyki zależności (dependency grammars)

Changed line 136 from:

!!! ~~[[#p41]]~~ Struktura (drzewa) rozbioru

to:

!!! Struktura (drzewa) rozbioru

Changed line 141 from:

!!! [[#~~p42~~]] Constraint Programming

to:

!!! [[#constr]] Constraint Programming

Changed line 144 from:

!! [[#p5]] Gramatyki probabilistyczne, parsowanie probabilistyczne

to:

!! [[#prob]] Gramatyki probabilistyczne, parsowanie probabilistyczne

Changed lines 156-157 from:

!!! [[#~~p51~~]] Parsery probabilistyczne z modelowaniem zależności w strukturze predykatowo-argumentowej

to:

!!! [[#probdep]] Parsery probabilistyczne z modelowaniem zależności w strukturze predykatowo-argumentowej

Changed lines 161-162 from:

!! [[#p6]] Od składni do semantyki

to:

!! [[#sem]] Od składni do semantyki

Changed line 167 from:

!!! [[#~~p61~~]] Gramatyki Montague'a

to:

!!! [[#montag]] Gramatyki Montague'a

Changed line 170 from:

!!! [[#~~p62~~]] Underspecification

to:

!!! [[#underspec]] Underspecification

Changed lines 173-175 from:

!!! [[#~~p63~~]] Przetwarzanie dyskursu

!!!! [[#~~p631~~]] Discourse Representation Theory

to:

!!! [[#disc]] Przetwarzanie dyskursu

!!!! [[#drt]] Discourse Representation Theory

January 27, 2007, at 08:50 PM by 192.168.3.130 -

Deleted lines 2-29:

# [[#p1 | Analiza morfologiczna (Computational Morphology, word tagging) ]]
# [[#p2 | Parsowanie gramatyk struktur frazowych]]
## [[#p21 | Praser CFG: algorytm Earleya.]]
## [[#p22 | Parsery "shift-reduce" w kontekście NLP.]]
## [[#p23 | Inkrementacyjna unifikacja (inkrementacyjne rozstrzyganie więz�w)]]
## [[#p24 | Usprawnianie chart-parsera]]
### [[#p241 | Pomysły na optymalizację]]
### [[#p242 | Pomysły na tłumaczenie błęd�w gramatycznych]]
## [[#p25 | Obecny Speagram: trochę og�lniejsze gramatyki struktur frazowych]]
### [[#p251 | Nieterminale to typy, ale typy mogą posiadać bogatą strukturę.]]
### [[#p252 | Etykiety i cechy. Interpretacja brakujących etykiet.]]
# [[#p3 | Formalizmy lingwistyczne używane w NLP]]
## [[#p31 | Gramatyki transformacyjne]]
## [[#p32 | Lexical Functional Grammar (LFG)]]
## [[#p33 | Head-driven Phrase Structure Grammar (HPSG)]]
## [[#p34 | (Lexicalized) Tree Adjoining Grammar (TAG, xTAG)]]
## [[#p35 | Unification Categorial Grammar, Combinatory Categorial Grammar (UCG, CCG)]]
# [[#p4 | Gramatyki zależności (dependency grammars)]]
## [[#p41 | Struktura (drzewa) rozbioru]]
## [[#p42 | Constraint Programming]]
# [[#p5 | Gramatyki probabilistyczne, parsowanie probabilistyczne]]
## [[#p51 | Parsery probabilistyczne z modelowaniem zależności w strukturze predykatowo-argumentowej]]
# [[#p6 | Od składni do semantyki]]
## [[#p61 | Gramatyki Montague'a]]
## [[#p62 | Underspecification]]
## [[#p63 | Przetwarzanie dyskursu]]
### [[#p631 | Discourse Representation Theory]]

January 27, 2007, at 08:49 PM by 192.168.3.130 -

Added lines 1-2:

(:toc:)

January 18, 2007, at 03:11 AM by 83.8.57.181 -

Added lines 43-44:

Og�lnie o parsowaniu: [[http://www.cs.vu.nl/~dick/PTAPG.html | Parsing Techniques - A Practical Guide]]. Istotne hasła: metoda CYK, chart parsing, parsowanie top-down vs. bottom-up, Earley parser, metody LR.

January 18, 2007, at 02:50 AM by 83.8.57.181 -

Added line 22:

## [[#p51 | Parsery probabilistyczne z modelowaniem zależności w strukturze predykatowo-argumentowej]]

Changed lines 180-181 from:

!!! Parsery probabilistyczne z modelowaniem zależności w strukturze predykatowo-argumentowej

to:

!!! [[#p51]] Parsery probabilistyczne z modelowaniem zależności w strukturze predykatowo-argumentowej

January 18, 2007, at 02:49 AM by 83.8.57.181 -

Changed lines 177-178 from:

[[http://www.ircs.upenn.edu/~juliahr/Dissertation/index.html | Data and models for statistical parsing with Combinatory Categorial Grammar]], Chapter 4. A brief introduction to statistical parsing (faktycznie strony 121-152 wersji jednostronnej).

to:

[[http://www.ircs.upenn.edu/~juliahr/Dissertation/index.html | Data and models for statistical parsing with Combinatory Categorial Grammar]], Chapter 4. A brief introduction to statistical parsing (faktycznie strony 121-152 wersji jednostronnej), ten rozdział przedstawia og�lnie parsowanie probabilistyczne (bez odniesień do CCG).

!!! Parsery probabilistyczne z modelowaniem zależności w strukturze predykatowo-argumentowej

Koncepcja zaczerpnięta z [[#p4 | "dependency grammars"]] pozwala na optymalniejsze posługiwanie się gramatykami probabilistycznymi.
[[http://www.ircs.upenn.edu/~juliahr/Papers/ACL2003/HockenmaierACL2003.pdf | Parsing with generative models of predicate-argument structure]]

Added line 185:

January 18, 2007, at 02:37 AM by 83.8.57.181 -

Changed lines 172-173 from:

* przyspieszania parsowania, poprzez "beam search" (pomijanie mniej prawdopodobnych wariant�w)

to:

* przyspieszania parsowania, m.in. poprzez "beam search" (pomijanie mniej prawdopodobnych wariant�w)

[[http://www.uni-giessen.de/~g91062/Seminare/gk-cl/Allen95/al1995co.htm | Allen 1995: Natural Language Understanding]] /
[[http://www.uni-giessen.de/~g91062/Seminare/gk-cl/Allen95/al199507.htm | Chapter 7 - Ambiguity Resolution: Statistical Methods]] / [[http://www.uni-giessen.de/~g91062/Seminare/gk-cl/Allen95/al199507.htm#chap7_4 | 7.4 Obtaining Lexical Probabilities]], [[http://www.uni-giessen.de/~g91062/Seminare/gk-cl/Allen95/al199507.htm#chap7_5 | 7.5 Probabilistic Context-Free Grammars]], [[http://www.uni-giessen.de/~g91062/Seminare/gk-cl/Allen95/al199507.htm#chap7_6 | 7.6 Best-First Parsing]], [[http://www.uni-giessen.de/~g91062/Seminare/gk-cl/Allen95/al199507.htm#chap7_7 | 7.7 A Simple Context-Dependent Best-First Parser]]

[[http://www.ircs.upenn.edu/~juliahr/Dissertation/index.html | Data and models for statistical parsing with Combinatory Categorial Grammar]], Chapter 4. A brief introduction to statistical parsing (faktycznie strony 121-152 wersji jednostronnej).

January 18, 2007, at 02:10 AM by 83.8.57.181 -

Changed lines 4-10 from:

## [[#p22 | ~~Inkrementacyjna unifikacja (inkrementacyjne rozstrzyganie wi~~&#~~281~~;~~z�w)~~]]
## [[#p23 | Usprawnianie chart-parsera]]
### [[#p231 | Pomys&#~~322~~;~~y na optymalizację~~]]
### [[#~~p232~~ | Pomysły na t&#~~322~~;~~umaczenie b&~~#~~322;&~~#~~281;d�w gramatycznych]]~~
#~~# [[#p24~~ | ~~Obecny Speagram: troch~~&#~~281~~; ~~og�lniejsze gramatyki struktur frazowych]]~~
##~~# [[~~#~~p241~~ | ~~Nieterminale to typy, ale typy mog~~&#~~261~~; ~~posiadać bogatą~~ struktur&#~~281;.]]~~
### [[#~~p242~~ | Etykiety i cechy. Interpretacja brakujących etykiet.]]

to:

## [[#p22 | Parsery "shift-reduce" w kontekście NLP.]]
## [[#p23 | Inkrementacyjna unifikacja (inkrementacyjne rozstrzyganie więz�w)]]
## [[#p24 | Usprawnianie chart-parsera]]
### [[#p241 | Pomysły na optymalizację]]
### [[#p242 | Pomysły na tłumaczenie błęd�w gramatycznych]]
## [[#p25 | Obecny Speagram: trochę og�lniejsze gramatyki struktur frazowych]]
### [[#p251 | Nieterminale to typy, ale typy mogą posiadać bogatą strukturę.]]
### [[#p252 | Etykiety i cechy. Interpretacja brakujących etykiet.]]

Changed line 43 from:

Zacznijmy od parsowania CFG:

to:

Zacznijmy od parsowania pełnego CFG:

Changed lines 46-51 from:

!!! [[#p22]] Inkrementacyjna unifikacja (inkrementacyjne rozstrzyganie więz�w)

to:

!!! [[#p22]] Parsery "shift-reduce" w kontekście NLP
[[http://www.uni-giessen.de/~g91062/Seminare/gk-cl/Allen95/al1995co.htm | Allen 1995 : Natural Language Understanding]] / [[http://www.uni-giessen.de/~g91062/Seminare/gk-cl/Allen95/al199506.htm | Chapter 6: Toward Efficient Parsing]]

Dla gramatyk CCG: [[http://homepages.inf.ed.ac.uk/s9764747/PAPERS/McConvilleMScThesis.pdf | Incremental natural language understanding with combinatory categorial grammar]].

!!! [[#p23]] Inkrementacyjna unifikacja (inkrementacyjne rozstrzyganie więz�w)

Changed lines 54-56 from:

!!! [[#~~p23~~]] Usprawnianie chart-parsera

!!!! [[#~~p231~~]] Pomysły na optymalizację

to:

!!! [[#p24]] Usprawnianie chart-parsera

!!!! [[#p241]] Pomysły na optymalizację

Changed line 65 from:

!!!! [[#~~p232~~]] Pomysły na tłumaczenie błęd�w gramatycznych

to:

!!!! [[#p242]] Pomysły na tłumaczenie błęd�w gramatycznych

Changed line 76 from:

!!! [[#~~p24~~]] Obecny [[http://svn.sourceforge.net/viewvc/speagram/trunk/speagram/ | Speagram]]: trochę og�lniejsze gramatyki struktur frazowych

to:

!!! [[#p25]] Obecny [[http://svn.sourceforge.net/viewvc/speagram/trunk/speagram/ | Speagram]]: trochę og�lniejsze gramatyki struktur frazowych

Changed line 79 from:

!!!! [[#~~p241~~]] Nieterminale to typy, ale typy mogą posiadać bogatą strukturę.

to:

!!!! [[#p251]] Nieterminale to typy, ale typy mogą posiadać bogatą strukturę.

Changed line 97 from:

!!!! [[#~~p242~~]] Etykiety i cechy. Interpretacja brakujących etykiet.

to:

!!!! [[#p252]] Etykiety i cechy. Interpretacja brakujących etykiet.

Changed lines 175-178 from:

to:

[[http://www.uni-giessen.de/~g91062/Seminare/gk-cl/Allen95/al1995co.htm | Allen 1995 : Natural Language Understanding]] /
[[http://www.uni-giessen.de/~g91062/Seminare/gk-cl/Allen95/al95p2.htm | Part II: Semantic Interpretation]] /
[[http://www.uni-giessen.de/~g91062/Seminare/gk-cl/Allen95/al199508.htm | Chapter 8 : Semantics and Logical Form]], [[http://www.uni-giessen.de/~g91062/Seminare/gk-cl/Allen95/al199509.htm | Chapter 9 : Linking Syntax and Semantics]]

January 17, 2007, at 10:40 PM by 83.8.57.181 -

Changed lines 142-143 from:

Wielomodalne CCG mają annotacje na ukośnikach m�wiące, kt�re reguły można do danej kategorii złożonej stosować.

to:

Wielomodalne CCG mają annotacje na ukośnikach m�wiące, kt�re reguły można do danej kategorii złożonej stosować. Kategorie mogą być indeksowane strukturami atrybutowymi, kt�re są unifikowane pomiędzy kategoriami, kt�re ze sobą kombinują (tzn. unifikowane są struktury atrybutowe kt�re stałyby przy wystąpieniach @@Y@@ w powyższych regułach); wynikowe podstawienie jest stosowane do wszystkich struktur w danej derywacji. Całe kategorie też mogą być zmiennymi.

January 17, 2007, at 10:21 PM by 83.8.57.181 -

Changed lines 20-25 from:

to:

Added lines 124-145:

Gramatyki kategorialne są r�wnież formalizmem leksykalnym. Ze słowami związane są kategorie (typy), kt�re ilustrują spos�b, w jaki słowa i frazy łączą się (kombinują) ze sobą tworząc większe frazy. Reguły zwykłych gramatyk kategorialnych (CG, r�wnoważnych CFG) to:

# [@ (X / Y) Y ==> X @] (aplikacja)

# [@ Y (X \ Y) ==> X @]

Kombinatoryczne gramatyki kategorialne (o mocy "mildly context sensitive") mają dodatkowo reguły

# [@ (X / Y) (Y / Z) ==> X / Z @] (złożenie)

# [@ (X \ Y) (Y \ Z) ==> X \ Z @]

# [@ X ==> T / (T \ X) @] (podniesienie typu)

# [@ (X / Y) (Y \ Z) ==> X \ Z @] (złożenie krzyżowe)

# [@ (Y / Z) (X \ Y) ==> X / Z @]

Wielomodalne CCG mają annotacje na ukośnikach m�wiące, kt�re reguły można do danej kategorii złożonej stosować.

Do parsowania CCG używa się chart-parser�w, każdej spośr�d powyższych reguł odpowiada reguła dodawania krawędzi do charta.

Changed lines 161-163 from:

!! [[#p5]] ~~Od sk~~&#~~322~~;adni do semantyki

!!! [[#~~p51]]~~ Gramatyki Montague'a

to:

!! [[#p5]] Gramatyki probabilistyczne, parsowanie probabilistyczne
Są użyteczne m.in. dla:

* dezambiguacji na r�żnych poziomach rozbioru zdania, włączając niepewność co do użytych sł�w,

* przyspieszania parsowania, poprzez "beam search" (pomijanie mniej prawdopodobnych wariant�w)

!! [[#p6]] Od składni do semantyki

!!! [[#p61]] Gramatyki Montague'a

Changed line 173 from:

!!! [[#~~p52~~]] Underspecification

to:

!!! [[#p62]] Underspecification

Changed lines 176-178 from:

!!! [[#~~p53~~]] Przetwarzanie dyskursu

!!!! [[#~~p531~~]] Discourse Representation Theory

to:

!!! [[#p63]] Przetwarzanie dyskursu

!!!! [[#p631]] Discourse Representation Theory

January 12, 2007, at 03:04 AM by 83.27.169.140 -

Changed lines 70-71 from:

Speagram to jednocześnie język programowania oraz dynamiczny (programowalny) parser. (Uwagi dotyczą wersji SVN [[http://svn.sourceforge.net/viewvc/speagram/trunk/speagram/]], intensywnie rozwijanej od sierpnia do października ~~b.r.~~ [[http://dev.openwengo.com/trac/openwengo/trac.cgi/wiki/CodeCampWengoPhoneNaturalLanguage]] -- projekt zakończony fiaskiem).

to:

Speagram to jednocześnie język programowania oraz dynamiczny (programowalny) parser. (Uwagi dotyczą wersji SVN [[http://svn.sourceforge.net/viewvc/speagram/trunk/speagram/]], intensywnie rozwijanej od sierpnia do października 2006 [[http://dev.openwengo.com/trac/openwengo/trac.cgi/wiki/CodeCampWengoPhoneNaturalLanguage]] -- projekt zakończony fiaskiem).

January 12, 2007, at 03:03 AM by 83.27.169.140 -

Changed lines 69-71 from:

!!! [[#p24]] Obecny ~~Speagram~~: ~~trochę og�lniejsze gramatyki struktur frazowych~~
Speagram ~~to jednocze~~&#~~347~~;~~nie język programowania oraz dynamiczny (programowalny)~~ parser.

to:

!!! [[#p24]] Obecny [[http://svn.sourceforge.net/viewvc/speagram/trunk/speagram/ | Speagram]]: trochę og�lniejsze gramatyki struktur frazowych
Speagram to jednocześnie język programowania oraz dynamiczny (programowalny) parser. (Uwagi dotyczą wersji SVN [[http://svn.sourceforge.net/viewvc/speagram/trunk/speagram/]], intensywnie rozwijanej od sierpnia do października b.r. [[http://dev.openwengo.com/trac/openwengo/trac.cgi/wiki/CodeCampWengoPhoneNaturalLanguage]] -- projekt zakończony fiaskiem).

January 12, 2007, at 02:46 AM by 83.27.169.140 -

Changed lines 111-112 from:

HPSG jest niederywacyjna: zupełnie nieistotne jest, w jaki spos�b skonstruowaliśmy strukturę atrybutową dla zdania, ta struktura zawiera całą potrzebną informację. Dlatego HPSG można też parsować "czysto więzowo" tak jak gramatyki zależności ([[#p4 | dependency grammars]]).

to:

HPSG jest niederywacyjna (deklaratywna): zupełnie nieistotne jest, w jaki spos�b skonstruowaliśmy strukturę atrybutową dla zdania, ta struktura zawiera całą potrzebną informację, oraz nietransformacyjna: struktury atrybutowe nie są modyfikowane, tylko łączone w większe struktury przez unifikację. Dlatego HPSG można też parsować "czysto więzowo" tak jak gramatyki zależności ([[#p4 | dependency grammars]]).

January 12, 2007, at 02:28 AM by 83.27.169.140 -

Added lines 111-112:

HPSG jest niederywacyjna: zupełnie nieistotne jest, w jaki spos�b skonstruowaliśmy strukturę atrybutową dla zdania, ta struktura zawiera całą potrzebną informację. Dlatego HPSG można też parsować "czysto więzowo" tak jak gramatyki zależności ([[#p4 | dependency grammars]]).

January 12, 2007, at 02:16 AM by 83.27.169.140 -

Added lines 109-114:

HPSG przypisuje frazom -- począwszy od sł�w po całe zdania -- struktury atrybutowe (feature-structures) zawierające bardzo bogatą informację: fono/morfologiczną, syntaktyczną i semantyczną. HPSG składa się ze słownika, zawierającego struktury atrybutowe dla poszczeg�lnych sł�w języka, oraz bardzo niewielu schemat�w reguł. Do HPSG można stosować chart-parsery: wypełnia się chart przez struktury atrybutowe sł�w zdania i następnie stosuje schematy reguł do konstrukcji/przekształcania krawędzi charta. Od "zwykłych" gramatyk unifikacyjnych (tzn. CFG + struktury atrybutowe) HPSG r�żni się więc tym, że produkcje nie są dane jawnie, tylko wydobywane ze struktur atrybutowych przez schematy reguł.

Ważne miejsce: [[http://hpsg.stanford.edu/]]

Kurs LFG i HPSG: [[http://www.cl.uni-bremen.de/~stefan/Lehre/Konstanz2001/]] ([[http://www.cl.uni-bremen.de/~stefan/PS/konstanz2001-slides.pdf | slajdy dla HPSG]])

January 12, 2007, at 12:49 AM by 83.27.169.140 -

Changed lines 104-105 from:

[[http://www.essex.ac.uk/linguistics/LFG/ | Strona domowa LFG]]

to:

[[http://www.essex.ac.uk/linguistics/LFG/ | Strona domowa LFG]] (m. in. [[http://users.ox.ac.uk/~cpgl0015/lfg.pdf | wprowadzenie do LFG]])

January 12, 2007, at 12:45 AM by 83.27.169.140 -

Changed line 16 from:

## [[#p35 | ~~Unificational~~ Categorial Grammar, Combinatory Categorial Grammar (UCG, CCG)]]

to:

## [[#p35 | Unification Categorial Grammar, Combinatory Categorial Grammar (UCG, CCG)]]

Added lines 104-105:

[[http://www.essex.ac.uk/linguistics/LFG/ | Strona domowa LFG]]

Changed line 114 from:

!!! [[#p35]] ~~Unificational~~ Categorial Grammar, Combinatory Categorial Grammar (UCG, CCG)

to:

!!! [[#p35]] Unification Categorial Grammar, Combinatory Categorial Grammar (UCG, CCG)

January 12, 2007, at 12:22 AM by 83.27.169.140 -

Changed lines 110-111 from:

[[http://www.cis.upenn.edu/~xtag/]]

to:

[[http://www.cis.upenn.edu/~xtag/tech-report/node5.html | Atrybutowe leksykalne TAGs]] ([[http://www.cis.upenn.edu/~xtag/ | strona gł�wna projektu xTAG]])

Changed lines 113-115 from:

[[http://~~www~~.~~dfki~~.de/~~~gj~~/~~lectures/050404-08~~.~~fi.helsinki.kit/~~]]
[[~~http~~://~~groups~~.~~inf~~.ed.ac.uk/~~ccg~~/~~publications~~.~~html~~]]

to:

Publikacje dot. CCG: [[http://groups.inf.ed.ac.uk/ccg/publications.html]] (m. in. [[ftp://ftp.cogsci.ed.ac.uk/pub/steedman/ccg/manifesto.pdf | wprowadzenie do CCG]]).

Multi-modalne CCG: [[http://www.dfki.de/~gj/lectures/050404-08.fi.helsinki.kit/]]

January 12, 2007, at 12:02 AM by 83.27.169.140 -

Changed lines 110-111 from:

to:

[[http://www.cis.upenn.edu/~xtag/]]

Changed lines 113-114 from:

to:

[[http://www.dfki.de/~gj/lectures/050404-08.fi.helsinki.kit/]]
[[http://groups.inf.ed.ac.uk/ccg/publications.html]]

January 11, 2007, at 05:37 PM by 83.27.169.140 -

Changed lines 2-24 from:

# [[#p2 | ~~Gramatyki~~ struktur frazowych]]
## [[#p21 | ~~Parsowanie~~]]
### [[#~~p211~~ | ~~Praser CFG: algorytm Earleya.]]~~
### [[#~~p212~~ | ~~Inkrementacyjna unifikacja (inkrementacyjne rozstrzyganie wi~~&#~~281~~;~~z�w)~~]]
### [[#~~p213~~ | ~~Usprawnianie chart-parsera]]~~
###~~# [[~~#~~p2131~~ | ~~Pomysły na optymalizacj~~ę]]
#### [[#~~p2132~~ | ~~Pomysły na t~~&#~~322~~;~~umaczenie b~~&#~~322~~;&#~~281~~;~~d�w gramatycznych]]~~
## [[#~~p22~~ | ~~Obecny Speagram: troch~~&#~~281~~; ~~og�lniejsze gramatyki struktur frazowych~~]]
### [[#~~p221~~ | ~~Nieterminale to typy, ale typy mog~~&#~~261~~; ~~posiadać bogat&~~#~~261; struktur&~~#~~281;.~~]]
### [[#~~p222~~ | ~~Etykiety i cechy. Interpretacja brakuj&~~#261;cych etykiet.]]
## [[#p23 | Formalizmy lingwistyczne używane w NLP]]
### [[#p231 | Gramatyki transformacyjne]]
### [[#~~p232~~ | ~~Lexical Functional~~ Grammar (~~LFG~~)]]
### [[#~~p233~~ | ~~Head-driven Phrase Structure Grammar (HPSG~~)]]
# [[#p3 | ~~Gramatyki zale&~~#~~380;no&~~#~~347;ci (dependency grammars)~~]]
## [[#~~p31~~ | ~~Struktura (drzewa) rozbioru~~]]
## [[#~~p32~~ | ~~Constraint Programming~~]]
# [[#p4 | ~~Od sk&~~#~~322;adni do semantyki~~]]
## [[#p41 | Gramatyki Montague'a]]
## [[#p42 | Underspecification]]
## [[#p43 | Przetwarzanie dyskursu]]
### [[#p431 | Discourse Representation Theory]]

to:

# [[#p2 | Parsowanie gramatyk struktur frazowych]]
## [[#p21 | Praser CFG: algorytm Earleya.]]
## [[#p22 | Inkrementacyjna unifikacja (inkrementacyjne rozstrzyganie więz�w)]]
## [[#p23 | Usprawnianie chart-parsera]]
### [[#p231 | Pomysły na optymalizację]]
### [[#p232 | Pomysły na tłumaczenie błęd�w gramatycznych]]
## [[#p24 | Obecny Speagram: trochę og�lniejsze gramatyki struktur frazowych]]
### [[#p241 | Nieterminale to typy, ale typy mogą posiadać bogatą strukturę.]]
### [[#p242 | Etykiety i cechy. Interpretacja brakujących etykiet.]]
# [[#p3 | Formalizmy lingwistyczne używane w NLP]]
## [[#p31 | Gramatyki transformacyjne]]
## [[#p32 | Lexical Functional Grammar (LFG)]]
## [[#p33 | Head-driven Phrase Structure Grammar (HPSG)]]
## [[#p34 | (Lexicalized) Tree Adjoining Grammar (TAG, xTAG)]]
## [[#p35 | Unificational Categorial Grammar, Combinatory Categorial Grammar (UCG, CCG)]]
# [[#p4 | Gramatyki zależności (dependency grammars)]]
## [[#p41 | Struktura (drzewa) rozbioru]]
## [[#p42 | Constraint Programming]]
# [[#p5 | Od składni do semantyki]]
## [[#p51 | Gramatyki Montague'a]]
## [[#p52 | Underspecification]]
## [[#p53 | Przetwarzanie dyskursu]]
### [[#p531 | Discourse Representation Theory]]

Changed line 37 from:

!! [[#p2]] ~~Gramatyki~~ struktur frazowych

to:

!! [[#p2]] Parsowanie gramatyk struktur frazowych

Changed lines 40-42 from:

!!! [[#p21]] Parsowanie

!!!! [[#p211]] Praser CFG: algorytm Earleya.

to:

!!! [[#p21]] Praser CFG: algorytm Earleya.

Changed line 44 from:

!!!! [[#~~p212~~]] Inkrementacyjna unifikacja (inkrementacyjne rozstrzyganie więz�w)

to:

!!! [[#p22]] Inkrementacyjna unifikacja (inkrementacyjne rozstrzyganie więz�w)

Changed lines 47-49 from:

!!!! [[#~~p213~~]] Usprawnianie chart-parsera

!!!!! [[#~~p2131~~]] Pomysły na optymalizację

to:

!!! [[#p23]] Usprawnianie chart-parsera

!!!! [[#p231]] Pomysły na optymalizację

Changed line 58 from:

!!!!! [[#~~p2132~~]] Pomysły na tłumaczenie błęd�w gramatycznych

to:

!!!! [[#p232]] Pomysły na tłumaczenie błęd�w gramatycznych

Changed line 69 from:

!!! [[#~~p22~~]] Obecny Speagram: trochę og�lniejsze gramatyki struktur frazowych

to:

!!! [[#p24]] Obecny Speagram: trochę og�lniejsze gramatyki struktur frazowych

Changed line 72 from:

!!!! [[#~~p221~~]] Nieterminale to typy, ale typy mogą posiadać bogatą strukturę.

to:

!!!! [[#p241]] Nieterminale to typy, ale typy mogą posiadać bogatą strukturę.

Changed line 90 from:

!!!! [[#~~p222~~]] Etykiety i cechy. Interpretacja brakujących etykiet.

to:

!!!! [[#p242]] Etykiety i cechy. Interpretacja brakujących etykiet.

Changed line 95 from:

!!! [[#~~p23~~]] Formalizmy lingwistyczne używane w NLP

to:

!! [[#p3]] Formalizmy lingwistyczne używane w NLP

Changed line 98 from:

!!!! [[#~~p231~~]] Gramatyki transformacyjne

to:

!!! [[#p31]] Gramatyki transformacyjne

Changed line 103 from:

!!!! [[#~~p232~~]] Lexical Functional Grammar (LFG)

to:

!!! [[#p32]] Lexical Functional Grammar (LFG)

Changed line 106 from:

!!!! [[#~~p233~~]] Head-driven Phrase Structure Grammar (HPSG)

to:

!!! [[#p33]] Head-driven Phrase Structure Grammar (HPSG)

Changed lines 109-114 from:

!! [[#p3]] Gramatyki zależności (dependency grammars)

to:

!!! [[#p34]] (Lexicalized) Tree Adjoining Grammar (TAG, xTAG)

!!! [[#p35]] Unificational Categorial Grammar, Combinatory Categorial Grammar (UCG, CCG)

!! [[#p4]] Gramatyki zależności (dependency grammars)

Changed line 117 from:

!!! [[#~~p31~~]] Struktura (drzewa) rozbioru

to:

!!! [[#p41]] Struktura (drzewa) rozbioru

Changed line 122 from:

!!! [[#~~p32~~]] Constraint Programming

to:

!!! [[#p42]] Constraint Programming

Changed lines 125-127 from:

!! [[#p4]] Od składni do semantyki

!!! [[#~~p41~~]] Gramatyki Montague'a

to:

!! [[#p5]] Od składni do semantyki

!!! [[#p51]] Gramatyki Montague'a

Changed line 130 from:

!!! [[#~~p42~~]] Underspecification

to:

!!! [[#p52]] Underspecification

Changed lines 133-135 from:

!!! [[#~~p43~~]] Przetwarzanie dyskursu

!!!! [[#~~p431~~]] Discourse Representation Theory

to:

!!! [[#p53]] Przetwarzanie dyskursu

!!!! [[#p531]] Discourse Representation Theory

December 24, 2006, at 01:38 AM by 83.27.162.249 -

Changed lines 57-58 from:

# Można pokusić się o bardziej skomplikowane optymalizacje. Można badać klasy leksykalne (np. verb = transitive verb + intransitive verb), kt�rych derywacje z danej reguły wymagają / nie dopuszczają. Można skompilować gramatykę do bardziej wydajnej postaci (bardziej podobnej do postaci Greibach), ale w czasie parsowania rekonstruować drzewo rozbioru względem oryginalnej gramatyki.

to:

# Można pokusić się o bardziej skomplikowane optymalizacje. Można badać klasy leksykalne (np. verb = transitive verb + intransitive verb), kt�rych derywacje z danej reguły wymagają / nie dopuszczają (tzn. klasy sł�w, kt�re muszą / nie mogą się pojawić we frazie, kt�rej wyprowadzenia korzeniem jest dana reguła). Można skompilować gramatykę do bardziej wydajnej postaci (bardziej podobnej do postaci Greibach), ale w czasie parsowania rekonstruować drzewo rozbioru względem oryginalnej gramatyki.

Changed lines 60-61 from:

Jeśli zdanie jest niepoprawne gramatycznie, to parsing kończy się bez krawędzi obejmujących całe zdanie. Szukamy (dynamicznie) ciąg�w krawędzi dających minimalne pokrycie rozłączne zdania. Budujemy nowy chart, tylko z krawędzi z tych ciąg�w. Do standardowych reguł chart-parsera dodajemy następujące reguły obsługi błęd�w:

to:

Jeśli zdanie jest niepoprawne gramatycznie, to parsing kończy się bez krawędzi obejmujących całe zdanie. Szukamy (dynamicznie) ciąg�w krawędzi dających minimalne pokrycie rozłączne zdania (tzn. minimalną ilość krawędzi, po kt�rych można przeskoczyć z początku na koniec). Budujemy nowy chart, tylko z krawędzi z tych ciąg�w. Do standardowych reguł chart-parsera dodajemy następujące reguły obsługi błęd�w:

December 24, 2006, at 01:24 AM by 83.27.162.249 -

Changed lines 21-24 from:

to:

## [[#p42 | Underspecification]]
## [[#p43 | Przetwarzanie dyskursu]]
### [[#p431 | Discourse Representation Theory]]

Added lines 125-131:

!!! [[#p42]] Underspecification
[[http://www.coli.uni-saarland.de/courses/underspecification-06/page.php?id=schedule]]

!!! [[#p43]] Przetwarzanie dyskursu

!!!! [[#p431]] Discourse Representation Theory

December 24, 2006, at 12:29 AM by 83.27.162.249 -

Changed lines 13-14 from:

### [[#p231 | ~~Lexical Functional Grammar (LFG)~~]]
### [[#p232 | Head-driven Phrase Structure Grammar (HPSG)]]

to:

### [[#p231 | Gramatyki transformacyjne]]
### [[#p232 | Lexical Functional Grammar (LFG)]]
### [[#p233 | Head-driven Phrase Structure Grammar (HPSG)]]

Changed lines 96-99 from:

!!!! [[#p231]] ~~Lexical Functional Grammar~~ (~~LFG~~)

~~!!!!~~[[~~#p232~~]] ~~Head-driven Phrase Structure~~ Grammar (~~HPSG~~)

to:

!!!! [[#p231]] Gramatyki transformacyjne
Gramatyki transformacyjne ("szkoła Chomskiego").

[[http://www.ling.upenn.edu/~beatrice/syntax-textbook/index.html]]

!!!! [[#p232]] Lexical Functional Grammar (LFG)
[[http://emsah.uq.edu.au/linguistics/Working%20Papers/ananda_ling/LFG_Summary.htm]]

!!!! [[#p233]] Head-driven Phrase Structure Grammar (HPSG)
[[http://emsah.uq.edu.au/linguistics/Working%20Papers/ananda_ling/HPSG_Summary.htm]]

December 24, 2006, at 12:02 AM by 83.27.162.249 -

Changed lines 93-94 from:

to:

[[http://emsah.uq.edu.au/linguistics/Working%20Papers/ananda_ling/ | Introduction to LFG and HPSG]] by Ananda Lima.

December 23, 2006, at 11:55 PM by 83.27.162.249 -

Changed lines 12-14 from:

## [[#p23 | ~~Head-driven Phrase Structure Grammars~~]]

to:

## [[#p23 | Formalizmy lingwistyczne używane w NLP]]
### [[#p231 | Lexical Functional Grammar (LFG)]]
### [[#p232 | Head-driven Phrase Structure Grammar (HPSG)]]

Changed lines 92-93 from:

!!! [[#p23]] ~~Head-driven Phrase Structure Grammars~~

to:

!!! [[#p23]] Formalizmy lingwistyczne używane w NLP

!!!! [[#p231]] Lexical Functional Grammar (LFG)

!!!![[#p232]] Head-driven Phrase Structure Grammar (HPSG)

December 23, 2006, at 10:46 PM by 83.27.162.249 -

Added line 12:

## [[#p23 | Head-driven Phrase Structure Grammars]]

Changed lines 40-41 from:

Drzewa dowod�w (proof trees) jako drzewa rozbioru dla gramatyk unifikacyjnych, zobacz [[http://www.ida.liu.se/~ulfni/lpp/ | Logic, Programming and Prolog (2ed)]] rozdz. 3.6. Oczywiście chcemy możliwie szybko odcinać błędne ścieżki wyprowadzeń, dlatego (jak w Prologu), od razu propagujemy rozwiązania generowanych r�wnań. "Funkcję obliczeń" R wyznacza nam algorytm chart-parsera. (Rozdział 3.6 książki o Prologu m�wi tylko o doklejaniu płytkich drzew odpowiadających produkcjom, u nas krawędzi z kropką na samym początku, ale idea przenosi się na doklejanie głębszych drzew.)

to:

Drzewa dowod�w (proof trees) jako drzewa rozbioru dla gramatyk unifikacyjnych, zobacz [[http://www.ida.liu.se/~ulfni/lpp/ | Logic, Programming and Prolog (2ed)]] rozdz. 3.6. Oczywiście chcemy możliwie szybko odcinać błędne ścieżki wyprowadzeń, dlatego (jak w Prologu), od razu propagujemy rozwiązania generowanych r�wnań. "Funkcję obliczeń" R wyznacza nam algorytm chart-parsera. (Rozdział 3.6 książki o Prologu m�wi tylko o doklejaniu płytkich drzew odpowiadających produkcjom, u nas krawędzi z kropką na samym początku, ale idea przenosi się na doklejanie głębszych drzew. Pełne gramatyki unifikacyjne są opisane w rozdziale o "Definite Clause Grammars".)

Added lines 51-52:

# Można pokusić się o bardziej skomplikowane optymalizacje. Można badać klasy leksykalne (np. verb = transitive verb + intransitive verb), kt�rych derywacje z danej reguły wymagają / nie dopuszczają. Można skompilować gramatykę do bardziej wydajnej postaci (bardziej podobnej do postaci Greibach), ale w czasie parsowania rekonstruować drzewo rozbioru względem oryginalnej gramatyki.

Changed lines 54-63 from:

to:

Jeśli zdanie jest niepoprawne gramatycznie, to parsing kończy się bez krawędzi obejmujących całe zdanie. Szukamy (dynamicznie) ciąg�w krawędzi dających minimalne pokrycie rozłączne zdania. Budujemy nowy chart, tylko z krawędzi z tych ciąg�w. Do standardowych reguł chart-parsera dodajemy następujące reguły obsługi błęd�w:

:błąd typu:poszerz krawędź o przyległą zupełną krawędź (z kropką na końcu), odpowiednio przesuwając kropkę lewej krawędzi, bez sprawdzania zgodności nieterminali, np. krawędzie [@[i -> j] A => B.CD, [j -> k] E => FG.@], dodaj [@[i -> k] A => BC.D@], zapamiętaj "błąd typu: oczekiwane C, znaleziono E"

:wtrącenie:wydłuż krawędź do końca przyległej zupełnej krawędzi, bez przesuwania kropki, np. krawędzie [@[i -> j] A => B.CD, [j -> k] E => FG.@], dodaj [@[i -> k] A => B.CD@], zapamiętaj "wtrącenie: nieoczekiwane E"

:opuszczenie:przesuń kropkę bez wydłużania krawędzi, np. krawędź [@[i -> j] A => B.CD@], dodaj [@[i -> j] A => BC.D@], zapamiętaj "opuszczenie: pominięto C"

Nasyć chart przy pomocy poszerzonego zbioru reguł (poszerz odpowiednio używany algorytm parsowania). Zwr�ć użytkownikowi drzewa rozbioru odpowiadające krawędziom obejmującym całe zdanie wyprowadzone z minimalną ilością zastosowań reguł obsługi błęd�w, razem z zapamiętanymi komentarzami.

Added lines 90-91:

!!! [[#p23]] Head-driven Phrase Structure Grammars

December 23, 2006, at 09:43 PM by 83.27.149.80 -

Changed lines 6-8 from:

### [[#p213 | ~~Pomysły na optymalizację~~ parsera]]

to:

### [[#p213 | Usprawnianie chart-parsera]]
#### [[#p2131 | Pomysły na optymalizację]]
#### [[#p2132 | Pomysły na tłumaczenie błęd�w gramatycznych]]

Changed lines 41-42 from:

!!!! [[#p213]] ~~Pomysły na optymalizację~~ parsera

to:

!!!! [[#p213]] Usprawnianie chart-parsera

!!!!! [[#p2131]] Pomysły na optymalizację
Dla ustalenia uwagi udoskonalamy algorytm Earleya: bottom-up left-to-right

# Dzielimy gramatykę na reguły leksykalne/słownikowe i pozostałe. Reguły leksykalne to te, kt�rych prawa strona rozpoczyna się od terminala (często będzie to tylko terminal). Tylko nieleksykalne reguły wstawiamy jako "pętelki" w każdą pozycję charta, reguły leksykalne grupujemy w słownik ze sł�w w zbi�r reguł, i dla każdego słowa wstawiamy do charta przeskakujące to słowo krawędzie.

# Samo wstawianie "pętelek" do charta możemy potraktować leniwie: zgromadzić reguły nieleksykalne w słownik indeksowany (np.) przez część mowy (lub nazwę frazy) i w momencie wybierania z charta krawędzi do przedłużenia, dorzucić krawędzie odpowiadające regułom ze słownika dla potrzebnej części mowy. W ten spos�b nie przeglądamy za każdym razem wszystkich reguł (nieleksykalnych).

!!!!! [[#p2132]] Pomysły na tłumaczenie błęd�w gramatycznych

December 19, 2006, at 03:10 PM by 156.17.4.253 -

Added lines 18-19:

''Uwaga: notatki są w trakcie opracowywania i mogą zawierać poważne błędy.''

Changed lines 37-38 from:

to:

Drzewa dowod�w (proof trees) jako drzewa rozbioru dla gramatyk unifikacyjnych, zobacz [[http://www.ida.liu.se/~ulfni/lpp/ | Logic, Programming and Prolog (2ed)]] rozdz. 3.6. Oczywiście chcemy możliwie szybko odcinać błędne ścieżki wyprowadzeń, dlatego (jak w Prologu), od razu propagujemy rozwiązania generowanych r�wnań. "Funkcję obliczeń" R wyznacza nam algorytm chart-parsera. (Rozdział 3.6 książki o Prologu m�wi tylko o doklejaniu płytkich drzew odpowiadających produkcjom, u nas krawędzi z kropką na samym początku, ale idea przenosi się na doklejanie głębszych drzew.)

December 18, 2006, at 12:02 AM by 83.27.162.19 -

Changed lines 19-20 from:

Rozbi�r zdania nie musi zatrzymywać się na poziomie słowa: automatycznemu podziałowi słowa na morfemy możemy zmniejszyć wielkość słownika, a nawet radzić sobie z nieznanymi słowami. Dla przykładu, system konwersacyjny może swobodnie zapytać użytkownika o znaczenie wyrazu, kiedy jego rola gramatyczna jest dzięki analizie w pełni określona i znane są wzorce odmiany.

to:

Rozbi�r zdania nie musi zatrzymywać się na poziomie słowa: dzięki automatycznemu podziałowi słowa na morfemy możemy zmniejszyć wielkość słownika, a nawet radzić sobie z nieznanymi słowami. Dla przykładu, system konwersacyjny może swobodnie zapytać użytkownika o znaczenie wyrazu, kiedy jego rola gramatyczna jest dzięki analizie w pełni określona i znane są wzorce odmiany.

December 18, 2006, at 12:00 AM by 83.27.162.19 -

Changed line 12 from:

## [[#p32]] Constraint ~~Programming~~

to:

## [[#p32 | Constraint Programming]]

December 18, 2006, at 12:00 AM by 83.27.162.19 -

Changed line 8 from:

### [[#p221 | Nieterminale to typy, ale typy mogą posiadać bogatą strukturę.]

to:

### [[#p221 | Nieterminale to typy, ale typy mogą posiadać bogatą strukturę.]]

December 18, 2006, at 12:00 AM by 83.27.162.19 -

Added lines 1-15:

# [[#p1 | Analiza morfologiczna (Computational Morphology, word tagging) ]]
# [[#p2 | Gramatyki struktur frazowych]]
## [[#p21 | Parsowanie]]
### [[#p211 | Praser CFG: algorytm Earleya.]]
### [[#p212 | Inkrementacyjna unifikacja (inkrementacyjne rozstrzyganie więz�w)]]
### [[#p213 | Pomysły na optymalizację parsera]]
## [[#p22 | Obecny Speagram: trochę og�lniejsze gramatyki struktur frazowych]]
### [[#p221 | Nieterminale to typy, ale typy mogą posiadać bogatą strukturę.]
### [[#p222 | Etykiety i cechy. Interpretacja brakujących etykiet.]]
# [[#p3 | Gramatyki zależności (dependency grammars)]]
## [[#p31 | Struktura (drzewa) rozbioru]]
## [[#p32]] Constraint Programming
# [[#p4 | Od składni do semantyki]]
## [[#p41 | Gramatyki Montague'a]]

Changed line 18 from:

!! Analiza morfologiczna (Computational Morphology, word tagging)

to:

!! [[#p1]] Analiza morfologiczna (Computational Morphology, word tagging)

Changed line 25 from:

!! Gramatyki struktur frazowych

to:

!! [[#p2]] Gramatyki struktur frazowych

Changed lines 28-31 from:

!!! ~~Obecny Speagram: troch&~~#281; og�lniejsze gramatyki struktur frazowych
Speagram to jednocześnie język programowania oraz dynamiczny (programowalny) parser.

!!!! Praser CFG: algorytm Earleya.

to:

!!! [[#p21]] Parsowanie

!!!! [[#p211]] Praser CFG: algorytm Earleya.

Changed lines 34-36 from:

!!!! ~~Nieterminale to typy, ale typy mog~~&#~~261~~; ~~posiada&~~#~~263; bogat~~&#~~261~~; ~~struktur~~ę.
Następnie dodajemy atrybuty: po lewej stronie produkcji, wstawiamy term A opisujący własności drzewa rozbioru z korzeniem wyprowadzonym z tej produkcji, zależne od własności poddrzew. Po prawej stronie produkcji, zamiast nieterminali wstawiamy term A'_i_' opisujący interesujące nas własności, oraz relację R'_i_', w kt�rej term B opisujący potencjalne poddrzewo rozbioru ma być względem termu A'_i_'. Trzy rodzaje relacji wydają się rozsądne, w żargonie język�w programowania nazywają się one: "pozycja inwariantna" (=), "pozycja kowariantna" (<), "pozycja kontrawariantna" (>). Budując drzewo rozbioru zdania pilnujemy niesprzeczności wymagań. Przykłady (''italiką'' oznaczone są terminale, a znakiem zapytania zmienne w termach własności, tzn. w typach):

to:

!!!! [[#p212]] Inkrementacyjna unifikacja (inkrementacyjne rozstrzyganie więz�w)

!!!! [[#p213]] Pomysły na optymalizację parsera

!!! [[#p22]] Obecny Speagram: trochę og�lniejsze gramatyki struktur frazowych
Speagram to jednocześnie język programowania oraz dynamiczny (programowalny) parser.

!!!! [[#p221]] Nieterminale to typy, ale typy mogą posiadać bogatą strukturę.
Po lewej stronie produkcji, wstawiamy term A opisujący własności drzewa rozbioru z korzeniem wyprowadzonym z tej produkcji, zależne od własności poddrzew. Po prawej stronie produkcji, zamiast nieterminali wstawiamy term A'_i_' opisujący interesujące nas własności, oraz relację R'_i_', w kt�rej term B opisujący potencjalne poddrzewo rozbioru ma być względem termu A'_i_'. Trzy rodzaje relacji wydają się rozsądne, w żargonie język�w programowania nazywają się one: "pozycja inwariantna" (=), "pozycja kowariantna" (<), "pozycja kontrawariantna" (>). Budując drzewo rozbioru zdania pilnujemy niesprzeczności wymagań. Przykłady (''italiką'' oznaczone są terminale, a znakiem zapytania zmienne w termach własności, tzn. w typach):

Changed line 59 from:

!!!! Etykiety i cechy. Interpretacja brakujących etykiet.

to:

!!!! [[#p222]] Etykiety i cechy. Interpretacja brakujących etykiet.

Changed line 64 from:

!! Gramatyki zależności (dependency grammars)

to:

!! [[#p3]] Gramatyki zależności (dependency grammars)

Changed line 67 from:

!!! Struktura (drzewa) rozbioru

to:

!!! [[#p31]] Struktura (drzewa) rozbioru

Changed line 72 from:

!!! Constraint Programming

to:

!!! [[#p32]] Constraint Programming

Added lines 74-78:

!! [[#p4]] Od składni do semantyki

!!! [[#p41]] Gramatyki Montague'a
[[http://www-personal.umich.edu/~akao/MontagueGrammar.pdf]]

December 17, 2006, at 11:33 PM by 83.27.162.19 -

Added lines 50-52:

!!! Constraint Programming
Kompletny tutorial implementacji parsera dla "dependency grammar" na bazie programowania więz�w: [[http://citeseer.ist.psu.edu/duchier00constraint.html]].

December 17, 2006, at 09:02 PM by 83.27.162.19 -

Changed line 46 from:

!!! Struktura drzewa rozbioru

to:

!!! Struktura (drzewa) rozbioru

Added line 49:

Samemu rozwiązywaniu więz�w jest wszystko jedno, jaką strukturę narzucimy na graf, więc możemy "zrelaksować" prototypowy warunek, żeby strukturą rozbioru było drzewo. Spotkałem się z formalizmami, w kt�rych wymaga się, żeby to był graf acykliczny (DAG). Praktyczne wydaje się zezwolenie na cykle, może ograniczone do klik, np. żeby wyrażać związki koordynacji (tzn. konstrukcje złożone wsp�łrzędnie, np. "A i B"), z kt�rymi "dependency grammars" mają pewne problemy.

December 17, 2006, at 08:42 PM by 83.27.162.19 -

Added lines 1-2:

''[Na marginesie: sł�w'' '''węzeł''' ''i'' '''wierzchołek''' ''używam zamiennie (tzn. używam pierwszego bo jest kr�tsze).]''

Changed lines 47-48 from:

Aby zaprogramować całe parsowanie jako problem rozwiązywania więz�w, potrzebujemy reprezentować drzewo rozbioru w dziedzinie więz�w, kt�rej używamy.

to:

Aby zaprogramować całe parsowanie jako problem rozwiązywania więz�w, potrzebujemy reprezentować dowolne drzewo rozbioru w dziedzinie więz�w, kt�rej używamy. Reprezentować dowolne drzewo o liściach będących słowami ustalonego zdania jest trudno -- jest ich nieskończenie wiele. Musimy więc ograniczyć ilość węzł�w wewnętrznych nie posiadających rozgałęzień. Najprościej jest wykluczyć takie węzły. Zauważmy, że wtedy węzł�w wewnętrznych jest o jeden mniej niż liści, możemy więc każdemu węzłowi wewnętrznemu przyporządkować liść. Miło byłoby, gdyby sama gramatyka z każdym węzłem drzewa rozbioru wiązała liść-terminal-słowo zdania. Okazuje się, że takie gramatyki są naturalne, pracował nad nimi m.in. Lucien Tesniere, gł�wną pracę "Elements de syntaxe structurale" wydał w 1959, więc r�wnolegle z pracami Chomsky'ego.

December 17, 2006, at 07:41 PM by 83.27.162.19 -

Added lines 43-45:

!!! Struktura drzewa rozbioru
Aby zaprogramować całe parsowanie jako problem rozwiązywania więz�w, potrzebujemy reprezentować drzewo rozbioru w dziedzinie więz�w, kt�rej używamy.

December 17, 2006, at 05:30 PM by 83.27.162.19 -

Added lines 41-42:

!! Gramatyki zależności (dependency grammars)
Parsowanie dla gramatyk struktur frazowych istotnie wykorzystuje kolejność węzł�w drzewa. Nie jest to korzystne w przypadku język�w o zdaniach ze swobodnym szykiem. Szyk wyraz�w nie musi być istotnym elementem składni: możemy rozpatrywać przynależność do języka modulo permutacja sł�w zdania. Aby parsować z pominięciem szyku, należy znaleźć jakiś odpowiednik programowania dynamicznego, kt�ry pozwoli inkrementacyjnie budować drzewo rozbioru. Og�lnych metod rozwiązywania problem�w o naturze kombinatorycznej dostarcza ''programowanie więz�w''. Pierwszym językiem programowania więz�w był Prolog, ale obecne języki / techniki programowania więz�w są skuteczniejsze, zaopatrzone w bogatsze logiki i wydajniejsze mechanizmy (dziedziny). Jak widzieliśmy już wcześniej, parsery gramatyk unifikacyjnych budują drzewo obliczeń (gramatyki potraktowanej jako) program w Prologu, przycięte przez algorytm dynamiczny wiążący porządek (liniowy) węzł�w drzewa z porządkiem sł�w zdania. Nasz obecny pomysł na parsowanie, to pominięcie "przycinania z zewnątrz", ale wykorzystanie wsp�łczesnych technik programowania więz�w.

December 15, 2006, at 11:44 PM by 83.8.55.27 -

Changed lines 39-40 from:

Są dwie możliwe interpretacje etykiet brakujących w opisie: sensowna formalnie interpretacja abstrakcyjna oraz praktyczna interpretacja polimorficzna. Interpretacja abstrakcyjna pod niewyspecyfikowane wartości etykiet podstawia @@Top@@, a interpretacja polimorficzna ignoruje etykiety nie występujące jednocześnie po obu stronach por�wnania. W interpretacji abstrakcyjnej [@ NP[number=singular] @] oznacza zbi�r wszystkich fraz rzeczownikowych w liczbie pojedynczej ([@ NP[gender=masculie, number=singular] @] jest ściśle konkretniejszy od tego typu), a w interpretacji polimorficznej [@ NP[number=singular] @] oznacza pewną frazę rzeczownikową w liczbie pojedynczej ([@ NP[gender=masculie, number=singular] @] jest i konkretniejszy i og�lniejszy od tego typu). Interpretacja polimorficzna okazuje się być wygodniejsza przy pisaniu gramatyk, ''It doesn't work in theory, but it works in practice...'' (Obecnie mamy w Speagramie interpretację polimorficzną~~, uzyskałem ją z abstrakcyjnej przez wycięcie fragment�w kodu~~.)

to:

Są dwie możliwe interpretacje etykiet brakujących w opisie: sensowna formalnie interpretacja abstrakcyjna oraz praktyczna interpretacja polimorficzna. Interpretacja abstrakcyjna pod niewyspecyfikowane wartości etykiet podstawia @@Top@@, a interpretacja polimorficzna ignoruje etykiety nie występujące jednocześnie po obu stronach por�wnania. W interpretacji abstrakcyjnej [@ NP[number=singular] @] oznacza zbi�r wszystkich fraz rzeczownikowych w liczbie pojedynczej ([@ NP[gender=masculie, number=singular] @] jest ściśle konkretniejszy od tego typu), a w interpretacji polimorficznej [@ NP[number=singular] @] oznacza pewną frazę rzeczownikową w liczbie pojedynczej ([@ NP[gender=masculie, number=singular] @] jest i konkretniejszy i og�lniejszy od tego typu). Interpretacja polimorficzna okazuje się być wygodniejsza przy pisaniu gramatyk, ''It doesn't work in theory, but it works in practice...'' (Obecnie mamy w Speagramie interpretację polimorficzną.)

December 15, 2006, at 11:42 PM by 83.8.55.27 -

Changed lines 37-38 from:

W Speagramie typy (czyli cechy) są symbolami lub odwzorowaniami z etykiet w typy. Mamy też ''domyślne etykiety symboli'': jeśli domyślną etykietą symbolu @@NP@@ jest @@~~cat~~@@ a domyślną etykietą symbolu @@masculine@@ jest @@gender@@, to [@ NP[gender=masculine, number=?n] = [~~cat~~=NP, gender=?g, number=?n] = masculine[~~cat~~=NP, number=?n] @].

to:

W Speagramie typy (czyli cechy) są symbolami lub odwzorowaniami z etykiet w typy. Mamy też ''domyślne etykiety symboli'': jeśli domyślną etykietą symbolu @@NP@@ jest @@POS@@ a domyślną etykietą symbolu @@masculine@@ jest @@gender@@, to [@ NP[gender=masculine, number=?n] = [POS=NP, gender=?g, number=?n] = masculine[POS=NP, number=?n] @].

December 15, 2006, at 11:39 PM by 83.8.55.27 -

Changed lines 37-40 from:

W Speagramie typy (czyli cechy) są symbolami lub odwzorowaniami z etykiet w typy. ~~Tzn. je~~&#~~347~~;li domyś~~lną etykietą symbolu @@NP@@ jest~~ @@~~cat~~@@~~, to [~~@~~NP[gender=?g, number=?n] = [cat=NP, gender=?g, number=?n]~~@].

to:

W Speagramie typy (czyli cechy) są symbolami lub odwzorowaniami z etykiet w typy. Mamy też ''domyślne etykiety symboli'': jeśli domyślną etykietą symbolu @@NP@@ jest @@cat@@ a domyślną etykietą symbolu @@masculine@@ jest @@gender@@, to [@ NP[gender=masculine, number=?n] = [cat=NP, gender=?g, number=?n] = masculine[cat=NP, number=?n] @].

Są dwie możliwe interpretacje etykiet brakujących w opisie: sensowna formalnie interpretacja abstrakcyjna oraz praktyczna interpretacja polimorficzna. Interpretacja abstrakcyjna pod niewyspecyfikowane wartości etykiet podstawia @@Top@@, a interpretacja polimorficzna ignoruje etykiety nie występujące jednocześnie po obu stronach por�wnania. W interpretacji abstrakcyjnej [@ NP[number=singular] @] oznacza zbi�r wszystkich fraz rzeczownikowych w liczbie pojedynczej ([@ NP[gender=masculie, number=singular] @] jest ściśle konkretniejszy od tego typu), a w interpretacji polimorficznej [@ NP[number=singular] @] oznacza pewną frazę rzeczownikową w liczbie pojedynczej ([@ NP[gender=masculie, number=singular] @] jest i konkretniejszy i og�lniejszy od tego typu). Interpretacja polimorficzna okazuje się być wygodniejsza przy pisaniu gramatyk, ''It doesn't work in theory, but it works in practice...'' (Obecnie mamy w Speagramie interpretację polimorficzną, uzyskałem ją z abstrakcyjnej przez wycięcie fragment�w kodu.)

December 15, 2006, at 11:19 PM by 83.8.55.27 -

Changed lines 8-37 from:

!!

to:

!! Gramatyki struktur frazowych
Mam na myśli gramatyki bazujące na CFG lub na gramatykach kategorialnych, wspierane przez więzy wyrażające ograniczenia składniowe i semantyczne. Często są one nazywane gramatykami unifikacyjnymi lub atrybutowymi.

!!! Obecny Speagram: trochę og�lniejsze gramatyki struktur frazowych
Speagram to jednocześnie język programowania oraz dynamiczny (programowalny) parser.

!!!! Praser CFG: algorytm Earleya.
Zacznijmy od parsowania CFG:
[[http://www.cs.chalmers.se/~peb/pubs/p04-chart-pearl.pdf | Functional Pearls: Functional Chart Parsing of Context Free Grammars]] by Peter Ljungl�f.

!!!! Nieterminale to typy, ale typy mogą posiadać bogatą strukturę.
Następnie dodajemy atrybuty: po lewej stronie produkcji, wstawiamy term A opisujący własności drzewa rozbioru z korzeniem wyprowadzonym z tej produkcji, zależne od własności poddrzew. Po prawej stronie produkcji, zamiast nieterminali wstawiamy term A'_i_' opisujący interesujące nas własności, oraz relację R'_i_', w kt�rej term B opisujący potencjalne poddrzewo rozbioru ma być względem termu A'_i_'. Trzy rodzaje relacji wydają się rozsądne, w żargonie język�w programowania nazywają się one: "pozycja inwariantna" (=), "pozycja kowariantna" (<), "pozycja kontrawariantna" (>). Budując drzewo rozbioru zdania pilnujemy niesprzeczności wymagań. Przykłady (''italiką'' oznaczone są terminale, a znakiem zapytania zmienne w termach własności, tzn. w typach):

rewrite_rule <- ''let'' (> ?a) ''be'' (< ?a)

z przedchodniości, ta produkcja jest r�wnoważna następującym:

rewrite_rule <- ''let'' (> ?a) ''be'' (= ?a)
rewrite_rule <- ''let'' (= ?a) ''be'' (< ?a)

Konstrukcja z język�w programowania. [@ let X be Y @] oznacza, że @@X@@ oblicza się do @@Y@@. Żeby to było dopuszczalne, @@Y@@ki muszą być @@X@@ami, tzn. typ @@Y@@ka musi być podtypem @@X@@a.

NP[gender=?g, number=?n] <- (> ADJ[gender=?g, number=?n]) (= NP[gender=?g, number=?n])
NP[gender=?g, number=?n] <- (= N[gender=?g, number=?n])

Przymiotnik opisujący frazę rzeczownikową może mieć typ og�lniejszy niż ta fraza, na przykład może być rodzaju męskiego [@gender=m@], kt�ry jest nadtypem rodzaj�w @@m1@@, @@m2@@ i @@m3@@.

!!!! Etykiety i cechy. Interpretacja brakujących etykiet.
W Speagramie typy (czyli cechy) są symbolami lub odwzorowaniami z etykiet w typy. Tzn. jeśli domyślną etykietą symbolu @@NP@@ jest @@cat@@, to [@NP[gender=?g, number=?n] = [cat=NP, gender=?g, number=?n]@].

December 15, 2006, at 05:55 PM by 83.8.55.27 -

Added lines 1-8:

!! Analiza morfologiczna (Computational Morphology, word tagging)
Rozbi�r zdania nie musi zatrzymywać się na poziomie słowa: automatycznemu podziałowi słowa na morfemy możemy zmniejszyć wielkość słownika, a nawet radzić sobie z nieznanymi słowami. Dla przykładu, system konwersacyjny może swobodnie zapytać użytkownika o znaczenie wyrazu, kiedy jego rola gramatyczna jest dzięki analizie w pełni określona i znane są wzorce odmiany.

Jedno z zadań polegało na zapoznaniu się z gramatykami (czyli.. słownikami) programu sprawdzającego pisownię @@ispell@@: [[http://ficus-www.cs.ucla.edu/geoff/ispell.html]], [[http://ispell-pl.sourceforge.net/]].

Wydajne techniki analizy morfologicznej w OCamlu: [[http://pauillac.inria.fr/~huet/PUBLIC/tagger.pdf]]

!!

Gramatyki

NLP.Gramatyki History