Budowanie grafu wiedzy z dokumentów

Z nekst
Skocz do: nawigacji, wyszukiwania

Przykładami metodologii transformacji semantycznych bazujących na koncepcji grafu wiedzy są m.in. OpenInformationExtraction (openinfextr), KnowledgeGraph (Google), oraz NekstTriplets (Nekst). Googlowski Knowledge Graph funkcjonuje od maja 2012. Składa się on z ok. 500.000.000 węzłów reprezentujących obiekty z kolekcji dokumentów internetowych oraz 3.500.000.000 relacji oraz atrybutów tych węzłów. Na zapytania Google odpowiada opisem obiektów z grafu wraz z pewnym „podsumowaniem” otoczenia grafu. Graf jest konstruowany manualnie.


System OpenInformationExtraction pozwala na zadawanie zapytań typu (byt, relacja,byt), przy czym jeden z bytów lub relacja mogą być podane jako nieznane (znak zapytania). System zwraca możliwe instancje pytajników wraz z ich częstościami, a wybranie którejś z nich wiedzie do listy stron, a potem strony zawierającej daną trójkę ontologiczną.

W IPI PAN prowadzono także eksperymenty nad budową grafu wiedzy, ale na zasadzie konstrukcji automatycznej. Proces składał się z analizy powierzchniowej syntaktyki (składni) tekstu, w ramach którego następowała identyfikacja fraz rzeczownikowych, będącymi bytami nazwanymi oraz orzeczeń (relacji) (z listy, inne reguły). Kolekcjonowano trójki (byt,orzeczenie,byt) z podwyższaniem ich znaczenia wg częstości. Uzyskany graf wykorzystuje się do odpowiadania na zapytania o bytach z wykorzystaniem zasady dywersyfikacji.

W systemie Nekst zaimplementowano moduł identyfikacji oraz wyszukiwania trójek frazowych (bez ograniczania się do konkretnych list), moduł odpowiedzialny za detekcje encji występujących na stronach internetowych, w oparciu o algorytm SEAL oraz moduł do identyfikacji nazw własnych w tekście, bazujący na narzędziu NERF.

Szczególnymi identyfikowanymi jednostkami wiedzy są tzw. Trójki z apozycji i Trójki z indeksowania.