Opracowanie diachronicznej wyszukiwarki informacji w zbiorach zdigitalizowanych wykorzystującej NLP i AI

Projekt pt. „Opracowanie diachronicznej wyszukiwarki informacji w zbiorach zdigitalizowanych wykorzystującej NLP i AI” realizowany w ramach Poddziałania 1.1.1 Badania przemysłowe i prace rozwojowe realizowane przez przedsiębiorstwa; Programu Operacyjnego Inteligentny Rozwój 2014-2020 współfinansowanego ze środków Europejskiego Funduszu Rozwoju Regionalnego

Celem projektu jest wytworzenie innowacji produktowej na skalę międzynarodową w postaci autorskiego systemu masowego wyszukiwania informacji tekstowej i wizualnej wraz z prezentacją wycinka oryginalnego tekstu. Jedną z głównych barier wyszukiwania informacji w publikacjach, które nie powstały w formie elektronicznej jest jakość rozpoznania tekstu i jego analiza językowa. Celem projektu jest usunięcie tej bariery przez stworzenie inteligentnego, opartego na kompetencji sieci neuronowych informatycznego systemu pełnotekstowego przeszukiwania tekstu klasy Enterprise Search Software, dzięki czemu nie będzie ograniczenia do pozyskiwania informacji z treści bieżących lub kilkuletnich. Jednym z efektów projektu będzie powstanie nowego algorytmu do analizy zdigitalizowanych tekstów z uwzględnieniem specyfiki ewolucji języka polskiego. Projekt jest przedsięwzięciem pionierskim na skalę światową, bo żaden dotychczasowy system klasy ESS nie oferuje analizy j. historycznego (szczególnie j. polskiego) okresu 1800-2000 dla masowej ekstrakcji wiedzy. Silnik może być zaimplementowany w systemach obiegu dokumentów w urzędach, sądach, archiwach, IPN, a zwłaszcza w oprogramowaniu typu zintegrowany system biblioteczny.
W stosunku do istniejących systemów proponowane rozwiązanie oferuje nowe możliwości:

  • wyszukiwanie „wzdłuż”, tzn. obejmujące materiał z okresu ponad 200 lat
  • wyszukiwanie „wszerz”, tj. gromadzone są nie tylko najważniejsze strony, ale całe zawartości publikacji
  • generowanie wykresów częstości występowania wyrazów i fraz na osi czasu,
  • automatyczne tworzenie zestawów danych (dossier) związanych z wybranym zagadnieniem.

Projektowane rozwiązanie nie posiada bezpośredniej konkurencji ze względu na 2 cechy: oprogramowanie materiału skanowanego z usterkami rozpoznania OCR i prezentację wycinka tekstowego zamiast skanowanego tekstu. Cel zostanie osiągnięty przez realizację eksperyment.pr.rozw. (etap 1, 2 i 3 – testy w warunkach rzeczywistych).

Wartość projektu: 4 163 305,00 PLN
Wartość dofinansowania: 2 081 652,50

Okres realizacji projektu: styczeń 2022 r. – wrzesień 2023 r.