WCSS logo

Wrocław Centre for
Networking and Supercomputing

CLARIN

STATUS: CURRENT

Podstawowym celem projektu jest dostarczenie polskim naukowcom środków potrzebnych do prowadzenia badań wymagających wykorzystania metod przetwarzania dużych ilości tekstów. Projekt jest realizowany w ramach konsorcjum CLARIN-PL, w którym powstają elektroniczne zasoby językowe i narzędzia do pracy z dużymi zbiorami tekstów w języku polskim.
Założeniem ogólnym CLARIN jest udostępnianie zasobów językowych oraz elektronicznych narzędzi do automatycznego przetwarzania języka naturalnego badaczom we wszystkich dyscyplinach naukowych, a w szczególności z dziedziny nauk humanistycznych i społecznych. Liczba dokumentów dostępnych przez Internet i w innych formach elektronicznych (artykułów prasowych, archiwów cyfrowych, tekstów reklamowych, blogów itp.) stale rośnie. Dynamiczny przyrost cyfrowego materiału tekstowego jest cennym źródłem badań, ale tworzy równocześnie szereg wyzwań przed naukowcami. Zadaniem CLARIN jest ułatwienie dostępu do opracowanych narzędzi i zasobów językowych oraz wspieranie zastosowań technologii językowych w naukach humanistycznych i społecznych.

Celem bezpośrednim projektu CLARIN jest rozszerzenie infrastruktury badawczej CLARIN-PL do platformy badawczo-rozwojowej do przetwarzania języka naturalnego i eksploracji wielkich danych językowych. Zapewni ona dostęp do uniwersalnych komponentów technologii językowej oraz mechanizmy ich łączenia na potrzeby konstruowania systemów analizy tekstu, dzięki czemu powstanie infrastruktura do konstrukcji skutecznych i wydajnych systemów eksploracji wielkich danych językowych (tekstów i mowy).

Realizatorami projektu są:
  • Politechnika Wrocławska (w tym WCSS),
  • Instytut Podstaw Informatyki PAN,
  • Instytut Slawistyki PAN,
  • Uniwersytet Łódzki,
  • Uniwersytet Wrocławski.

PODSUMOWANIE

Finansowanie: Europejski Fundusz Rozwoju Regionalnego, w ramach programu PO IR 4.2
Strona internetowa konsorcjum: https://clarin-pl.eu/
logotypy unijne informujące o finansowaniu projektu