CLARIN

Common Language Resources and Technology Infrastructure


Abstract

Zusammenfassende Information zum Projekt CLARIN, der aktuelle Status, Ausblick und Bemerkungen zu Situation in Österreich. Autor:Matej Durco

1. Übersicht

create a research infrastructure that makes language resources and technologies (LRT) available to scholars of all disciplines, especially SSH

large-scale pan-European collaborative effort to create, coordinate and make language resources and technology available and readily useable.

Hauptaspekte

  • Konzentrieren von Sprachressourcen, was zu höherer Verfügbarkeit führt; der Fragmentierung der Ressourcen entgegenwirken

  • Langzeitaspekt: Erhaltung, Persistenz

  • Schwerpunkt auf Konstruktion einer Infrastruktur, nicht Innovation

  • offenes Netzwerk - jeder kann beitragen

1.1. Projektstruktur

CLARIN consortium

32 Partner aus 22 europäischen Ländern

CLARIN community

152 Mitgliedsinstitutionen in 32 europäischen Ländern, mit sehr unterschiedlichem Engagement-Niveau

273 Personen (aufgeführt als Mitglieder auf der Webseite)

Finanzierung

ESFRI (4,1 Mio. € für die Vorbereitungsphase), aber (daher) sehr wichtig die nationalen Mittel.

Situation um die Finanzierung von Land zu Land sehr unterschiedlich (zB 1,68 Mio. € für D-SPIN für 36 Monate)

Detaillierte Kostenabschätzung und -planung für die Konstruktionsphase wird eines der wichtigen Ergebnisse der Vorbereitungsphase sein, aber grobe Schätzungen sind:

165 Mio. € Gesamtkosten in einem Zeitrahmen von 10 Jahren, davon ca. 2 bis 10 Mio. für jede der geschätzten 20 nationalen Infrastrukturen (Zentren?) und ca. 45 Mio. € für die paneuropäischen Aufgaben

Table 1. Work Packages

WPTopicCoordinator
WP 1Management and overall coordinationSteven Krauwer (U Utrecht)
WP 2Technical InfrastructurePeter Wittenburg (MPG)
WP 3Humanities OverviewTamás Váradi (RIL, HAS, HU)
WP 5 (WG 5.3 Corpora)LRT OverviewErhard Hinrichs (UTübingen)
WP 6DisseminationDan Cristea (UAIC, RO)
WP 7IPR and Business ModelsKimmo Koskenniemi (UHEL)
WP 8Construction and Exploitation AgreementBente Maegaard (UCPH)

Figure 1. CLARIN Organisationsstruktur (Quelle: http://www.clarin.eu/structure)

CLARIN Organisationsstruktur (Quelle: http://www.clarin.eu/structure)

1.2. Zeitplan

Vorbereitungsphase

2008-2010 (36 Monate)

Ziel ist keine fertige Infrastruktur, aber eine definierte Architektur mit prototypischen Lösungen für Teilprobleme, um

  1. etwas zum Herzeigen zu haben

  2. realistische Abschätzungen des Aufwands und der Kosten für die Konstruktionsphase abgeben zu können

Konstruktionsphase

2011-2015

Exploitationphase, Nutzungsphase

Infrastruktur im Einsatz bis in alle Ewigkeiten

1.3. Produkte bis jetzt

Am aktivsten scheint das WP 2 zu sein

Spezifikationsdokumente

5 ausführliche ausgereifte Dokumente (Deliverables)

clarin.eu/specification-documents

  • Centres

  • Centre Types

  • PID

  • Federation

  • MD-Infrastructure

Data Categories

IMDI und OLAC MD-Sets wurden analysiert (kleine Runde in Athen) und darauf basierend erster Vorschlag für die Data Categories gemacht. Noch im Entwicklungsprozess, offen für Kommentare.

md-datcats-v4-2.pdf

Component Specification Language

ein XML-Schema zum Definieren von MD-Komponenten (durch Verweisen auf Data Categories, oder andere Komponente)

Standards

Eine (breit angelegte) Übersicht über existierende Standards, Empfehlungen zu ihrer Benutzung im Hinblick auf die geplante Handhabung im Rahmen von CLARIN

Standards for LRT-v6.pdf

Resource Inventory

strukturierte Bestandsaufnahme der verfügbaren Ressourcen (WP5)

Resource Taxonomy

Ein Vorschlag einer Taxonomie für Ressourcen, WG 5.3 Deliverable

inoffiziell WP2 kritisch: Nicht brauchbar; neuer Anlauf im Gange

Self-Assessment

Partner, die als Zentren agieren planen (über 30), haben in einer Selbstevaluation (+ Chat mit WP2 Koordinatoren) ihre Situation und Absichten abgeschätzt/beschrieben. Daraus soll sich langsam das Centers Network herauskristallisieren (Sieh: Zentren).

http://www.clarin.eu/forms/clarin-center-self-assessment-checklist

clarin-centers-internal-report-v2.pdf

PID Service

GWDG (eines der Computercenter von MPG) stellt ein PID-Dienst für CLARIN-Mitglieder bereit.

http://handle.gwdg.de:8080/pidservice/

http://handle.gwdg.de/javadocs/

Usage Scenarios

WP5 - WG 5.1 http://www.clarin.eu/wg-51/usage-scenarios

informelle Sammlung von möglichen Nutzerszenarios

Short Guides

http://www.clarin.eu/documents/short-guides kurze Infoblätter zu den zentralen Themen:

Centers, Trust Domain, PID, Long-term Preservation, Virtual Collections, Standards, Component Metadata, Concept Registry

Newsletters

bisher 4, geplant 12: http://www.clarin.eu/newsletter

andere WPs?

Habe wenig Ahnung außerhalb WP 2 und 5

1.4. Wichtige Mitglieder

Gerhard Budin @Transl.Univie.AT

Koordinator und primäre Ansprechperson für CLARIN Österreich; von Anfang an bei der CLARIN-Initiative dabei

Mitglied des ISO/TC37, Vorsitzender des ISO/TC37/SC2 - www.iso.org/tc37, www.tc37sc4.org/

http://transvienna.univie.ac.at/forschung/professuren/dr-gerhard-budin/

Stefan Krauwer @Utrecht University

Vorsitzender des Executive Board

Nicoletta Calzolari @ILC.CNR.IT

Vorsitzende des Scientific Board

Peter Wittenburg @MPI.NL

Koordinator WP2; schon seit Jahren sehr aktiv in Entwicklung von Tools und Standards im LR-Bereich; sehr! aktiv, treibt das Projekt mit allen Kräften voran:

We have to come to a shared vision and work together, coordinated, on the same thing

Daan Broeder@MPI.NL

Chefentwickler bei MPI - IMDI, CMDI

Dieter Van Uytvanck @MPI.NL

Administrator der Webseite, zuständig für Dokumente und Organisatorisches

Martin Wynne@Oxford Text Archive

Gastgeber des WP2-follow-up Workshops (2009-02)

im CLARIN verantwortlich für die Beziehung zu DARIAH und geisteswissenschaflichen Institutionen (humanities organizations)

1.5. Verwandte Projekte / Initiativen

ESFRI

European Strategy Forum on Research Infrastructures, http://www.eubuero.de/arbeitsbereiche/infrastrukturen/esfri

CLARIN Finanzierung auf EU-Ebene, Vertretung in AT: EU-Büro des BMBF

D-SPIN

"deutsches CLARIN", verfügt bereits über eigene nationale Mittel

http://www.sfs.uni-tuebingen.de/dspin/index.shtml

mit dabei: IDS Mannheim, BBAW Berlin, Uni Leipzig, Uni Frankfurt, DFKI Saarbrücken, Uni Stuttgart

konkreter bezüglich Ressourcen für Deutsche Sprache, konzentriert sich auf bottom-up Zugang bei den Web Services - prototypische Implementierungen

D-GRID

http://www.d-grid.de/ - die deutsche GRID-Initiative, gefördert von BMBF

viele community-grid-projekte + Integrationsprojekt; ua:

TextGrid

http://www.textgrid.de/ Modulare Plattform für verteilte und kooperative wissenschaftliche Textdatenverarbeitung

Flarenet

Fostering Language Resources Network http://www.flarenet.eu/ - "gemeinsame Vision und Konsolidierungsstrategie entwickeln"

DAM-LR

Distributed Access Management - Language Resources, http://www.mpi.nl/DAM-LR/

(Pilot)Projekt 2005-2007, versuchte Zusammenschluss mehrerer LR-Anbieter, bei CLARIN: "Lessons learned" - scheint nicht wirklich funktioniert zu haben.

Language Archiving Technology

Infrastruktur und Portal entwickelt und betrieben von MPI.NL, http://www.lat-mpi.eu/

DRIVER

Digital Repository Infrastructure Vision for European Research, driver-repository.eu - European Confederation of Digital Repositories (Bibliotheken?)

LT World

http://www.lt-world.org/ - ontologie-basierter Informationsportal über LT;

soll der Hauptbeitrag von DFKI zu D-SPIN sein.

ELRA

European Language Resources Association http://www.elra.info/ - Veranstalter von LREC, kommerzieller Anbieter von LR;

auch Partner in CLARIN, aber die Gestaltung der Zusammenarbeit mir noch unklar

LIRICS

Linguistic Infrastructure for Interoperable Resource and Systems http://lirics.loria.fr/ - Standardisierung, Normen und Spezifikation für sprachliche Infrastrukturen

DARIAH

Digital Research Infrastructure for the Arts and Humanities http://dariah.eu

eduGAIN

EU-Projekt zielend auf Zusammenschluss zwischen verschiedenen AAI = "federation of federations" http://www.edugain.org

"noch nicht so weit" - CLARIN war die erste Initiative, die sich an eduGAIN gewendet hat

TERENA

Trans-European Research and Education Networking Association http://www.terena.org/ - GRID Technology, AAI, Network Infrastructure

PHAIDRA

Permanent Hosting, Archiving and Indexing of Digital Resources and Assets https://phaidra.univie.ac.at/ - Digital Asset Management System betrieben vom ZID der Uni Wien

ACOnet

http://www.aco.net/ - das österreichische Wissenschaftsnetz, betrieben von ZID der Uni Wien in Kooperation mit anderen Unis und ARZ; Mitglied von TERENA, Teil von dem europäischen Wissenschafts- und Forschungsnetz GÉANT2

2. Zentren

Zentren sind als die tragenden Knoten der Infrastruktur zu verstehen. Es müssen robuste Server-Knoten sein, verwaltet/getragen von seriösen, stabilen Institutionen. Es muss eine möglichst langfristige Festlegung (commitment) mit entsprechender finanzieller Deckung vorhanden sein. (Dies allerdings relativ zu der konkreten Aufgabe die ein Zentrum übernimmt, sieh Kapitel: Zentren Typen)

Figure 2. Die Idee eines Zentren-Netzwerks

Die Idee eines Zentren-Netzwerks

Ein Zentrum bietet verschiedene Dienste an, zu denen sie explizite Angaben über die geplante Verfügbarkeit / Qualität macht. Dies wird vertraglich festgehalten werden (Centers Contract - WP8).

Es muss allerdings klar unterschieden werden zwischen der Beschaffenheit eines Zentrums in der Vorbereitungs- und in der Konstruktionsphase. Während die obige Defintion für die Konstruktionsphase gilt, wo stabile und robuste Dienste erwartet werden, die Investitionen in Serverinfrastruktur und wohl auch zusätzliche Personalressourcen erfordern werden, geht es in der Vorbereitungsphase vor allem um Bekenntnis und Bereitschaft mitzuarbeiten und man wird weitgehend mit vorhandenen Ressourcen auskommen.

Die konkrete Topologie des Netzwerkes ist nicht definiert und soll vor allem am Anfang "organisch wachsen".

Die langfristige Perspektive ist, dass in der Reifephase des Projekts zumindest ein A Zentrum pro Land existiert und ein Mehrfaches davon an B Zentren. Dies wird dann aber wohl das Ergebnis eines mehrjährigen Konsolidierungsprozesses sein, in dem man (regional und thematisch) "unterentwickelte Bereiche" zu fördern versuchen wird, um am Ende eine möglichst breite und ausgewogene Abdeckung zu erreichen.

Es ist nicht vorgesehen, dass CLARIN als eigener Identity Provider auftritt - hierfür sollen existierende, bzw. sich zur Zeit formierende institutionelle und nationale Strukturen (DFN.DE, SWITCH.CH, surfNET.NL, ACOnet-AAI) als E Zentren in die Föderation eingebunden werden.

Ebenso können sich mehrere Zentren grenzenübergreifend einzelne Infrastrukturdienste teilen.

So könnte theoretisch z. B. AAC das primäre MD-Repository Service nicht nur für österreichische sondern auch für mittel- und osteuropäische Institutionen anbieten. Zugleich gäbe es aber auch ein redundantes MD-Repository Service zB in Nijmengen, in Helsinki und in Barcelona.

2.1. Zentren Typen

Die Zentren können nach Art der angebotenen Dienste oder Einbettung in das Projekt / die Infrastruktur charakterisiert werden als:

A Center

Infrastrukturzentrum - zentral für das Funktionieren des Systems, bietet redundant (manche) Dienste notwendig für das Funktionieren des Netzwerks:

PID-Verwaltung, Archivierung, Identity-Provider, Registries, Repositories...

B Center

Service-Provider, ein Zentrum, das konkrete Ressourcen anbietet, Sprachressourcen oder Tools; eventueller Ausfall des Zentrums bedeutet schlimmstenfalls Unerreichbarkeit gewisser Ressourcen, beeinflusst aber nicht das Funktionieren des Gesamtsystems.

C Center

Partner, die nur Metadaten über ihre Ressourcen bereit stellen

R Center

"recognized" - ein anerkanntes Zentrum, das aber nicht in der CLARIN Infrastruktur integriert ist

E Center

externes Zentrum - ist kein CLARIN Mitglied, bietet aber für CLARIN wichtige Dienste an

2.2. Status, konkrete Planung

Basierend auf den Self-assessments, bei denen ca. 30 Partner mitgemacht haben, wurde eine vorläufige Liste von potentiellen Zentren erstellt:

Ca. 20 Partner bekennen sich zur Bildung eines B Centers innerhalb der Vorbereitungsphase, ca. 5 können sich sogar Erstellung eines A Centers vorstellen. Dies sollen die Grundpfeiler der CLARIN Infrastruktur werden. Viele Zentren befinden sich mittendrin in einer Rekonstruktion/Reorganisation des Repository-Systems, bei einigen ist die Finanzierung noch nicht geklärt, bei einigen die Verfügbarkeit der Metadaten. Aktueller Stand: clarin-centers-internal-report-v2.pdf

3. Technologien

Die wichtigen technologischen Konzepte/Prinzipien, auf denen das Projekt aufbauen wird, werden im eigenen Dokument [clarin_technical] vorgestellt, dort werden ebenso relevante Standards und Anwendungen aufgelistet. Hier nur kurze Auflistung, der dort im Detail besprochenen Themen:

PID

Persistente Bezeichner für Ressourcen

Authentifizierungs- und Authorisierungsinfrastruktur (AAI), Federated Identity Management, Federation

Lösung für Verwaltung der Benutzer und des Zugriffs auf Ressourcen in distribuierten Umgebungen

Serviceorientierte Architektur (SOA) und Web Services

Technologie, die eine lose Kopplung zwischen Komponenten/Anwendungen ermöglicht und dadurch eine höhere Flexibilität des Systems verspricht

Workflow Engines, Process Chain

Zusammenschalten von einfacheren Prozessen/Anwendungen zu komplexeren Prozessabfolgen, was die Automatisierung von Aufgaben ermöglicht

Grid Computing

Hardware und Software Infrastruktur, um aus einem lose verbundenen Netzwerk von Computern einen "virtuellen Supercomputer" zu erstellen.

Metadaten Infrastruktur

CLARIN Metadaten Infrastruktur (CMDI) wird das technische Herzstück von CLARIN sein. Es wird die Erstellung, Verwaltung von und Zugriff auf die Metadaten ermöglichen.

4. Oxford Workshop

Gastgeber: Oxford University Computing Services (u.a. Träger der Oxford Text Archives)

4.1. AAI (2009-02-25)

Sebastian Rieger, Matthias Egger, Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen, Deutschland - MPG-AAI Erfahrungsbericht, sehr technisch. Agenda:

  • generell über AAI (Authentifizierungs- und Autorisierungs- Infrastruktur)

  • Vorstellung von SAML

  • Erklärung attribut-basierte Authorisierung

  • Shibboleth - Installation + Konfiguration im Detail durchgemacht (basierend auf einem VM-Image)

  • Fallbeispiel: SURFnet (NL) - simpleSAMLphp (Alternative zu Shibboleth)

4.2. WP2-follow-up (2009-02-26/27)

http://www.clarin.eu/events/wp2-follow-up-workshop (verweist auf alle Präsentationen)

Agenda:

  1. Centers Network (Peter Wittenburg)

    • Ergebnisse der Self-Assessments

    • Commitments - Wer ist wie weit und kann wann was machen?

  2. Föderation - Zusammenfassung des AAI-Workshops, Vorstellung PID (Dieter Van Uytvanck)

  3. Metadata Architecture and Infrastructure (Peter Wittenburg)

    • Vorstellung: ISOcat - ISO TC37 (Marc Kemps-Snijders)

    • Diskussion: concept vs. category

    • Vorstellung der MD-Infrastruktur (Daan Broeder)

    • Einteilung in Module (Daan Broeder)

    • Verteilung der Arbeit: Core (MPI.NL) + die restlichen Module (braucht Freiwillige)

  4. Web Services (Núria Bel)

    • existierende Tools in WS umwandeln + Bottom-up test cases

    • Komposition/Packaging (atomare oder komplexe Dienste?)

    • Fragen: Wohin kommen die MD für WS? Was kommt rein?

    • Vorstellung "Pivot Model" (Marc Kemps-Snijders)

  5. Fallbeispiele (Prototypen für Web Services)

    Peter Wittenburg: “dont reinvent the wheel, coordinate with others (eg Sheffield)

    • RACAI, Rumänien

    • BBAW, Berlin (DWDS, Deutsches Text Archiv (aktives Archiv = Bentuzer können annotieren, C4 - DDC-basiert, XML-RPC basierte Dienste)

    • UPF WS, Barcelona

    • Prototypische Workflows, Lepizig + Tübingen

Antwort auf die ewige Frage bezüglich Copyright: “WP7!

5. informeller Austausch

in Oxford:

Prof. Budin@Transl, Univie

Möglichkeiten in Österreich: aco.net, PHAIDRA - Infrastruktur praktisch abgedeckt;

positiv zu Zukunft und Rolle von AAC in CLARIN

Erklärung zu DCR und Relations Registry: many ontology registries already exist, relation registry and ontologies are two completely separated concepts.

Daan Broeder@MPI.NL

Architektonische Details der MD-Infrastruktur

Erfahrungen mit IMDI und anderen Tools entwickelt am MPI.NL

Möglichkeiten der Zusammenarbeit bei Entwicklung der MD-Infrastruktur (funktionelle Spezifikation, Entwicklung einzelner Module)

Peter Wittenburg @MPI.NL

Weiß dank der Gespräche mit Kandidaten für Zentren gut Bescheid über die konkreten (finanziellen) Situationen einzelner Mitglieder und hat entsprechende Erwartungen bezüglich aktiver Zusammenarbeit ( "I have hopes!")

Kai Zimmer@BBAW

C4 - Daten Bereitstellung - alles bereit

C4 - Vorschlag des neues User Interfaces

neues User Interface in Berlin - kommt in nächsten Tagen online

BBAW plant Einsatz von AAI (diesbezüglich sondieren)

Volker Boehle@Uni Leipzig, Thomas Zhastrow @Uni Tübingen

Erfahrungen mit Web Services in aktueller Initiative im Rahmen von D-SPIN / WG 2.7. Bottom-up Entwicklung: konkrete Web Services prototypisch implementieren, um zu sehen, wo die Probleme, Flaschenhälse usw. sind. Momentant Probleme mit Performance, größeren Daten.

vor Oxford:

Peter Wittenburg @MPI.NL (2008-10, eScience-Workshop, Berlin)

Nationale Konsortien bilden, nationale Mittel akquirieren

Nicoletta Calzolari @ILC.CNR.IT (2008-11, AAC Advisory Board Meeting, Vienna)

Mitmachen beim Definieren von Usage Scenarios

Unmut wegen der Asymmetrien im Einsatz einzelner Mitglieder: Einerseits ein sehr aktiver Kern, der den Ton angibt und auf der anderen Seite viele eher passive Mitglieder, die abwarten und nicht zu der Entwicklung beitragen. (ed: Allerdings kann man das auch als eine natürliche Entwicklung sehen, bedingt durch die verfügbaren Ressourcen der einzelnen Mitglieder. Auch ist eine gewisse vorsichtige Zurückhaltung bei neuen Mitgliedern nachvollziehbar.)

Dieter Van Uytvanck @MPI.NL (2008-12, CLARIN.AT Meeting, Vienna)

Bitte um Mitarbeit: veröffentlichte Spezifikationsdokumente lesen und kommentieren.

6. Ausblick

Die nächsten Schritte (in den nächsten Wochen, Monaten), wie sie in Oxford vorgestellt wurden:

  • offizielle Email an Entscheidungsträger bzgl. Zeitangaben für:

    • Metadaten-Bereitstellung im existierenden Schema / mittels OAI-PMH

    • bereit für AAI (Shibboleth aufsetzen)

    • Pläne PID-System zu testen

    • bereit für Zugang zu Ressourcen (technisch, nicht rechtlich)

    • Wer braucht Hilfe bezüglich was?

  • Gespräche mit TERENA/eduGAIN zwecks Integration der Föderation

  • bereits verwendbare Dienste aus dem Inventory extrahieren (einige Beispiele wurden während des Workshops präsentiert)

  • PID-Dienst stabil im Sommer

  • Data Categories müssen definiert und übersetzt werden - Freiwillige werden gebraucht - ISO Standardisierungsprozess

  • Metadata-Infrastruktur - braucht viel Mitarbeit, Implementierung wird jetzt gerade angefangen:

    • Core + restliche Module

    • ISOcat - Data Category Registry - soll bei MPI in erster Version in April bereit sein, im Sommer eine stabilere Version

    • Dekonstruieren existierender MD-Sets (IMDI, OLAC, TEI), Abbilden auf die neuen MD-Komponenten

  • Web Services:

    MD für die Dienste, Ressourcen, Pivot Model, Sample Transformers

  • Abschätzung der praktischen Kosten (Server aufsetzen, betreiben) aus gesammelten Fallbeispielen

  • WP5 - geplant, momentan werden Arbeitsgruppen gebildet für:

    BLARK Definition, LR Taxonomie, LR Integration in Web Services Infrastructure

Termine:

CLARIN Consortium meeting and Workshops

2009-05-11/13, Barcelona

http://www.clarin.eu/events/clarin-consortium-meeting-and-workshops

NEERI09 Event (?)

2009-09, Helsinki

CLARIN wird anderen Gemeinschaften präsentiert (GRID, ...)

Networking, Suchen nach Möglichkeiten der Zusammenarbeit, Interaktion

e-Humanities workshop at 5th IEEE International Conference on e-Science

2009-12-09/11, Oxford http://www.clarin.eu/events/e-humanities-workshop-at-5th-ieee-international-conference-on-e-science

"politisch wichtig"

Call for papers: excellent research in humanities thanks to access to electronical resources

7. CLARIN Österreich und die Rolle von AAC

Der Koordinator von CLARIN-Aktivitäten in Österreich ist Prof. Budin vom Institut für Translationswissenschaften an der Uni Wien.

Das nationale österreichische CLARIN-Konsortium ist im Entstehen begriffen. Prof. Budin organisierte ein erstes Vorstellungsmeeting im Dezember 2008, an dem CLARIN vorgestellt wurde und Vertreter mehrerer österreichischen sprachwissenschaftlichen Institutionen ihre aktuellen Projekte präsentiert haben, ua Karlheinz Mörth, Hanno Biber (AAC), Rudolf Muhr (Uni Graz), Harald Trost (CBR, MedUniWien), Werner Winiwarter (Fakultät für Informatik, Uni Wien).

Es gibt auch Kontakte zu Prof. A Min Tjoa (IFS, TU Wien).

Eine eigene Webseite (clarin.at) zu Koordination und Information ist geplant, sowie eine entsprechende Mailing-Liste.

Primäres Ziel von CLARIN.AT ist es, die Sprachressourcen der einzelnen Mitglieder in die Infrastruktur zu integrieren. Zu darüberhinausgehenden Möglichkeiten sieh folgende Kapitel.

TU Wien und hoffentlich auch ZID der UniWien und ARZ wären naturgemäß bei dem technischen Aspekt involviert. Die konkreten Kompetenzen und überhaupt Festlegung zu Mitarbeit sind noch auszuverhandeln.

7.1. Möglichkeiten zur Mitarbeit

Es gibt verschiedene Formen der Mitarbeit bei CLARIN:

Sprachressourcen bereitstellen

Wobei man die eigentlichen Ressourcen erst später und dann jederzeit bereitstellen kann (B-Zentrum). Momentan würde auch nur die Bereitstellung der Metadaten (im vorgeschriebenen Format) reichen (C-Zentrum). Oder zumindest Einträge in das Resource Inventory (R-Zentrum). Es gibt noch keine Einträge aus Österreich in dem Resource Inventory. Dies ist zwar nicht notwendig, aber sehr wünschenswert, um Präsenz zu zeigen.

Tools anbieten

Analog wie bei Sprachressourcen

Infrastrukturdienste anbieten = A Zentrum

Da A Zentren kritische Dienste für das gesamte CLARIN Netzwerk anbieten, werden sie auch entsprechende Aufmerksamkeit genießen. Zugleich trägt man aber auch eine große Verantwortung. Es ist höchst erstrebenswert, in Österreich zumindest ein A Zentrum entstehen zu lassen, wobei angesichts der momentan vorhandenen Ressourcen (sieh weiter unten: ACOnet, PHAIDRA) sinnvoller erscheint, sich die Arbeit zu teilen und evtl. mehrere kooperierende A Zentren anzulegen, die spezifische komplementäre Infrastrukturdienste anbieten.

Bei der Entwicklung mitarbeiten

Da CLARIN ein Konstruktionsprojekt ist, werden viele Entwicklerpersonenmonate benötigt und momentan scheint dieser Bereich stark unterbesetzt zu sein. Mitarbeit ist möglich auf allen Ebenen (Analyse, Entwurf, Programmieren, Testen, Dokumentieren), konkrete sich formierende Projekte wären momentan:

  • einzelne Module der Metadaten-Infrastruktur

  • Web Services, Work Flow Engine

7.2. In Österreich Vorreiterrolle wagen

Bei der Centers Diskussion in Oxford klang Prof. Budin zuversichtlich, dass Österreich bereits in der ersten Phase aktiv dabei sein wird. Es scheint aber noch eher unklar zu sein, wer konkret diese Zentren mit welchem Diensteangebot betreiben soll. Kooperation / Integration bietet sich an und wäre sehr ratsam, müsste aber auf institutioneller Ebene ausverhandelt werden. Auf jeden Fall ist die bereits vorhandene Infrastruktur zu berücksichtigen und mitzudenken:

ACOnet -Austrian Academic Computer Network

verwaltet vom ZID der Uni Wien (und anderen Unis), bietet eine gute technische Grundlage: Bereits Shibboleth System im Einsatz (ACOnet-AAI) + Registration Authority für SSL Server-Zertifikate

PHAIDRA

Digital Asset Management System der Uni Wien mit Langzeitarchivierungsfunktionen und PID-Vergabe

Hier zwei konkrete Szenarios, die innerhalb der Vorbereitungsphase realisierbar erscheinen:

Example 1. Abfrage des MD-Repository

Ein priviligiertes Uni-Mitglied (z.B. Herr Budin) kann mit seinen Uni-Login-Daten über das AAC Repository Service in Erfahrung bringen, was es in CLARIN zur Zeit bereits an verfügbaren Ressourcen gibt.

Example 2. Registrieren einer Ressource

Ein Uni-Benutzer (oder Akademie-Benutzer) kann seine Sprachressource in einem CLARIN MD-Repository registrieren, indem er beim Repository Service Metadaten über gegebene Ressource in eine web-basierte Eingabemaske angibt.

Die Akteure:

  • ZID oder ARZ im Rahmen des ACOnet-AAI als Identity Provider.

  • AAC als Service Provider für den Infrastruktur-Dienst: MD-Repository Service

  • möglicherweise ein ausländisches A Zentrum (z.B. MPI.NL), das das MD-Repository verwaltet, beherbergt.

  • Test-Benutzer mit einem Account bei der Uni Wien (z.B. Mitglieder des Instituts für Translationswissenschaften) oder der Akademie

Diese Szenarios würden als Proof of Concept für gelungene Einbindung der Akteure und auch als eine gute Basis für weiteren Ausbau in der Konstruktionsphase dienen. Sie würden keine außerordentlichen Investitionen erfordern, außer der Bereitstellung eines beliebig sparsam ausgestatteten Computers und Personen, die sich in den beteiligten Institutionen mit überschauberem Zeitvolumen (bei weitem keine ganzen Personenstellen notwendig) um die Konfiguration kümmern würden. Der entscheidende Faktor bei dieser Unternehmung wäre in dieser Phase die Bekenntnis zu Kooperation in den Führungsebenen der beteiligten Institutionen.

Es erscheint ratsam, aktiv in der Vorbereitungsphase zu sein, da man wichtige Vorarbeit leistet und sich mit relativ bescheidenem Aufwand gute Position für die Konstruktionsphase sichern kann.

7.3. Zu Rolle des AAC

Primär erwartet man von AAC natürlich die Rolle eines Content (und evtl. Tool) Providers, dh:

  • möglichst früh zumindest die Metadaten veröffentlichen, um als C Zentrum zu gelten und

  • mittelfristig B Zentrum Status anstreben, indem die eigentlichen Ressourcen verfügbar gemacht werden.

  • Davon unabhängig könnte sich AAC als A Zentrum profilieren und gewisse Infrastruktur-Dienste übernehmen (Sieh voriges Kapitel); hierfür ist angesichts der Diskrepanz zwischen der zu erbringenden Ausfallssicherheit und der verfügbaren Ressourcen von AAC die Möglichkeit und Notwendigkeit einer Kooperation mit ARZ zu bedenken und zu überprüfen. Generell soll ein A Zentrum eine möglichst solide institutionelle Verankerung genießen, um eine entsprechende langfristige stabile Perspektive zu gewährleisten.