Linguistic Linked Open Data

Nell'ambito dell’elaborazione del linguaggio naturale, in linguistica e campi di ricerca attigui, Linguistic Linked Open Data (LLOD) descrive sia un metodo che una comunità multidisciplinare che si occupa di creare, condividere e (ri)utilizzare risorse linguistiche sviluppate secondo i principi dei dati collegati (linked data). La Linguistic Linked Open Data Cloud, sviluppata e sostenuta dal gruppo di lavoro Open Linguistics Working Group (OWLG) della Open Knowledge Foundation (in italiano Fondazione per la conoscenza aperta), ha rappresentato, sin dalla nascita, il centro focale delle attività di diversi gruppi delle comunità afferenti al W3C, di progetti di ricerca e dello sviluppo di infrastrutture.

Definizione e sviluppo[modifica | modifica wikitesto]

LLOD Cloud 2020

Con l’espressione Linguistic Linked Open Data si indica la pubblicazione di dati linguistici e per l'elaborazione del linguaggio naturale secondo i seguenti principi:[1]

  • i dati devono essere licenziati in maniera libera, usando licenze come le licenze Creative Commons.
  • gli elementi di un dataset devono essere identificati in maniera univoca attraverso un URI.
  • l’URI dovrebbe poter essere risolto, così che gli utenti possano accedere ad un numero maggiore di informazioni attraverso un browser web.
  • La risoluzione di una risorsa LLOD dovrebbe restituire dei risultati utilizzando il Resource Description Framework (RDF).
  • I collegamenti (link) ad altre risorse devono essere inclusi per aiutare gli utenti a scoprire nuove risorse e fornire informazioni semantiche.

I principali benefici derivanti dall’applicazione dei principi LLOD sono stati identificati da:[2]

  • Rappresentazione: I grafi connessi sono un formato rappresentativo più flessibile per i dati linguistici.
  • Interoperabilità: i modelli RDF comuni e condivisi sono facilmente integrabili.
  • Federazione: i dati provenienti da differenti sorgenti possono essere combinati agevolmente.
  • Ecosistema: La disponibilità di strumenti e ambienti di trattamento dei dati in formato RDF e connessi, rilasciati con una licenza di uso open source.
  • Espressività: I diversi vocabolari esistenti per la rappresentazione dei dati garantiscono una maggiore espressività delle risorse linguistiche.
  • Semantica: Link ordinary esprimono il significato.
  • Dinamicità: I dati Web possono essere continuamente migliorati.

La rappresentazione della LLOD cloud è visionabile su linguistic-lod.org[3].

Vocabolari LLOD[modifica | modifica wikitesto]

Oltre a raccogliere metadata e generare il diagramma della cloud LLOD, la comunità LLOD guida lo sviluppo di standard comunitari in riferimento alla creazione di raccomandazioni per i vocabolari, per i metadati e le best practices.

Secondo la panoramica dello stato dell’arte proposta da Cimiano et al. (2020),[4] queste raccomandazioni includono:

  • per la modellazione di risorse lessicali
    • OntoLex-Lemon, standard comunitario per risorse lessicali (dizionari in format leggibile dale machine, terminologie multilingui, lessicalizzazione di ontologie)[5]
  • per la modellazione di annotazioni linguistiche (nei corpora o nell’elaborazione del linguaggio naturale)
    • Web Annotation, uno standard W3C per l’annotazione di risorse Web (testuali e non solo)[6]
    • NLP Interchange Format (NIF), uno standard comunitario per l’annotazione grammaticale dei testi[7]
    • CoNLL-RDF, un vocabolario basato su NIF per la rappresentazione in RDF dei corpora in format TSV ("CoNLL")[8]
    • POWLA, un vocabolario per le strutture dei dati linguistici generali che può integrare NIF, CoNLL-RDF o Web Annotation[9]
  • per le categorie dei dati linguistici
  • per l’identificazione della lingua
  • per i metadata
    • Dublin Core, uno standard comunitario di termini che possono essere utilizzati per descrivere risorse Web
    • Data Catalog Vocabulary (DCAT), uno standard W3C per i cataloghi di dati pubblicati sul Web[13]
    • METASHARE-OWL, vocabolario per I metadata delle risorse linguistiche[14]

A partire dalla metà del 2020, molti di questi standard comunitari sono diventati oggetto di diverse attività. In particolare, l’esistenza di molteplici standard per le annotazioni linguistiche che risultano incompatibili tra di loro appare problematica. All’inizio del 2020, la W3C Community Group Linked Data for Language Technology ha iniziato a lavorare per consolidare e uniformare questi (e altri) vocabolari per l’annotazione linguistica sul Web.[15]

Comunità[modifica | modifica wikitesto]

Il diagramma della LLOD cloud è curato dal gruppo di lavoro Open Linguistics Working Group (OWLG) della Open Knowledge Foundation (dal 2014 Open Knowledge, in italiano Fondazione per la conoscenza aperta), un gruppo aperto e interdisciplinare di esperti in risorse linguistiche.

La comunità OWLG organizza eventi e coordina lo sviluppo dei LLOD, facilitando la comunicazione interdisciplinare tra coloro che contribuiscono ai LLOD e tra questi e gli utenti. Diversi gruppi Business and Community del W3C si focalizzano su aspetti specialistici dei LLOD:

  • Il W3C Ontology-Lexica Community Group (OntoLex) sviluppa e mantiene le specifiche per I dizionari machine-readable (in formato leggibile dalla macchina) nella cloud LLOD.
  • Il W3C Best Practices for Multilingual Linked Open Data Community Group raccoglie informazioni sulle best practices per produrre linked open data multilingui.[16]
  • La W3C Linked Data for Language Technology Community Group raccoglie casi d’uso e I requisiti per le applicazioni relative alle tecnologie del linguaggio che usano Linked Data.[17]

Lo sviluppo dei LLOD è portato avanti e documentato in una serie di workshop internazionali, datathon e relative pubblicazioni. Tra le altre, sono incluse le seguenti:

  • Linked Data in Linguistics (LDL), workshop scientifico annuale, iniziato nel 2012
  • Multilingual Linked Open Data for Enterprises (MLODE), meeting di community biennale (2012 and 2014)
  • Summer Datathon on Linguistic Linked Open Data (SD-LLOD), datathon biennale, dal 2015

Impiego dei LLOD[modifica | modifica wikitesto]

I Linguistic Linked Open Data sono stati applicati in diverse aree di ricerca scientifica: In tutte le aree della linguistica empirica, della filologia computazionale e nell’elaborazione del linguaggio naturale, l’annotazione linguistica e l’utilizzo di markup (in italiano marcature) linguistici rappresentano un elemento centrale di analisi. Tuttavia, il progresso in tale campo è stato ostacolato dal problema dell’interoperabilità, soprattutto a causa delle differenze nei vocabolari e negli schemi di annotazione usati per differenti risorse e strumenti. L’uso dei Linked Data per connettere le risorse linguistiche e le banche dati di ontologie/terminologia facilita il ri-uso di vocabolari condivisi e l’interpretazione degli stessi rispetto ad una base comune.

  • Nella linguistica dei corpora e nella filologia computazionale, la sovrapposizione delle marcature rappresenta un problema riconosciuto per i formati XML. Per questo motivo, modelli di dati basati sui grafi sono stato proposti a partire dalla fine degli anni ’90.[18] Tali modelli sono tradizionalmente rappresentati attraverso molteplici file XML interconnessi (standoff XML),[19] che non sono adeguatamente supportati dalla tecnologia XML standard.[20] Modellare tali complesse annotazioni come Linked Data rappresenta un formalismo semanticamente equivalente all’utilizzo dell’XML (standoff XML),[21] che elimina il bisogno di una tecnologia specifica (special purpose technology) e, invece, si basa sull’esistente ecosistema RDF.
  • Problemi relativi al multilinguismo, incluso il collegamento di risorse lessicali come nel caso di WordNet nell'indice interlinguale della Global WordNet Association e l'interconnessione di risorse eterogenee come WordNet e Wikipedia, come è stato fatto in BabelNet.
  • Favorire il dibattito sulla standardizzazione delle informazioni relative alle risorse linguistiche.

I Linguistic Linked Open Data sono strettamente connessi con lo sviluppo di:

Progetti di ricerca[modifica | modifica wikitesto]

Usi e sviluppo dei LLOD sono stati oggetto di progetti di ricerca europei su larga scala, inclusi:

  • LOD2. Creating Knowledge out of Interlinked Data (11 paesi europei + Korea, 2010–2014)[22]
  • MONNET. Multilingual Ontologies for Networked Knowledge (5 paesi europei, 2010–2013)[23]
  • LIDER. Linked Data as an enabler of cross-media and multilingual content analytics for enterprises across Europe (5 paesi europei, 2013–2015)[24]
  • QTLeap. Quality Translation by Deep Language Engineering Approaches (6 paesi europei, 2013–2016)[25]
  • LiODi. Linked Open Dictionaries (BMBF eHumanities Early Carreer Research Group, Goethe University Frankfurt, Germany, 2015-2020)[26]
  • FREME. Open Framework of E-Services for Multilingual and Semantic Enrichment of Digital Content (6 paesi europei, 2015-2017)[27]
  • POSTDATA. Poetry Standardization and Linked Open Data (ERC Starting Grant, UNED, Spain, 2016-2021)[28]
  • Linking Latin (ERC Consolidator Grant, Universita Cattolica del Sacro Cuore, Italy, 2018-2023)[29]
  • Pret-a-LLOD (5 paesi europei, 2019-2021)[30]
  • NexusLinguarum. European network for Web-centred linguistic data science (COST Action, 35 paesi COST, 2 paesi vicini, un paese partner internazionale, 2019-2023)[31]

Risorse[modifica | modifica wikitesto]

A partire da ottobre 2018, le dieci risorse maggiormente connesse nel diagramma LLOD sono (in base al numero di dataset connessi):

  • Ontologies of Linguistic Annotation (OLiA, connesse con 74 dataset) riferimento terminologico per le annotazioni linguistiche e I metadata grammaticali;
  • WordNet (connesso con 51 dataset), database lessicale per l’inglese e fulcro per lo sviluppo di database simili in altre lingue, con diverse versioni (la versione di Princeton connessa con 36 dataset; la versione W3C connessa con 8 dataset; la versione VU connessa con 7 dataset);
  • DBpedia (connessa con 50 dataset) base di conoscenza multilingue basata su Wikipedia;
  • lexinfo.net (connesso con 36 dataset) riferimento terminologico per risorse lessicali;
  • BabelNet, realizzato da Roberto Navigli presso L'Università degli Studi di Roma "La Sapienza", (connesso con 33 dataset) semantic network multilingue lessicalizzato, basato sulla aggregazione di risorse diverse ed eterogenee risorse, tra cui WordNet e Wikipedia;
  • lexvo.org (connesso con 26 dataset) fornisce identificativi per le lingue e altri dati relative alle lingue. Soprattutto, lexvo fornisce una rappresentazione RDF dei codici a 3 lettere dell’ISO 639-3 per gli identificativi delle lingue e delle informazioni su queste lingue;
  • L’ISO 12620 Data Category Registry (ISOcat; versione RDF, connesso con 10 dataset) fornisce un archivio semi-strutturato per diversa terminologia relativa alle lingue. ISOcat è ospitato da The Language Archive, precisamente dal progetto DOBES, presso il Max Planck Institute for Psycholinguistics, ma attualmente in transizione verso CLARIN;
  • UBY (versione RDF lemon-Uby, connesso con 9 dataset), un network lessicale per l’inglese, aggregazione di varie risorse lessicali;
  • Glottolog (connesso con 7 dataset) fornisce identificativi a grana fine di lingue meno diffuse, in particolare quelle non comprese in lexvo.org;
  • Wiktionary-DBpedia links (wiktionary.dbpedia.org, linked with 7 datasets), Wiktionary-based lexicalizations for DBpedia concepts.

Note[modifica | modifica wikitesto]

  1. ^ Open Linguistics Working Group, Linguistic LOD, su linguistic-lod.org, LIDER project. URL consultato il 24 maggio 2016.
  2. ^ Christian Chiarcos, John McCrae, Philipp Cimiano e Christiane Fellbaum, Towards open data for linguistics: Lexical Linked Data (PDF), Heidelberg, In: Alessandro Oltramari, Piek Vossen, Lu Qin, and Eduard Hovy (eds.), New Trends of Research in Ontologies and Lexical Resources. Springer, 2013. URL consultato il 24 maggio 2016 (archiviato dall'url originale il 15 febbraio 2016).
  3. ^ Linguistic Linked Open Data. Information about the current status of the growing cloud of linguistic linked open data., su linguistic-lod.org. URL consultato il 10 dicembre 2019.
  4. ^ (EN) Philipp Cimiano, Christian Chiarcos, John P. McCrae e Jorge Gracia, Linguistic Linked Data: Representation, Generation and Applications, Springer International Publishing, 2020, ISBN 978-3-030-30224-5.
  5. ^ Lexicon Model for Ontologies: Community Report, 10 May 2016, su w3.org. URL consultato il 5 giugno 2020.
  6. ^ Deliverables of W3C’s Web Annotation Working Group, su w3c.github.io. URL consultato il 5 giugno 2020.
  7. ^ (EN) Sebastian Hellmann, Jens Lehmann, Sören Auer e Martin Brümmer, Integrating NLP Using Linked Data, in Harith Alani (a cura di), The Semantic Web – ISWC 2013, Lecture Notes in Computer Science, Berlin, Heidelberg, Springer, 2013, pp. 98–113, DOI:10.1007/978-3-642-41338-4_7, ISBN 978-3-642-41338-4.
  8. ^ (EN) Christian Chiarcos e Christian Fäth, CoNLL-RDF: Linked Corpora Done in an NLP-Friendly Way, in Jorge Gracia (a cura di), Language, Data, and Knowledge, Lecture Notes in Computer Science, Cham, Springer International Publishing, 2017, pp. 74–88, DOI:10.1007/978-3-319-59888-8_6, ISBN 978-3-319-59888-8.
  9. ^ (EN) Christian Chiarcos, POWLA: Modeling Linguistic Corpora in OWL/DL, in Elena Simperl (a cura di), The Semantic Web: Research and Applications, Lecture Notes in Computer Science, Berlin, Heidelberg, Springer, 2012, pp. 225–239, DOI:10.1007/978-3-642-30284-8_22, ISBN 978-3-642-30284-8.
  10. ^ (EN) Christian Chiarcos e Maria Sukhareva, OLiA – Ontologies of Linguistic Annotation, in Semantic Web, vol. 6, n. 4, 1º gennaio 2015, pp. 379–386, DOI:10.3233/SW-140167, ISSN 1570-0844 (WC · ACNP).
  11. ^ (EN) P. Cimiano, P. Buitelaar, J. McCrae e M. Sintek, LexInfo: A declarative model for the lexicon-ontology interface, in Journal of Web Semantics, vol. 9, n. 1, 1º marzo 2011, pp. 29–51, DOI:10.1016/j.websem.2010.11.001, ISSN 1570-8268 (WC · ACNP).
  12. ^ (EN) Gerard de Melo, Lexvo.org: Language-related information for the Linguistic Linked Data cloud, in Semantic Web, vol. 6, n. 4, 1º gennaio 2015, pp. 393–400, DOI:10.3233/SW-150171, ISSN 1570-0844 (WC · ACNP).
  13. ^ (EN) Data Catalog Vocabulary (DCAT) - Version 2, su w3.org. URL consultato il 5 giugno 2020.
  14. ^ (EN) John P. McCrae, Penny Labropoulou, Jorge Gracia, Marta Villegas, Víctor Rodríguez-Doncel e Philipp Cimiano, One Ontology to Bind Them All: The META-SHARE OWL Ontology for the Interoperability of Linguistic Datasets on the Web, in Fabien Gandon (a cura di), The Semantic Web: ESWC 2015 Satellite Events, Lecture Notes in Computer Science, Cham, Springer International Publishing, 2015, pp. 271–282, DOI:10.1007/978-3-319-25639-9_42, ISBN 978-3-319-25639-9.
  15. ^ ld4lt/linguistic-annotation, ld4lt, 19 maggio 2020. URL consultato il 5 giugno 2020.
  16. ^ Best Practices for Multilingual Linked Open Data Community Group, su w3.org. URL consultato il 9 dicembre 2019.
  17. ^ Linked Data for Language Technology Community Group, su w3.org. URL consultato il 9 dicembre 2019.
  18. ^ Steven Bird e Mark Liberman, Towards a formal framework for linguistic annotations (PDF), su ldc.upenn.edu, In: Proceedings of the International Conference on Spoken Language Processing, Sydney, 1998. URL consultato il 25 maggio 2016.[collegamento interrotto]
  19. ^ ISO 24612:2012, Language resource management -- Linguistic annotation framework (LAF), su iso.org, ISO. URL consultato il 25 maggio 2016.
  20. ^ Richard Eckart, Choosing an XML database for linguistically annotated corpora, SDV. Sprache und Datenverarbeitung 32.1/2008: International Journal for Language Data Processing, Workshop Datenbanktechnologien für hypermediale linguistische Anwendungen (KONVENS 2008), Universitätsverlag Rhein-Ruhr, Berlin, Sep 2008, 2008, pp. 7–22.
  21. ^ Christian Chiarcos, Interoperability of Corpora and Annotations (draft version) (PDF), su acoli.cs.uni-frankfurt.de, In: Christian Chiarcos, Sebastian Nordhoff, and Sebastian Hellmann (eds.) Linked Data in Linguistics. Representing and Connecting Language Data and Language Metadata, 2012. URL consultato il 25 maggio 2016 (archiviato dall'url originale il 10 maggio 2017).
  22. ^ lod2.okfn.org (archived version), su lod2.okfn.org. URL consultato il 9 dicembre 2019 (archiviato dall'url originale il 7 marzo 2014).
  23. ^ Multilingual Ontologies for Networked Knowledge (Monnet), su cordis.europa.eu, European Commission, CORDIS EU research results. URL consultato il 10 dicembre 2019.
  24. ^ LIDER: Linked Data as an enabler of cross-media and multilingual content analytics for enterprises across Europe, su cordis.europa.eu, European Commission, CORDIS EU research results. URL consultato il 10 dicembre 2019.
  25. ^ Quality Translation by Deep Language Engineering Approaches, su cordis.europa.eu, European Commission, CORDIS EU research results. URL consultato il 10 dicembre 2019.
  26. ^ Linked Open Dictionaries (LiODi), su acoli.informatik.uni-frankfurt.de. URL consultato il 10 dicembre 2019 (archiviato dall'url originale il 17 gennaio 2020).
  27. ^ Open Framework of E-Services for Multilingual and Semantic Enrichment of Digital Content, su cordis.europa.eu. URL consultato il 10 dicembre 2019.
  28. ^ POSTDATA – Poetry Standardization and Linked Open Data, su postdata.linhd.uned.es. URL consultato il 10 dicembre 2019.
  29. ^ Linking Latin. Building a Knowledge Base of Linguistic Resources for Latin, su cordis.europa.eu. URL consultato il 10 dicembre 2019.
  30. ^ Pret-a-LLOD project home page, su pret-a-llod.eu. URL consultato il 10 dicembre 2019. Pret-a-LLOD, su cordis.europa.eu, European Commission, CORDIS EU research results. URL consultato il 10 dicembre 2019.
  31. ^ CA18209 - European network for Web-centred linguistic data science, su cost.eu, cost. European Cooperation in Science and Technology. URL consultato il 10 dicembre 2019.