Tagmatica

Un article de Wikipédia, l'encyclopédie libre.

Tagmatica
logo de Tagmatica

Création Voir et modifier les données sur Wikidata
Personnages clés Gil Francopoulo
Forme juridique SASU
Siège social Paris
Drapeau de la France France
Activité Exploration de données
Traitement automatique du langage naturel
Reconnaissance d'entités nommées
Logiciel
Fouille de textes
Standardisation
Produits TagParser (18 langues européennes)
SIREN 828193961[1]Voir et modifier les données sur Wikidata
Site web www.tagmatica.com [1]

Tagmatica est une société française spécialisée dans l'informatique documentaire et linguistique. Elle a été fondée en 2002 par Gil Francopoulo qui est l'auteur de la norme ISO des dictionnaires électroniques LMF.

Histoire[modifier | modifier le code]

La société Tagmatica, crée le a été dissoute le [2].

Une autre société (avec le nom Tagmatica SAS) a été immatriculée le [3].

Activités[modifier | modifier le code]

Les activités sont la standardisation, les dictionnaires, les analyseurs morphologiques, syntaxiques et sémantiques des langues, la détection de langue et le calcul automatique de thématiques.

Contexte[modifier | modifier le code]

La majeure partie de la connaissance étant formulée sous forme de textes, il s'agit de les traiter automatiquement pour en obtenir les structures syntaxiques, les entités nommées, les citations et/ou des indicateurs numériques qui synthétisent le corpus.
Au niveau syntaxique, alors que la plupart des acteurs se limitent à l'application de règles de filtrage par motif sur de petits fragments de phrases, les outils de Tagmatica réalisent des analyses syntaxiques complètes (sur certaines langues) afin de détecter à la fois les attachements de courte, mais aussi ceux de longue distance. Ces derniers sont difficiles à traiter et posent de sérieux problèmes aux outils datant d'une dizaine d'années. Le défi était de mettre au point des outils rapides et robustes pour analyser des dizaines de millions de mots dans un temps raisonnable.
Au niveau sémantique, l'analyse utilise une base de connaissances multilingues comportant 600 000 termes qui est structurée selon une ontologie d'un millier de types[4].

Langues traitées[modifier | modifier le code]

L'analyseur développé par Tagmatica s'appelle TagParser. Il effectue une analyse linguistique complète (dont les entités nommées) pour le français, l'anglais et l'espagnol. Une détection des entités nommées est réalisée pour l'allemand, le danois, le grec, l'italien, le letton, le lituanien, le maltais, le néerlandais, le polonais, le portugais, le roumain, le slovaque, le slovène, le suédois et le tchèque. Le nombre de langues traitées est donc au total de 18 langues européennes.

Utilisation[modifier | modifier le code]

TagParser est un logiciel utilisé depuis plusieurs années par les services de la Commission européenne pour aider à élaborer les revues de presse.

Respect des standards[modifier | modifier le code]

Ayant participé à l'élaboration de spécifications ISO et W3C, Tagmatica se devait de respecter les standards professionnels en la matière. Les interfaces sont définies en XML. Tous les outils et données sont codés en Unicode. Les dictionnaires sont conformes à la norme LMF. L'ontologie respecte les recommandations du W3C pour le Web sémantique avec une définition en OWL.

Projets collaboratifs scientifiques[modifier | modifier le code]

Tagmatica a participé aux projets Technolangue-Easy, eContent-LIRICS, ANR-Passage, ITA-Metaverse, Scribo et ANR-Lelie.

Principales publications[modifier | modifier le code]

  • Language Resources and Evaluation / Springer Verlag 2008 (DOI: 10.1007/s10579-008-9077-5): Multilingual resources for NLP in the lexical markup framework (LMF)
  • Gesellschaft für linguistische Datenverarbeitung GLDV-2007/Tubingen: Lexical Markup Framework ISO standard for semantic information in NLP lexicons [2]
  • Language Resources and Evaluation LREC-2006/Genoa: Lexical Markup Framework (LMF) [3]
  • Language Resources and Evaluation LREC-2006/Genoa: The relevance of standards for research infrastructures [4]
  • Experiments with a Chunker and Lucene, in Advances in Cross-Language Information Retrieval, 2003, Springer-Verlag, Berlin.

Références[modifier | modifier le code]

  1. Sirene, (base de données)Voir et modifier les données sur Wikidata
  2. « TAGMATICA à PARIS (441857455), CA, bilan, KBIS - Infogreffe », sur www.infogreffe.fr (consulté le )
  3. « TAGMATICA SAS à PARIS (828193961), CA, bilan, KBIS - Infogreffe », sur www.infogreffe.fr (consulté le )
  4. Francopoulo G. Demay F. 2011, A deep ontology for Named Entities, International Conference on Computational Semantics, Interoperable Semantic Annotation Workshop, Oxford

Sites web[modifier | modifier le code]