Tagmatica

	Tagmatica
Création	2002
Personnages clés	Gil Francopoulo
Forme juridique	SASU
Siège social	Paris; France
Activité	Exploration de données; Traitement automatique du langage naturel; Reconnaissance d'entités nommées; Logiciel ; Fouille de textes; Standardisation
Produits	TagParser (18 langues européennes)
SIREN	828193961
Site web	www.tagmatica.com [1]
	modifier - modifier le code - voir Wikidata

Tagmatica est une société française spécialisée dans l'informatique documentaire et linguistique. Elle a été fondée en 2002 par Gil Francopoulo qui est l'auteur de la norme ISO des dictionnaires électroniques LMF.

Histoire[modifier | modifier le code]

La société Tagmatica, crée le 14 février 2002 a été dissoute le 15 février 2017^[2].

Une autre société (avec le nom Tagmatica SAS) a été immatriculée le 3 février 2017^[3].

Activités[modifier | modifier le code]

Les activités sont la standardisation, les dictionnaires, les analyseurs morphologiques, syntaxiques et sémantiques des langues, la détection de langue et le calcul automatique de thématiques.

Contexte[modifier | modifier le code]

La majeure partie de la connaissance étant formulée sous forme de textes, il s'agit de les traiter automatiquement pour en obtenir les structures syntaxiques, les entités nommées, les citations et/ou des indicateurs numériques qui synthétisent le corpus.
Au niveau syntaxique, alors que la plupart des acteurs se limitent à l'application de règles de filtrage par motif sur de petits fragments de phrases, les outils de Tagmatica réalisent des analyses syntaxiques complètes (sur certaines langues) afin de détecter à la fois les attachements de courte, mais aussi ceux de longue distance. Ces derniers sont difficiles à traiter et posent de sérieux problèmes aux outils datant d'une dizaine d'années. Le défi était de mettre au point des outils rapides et robustes pour analyser des dizaines de millions de mots dans un temps raisonnable.
Au niveau sémantique, l'analyse utilise une base de connaissances multilingues comportant 600 000 termes qui est structurée selon une ontologie d'un millier de types^[4].

Langues traitées[modifier | modifier le code]

L'analyseur développé par Tagmatica s'appelle TagParser. Il effectue une analyse linguistique complète (dont les entités nommées) pour le français, l'anglais et l'espagnol. Une détection des entités nommées est réalisée pour l'allemand, le danois, le grec, l'italien, le letton, le lituanien, le maltais, le néerlandais, le polonais, le portugais, le roumain, le slovaque, le slovène, le suédois et le tchèque. Le nombre de langues traitées est donc au total de 18 langues européennes.

Utilisation[modifier | modifier le code]

TagParser est un logiciel utilisé depuis plusieurs années par les services de la Commission européenne pour aider à élaborer les revues de presse.

Respect des standards[modifier | modifier le code]

Ayant participé à l'élaboration de spécifications ISO et W3C, Tagmatica se devait de respecter les standards professionnels en la matière. Les interfaces sont définies en XML. Tous les outils et données sont codés en Unicode. Les dictionnaires sont conformes à la norme LMF. L'ontologie respecte les recommandations du W3C pour le Web sémantique avec une définition en OWL.

Projets collaboratifs scientifiques[modifier | modifier le code]

Tagmatica a participé aux projets Technolangue-Easy, eContent-LIRICS, ANR-Passage, ITA-Metaverse, Scribo et ANR-Lelie.

Principales publications[modifier | modifier le code]

Language Resources and Evaluation / Springer Verlag 2008 (DOI: 10.1007/s10579-008-9077-5): Multilingual resources for NLP in the lexical markup framework (LMF)
Gesellschaft für linguistische Datenverarbeitung GLDV-2007/Tubingen: Lexical Markup Framework ISO standard for semantic information in NLP lexicons [2]
Language Resources and Evaluation LREC-2006/Genoa: Lexical Markup Framework (LMF) [3]
Language Resources and Evaluation LREC-2006/Genoa: The relevance of standards for research infrastructures [4]
Experiments with a Chunker and Lucene, in Advances in Cross-Language Information Retrieval, 2003, Springer-Verlag, Berlin.

Références[modifier | modifier le code]

↑ Sirene, (base de données)
↑ « TAGMATICA à PARIS (441857455), CA, bilan, KBIS - Infogreffe », sur www.infogreffe.fr (consulté le 27 septembre 2019)
↑ « TAGMATICA SAS à PARIS (828193961), CA, bilan, KBIS - Infogreffe », sur www.infogreffe.fr (consulté le 27 septembre 2019)
↑ Francopoulo G. Demay F. 2011, A deep ontology for Named Entities, International Conference on Computational Semantics, Interoperable Semantic Annotation Workshop, Oxford

Sites web[modifier | modifier le code]

[wikidata-f0dd4fe2edcc1ecf4d9155e0f84f362b1040b2e4Q3509449-1] Sirene, (base de données)

[2] « TAGMATICA à PARIS (441857455), CA, bilan, KBIS - Infogreffe », sur www.infogreffe.fr (consulté le 27 septembre 2019)

[3] « TAGMATICA SAS à PARIS (828193961), CA, bilan, KBIS - Infogreffe », sur www.infogreffe.fr (consulté le 27 septembre 2019)

[4] Francopoulo G. Demay F. 2011, A deep ontology for Named Entities, International Conference on Computational Semantics, Interoperable Semantic Annotation Workshop, Oxford

[1]

[2]

[3]

[4]