diff --git a/bin/anthology/latexcodec.py b/bin/anthology/latexcodec.py index 76759b1ec0..f8623e29fe 100644 --- a/bin/anthology/latexcodec.py +++ b/bin/anthology/latexcodec.py @@ -8,7 +8,7 @@ # PSF (Python Software Foundation) license found here: # http://www.python.org/psf/license/ -'''Translates unicode to bibtex-friendly encoding. +r"""Translates unicode to bibtex-friendly encoding. bibtex-friendly features: @@ -54,7 +54,7 @@ D. Eppstein, October 2003. -''' +""" from __future__ import generators import codecs @@ -548,7 +548,7 @@ def candidates(self, offset): _blacklist.add(None) # shortcut candidate generation at end of data # Construction of inverse translation table -_l2u = {'\ ': ord(" ")} # unexpanding space makes no sense in non-TeX contexts +_l2u = {'\\ ': ord(" ")} # unexpanding space makes no sense in non-TeX contexts for _tex in latex_equivalents: if _tex <= 0x0020 or (_tex <= 0x007F and len(latex_equivalents[_tex]) <= 1): diff --git a/data/xml/2024.jeptalnrecital.xml b/data/xml/2024.jeptalnrecital.xml index b657588ddd..63dfc9c283 100644 --- a/data/xml/2024.jeptalnrecital.xml +++ b/data/xml/2024.jeptalnrecital.xml @@ -343,7 +343,7 @@ L’arrivée de l’apprentissage auto-supervisé dans le domaine du traitement automatique de la parole a permis l’utilisation de grands corpus non étiquetés pour obtenir des modèles pré-appris utilisés comme encodeurs des signaux de parole pour de nombreuses tâches. Toutefois, l’application de ces méthodes de SSL sur des langues telles que le français s’est montrée difficile due à la quantité limitée de corpus de parole du français publiquement accessible. C’est dans cet objectif que nous présentons le corpus Audiocite.net comprenant 6682 heures d’enregistrements de lecture par 130 locuteurs et locutrices. Ce corpus est construit à partir de livres audio provenant du site audiocite.net. En plus de décrire le processus de création et les statistiques obtenues, nous montrons également l’impact de ce corpus sur les modèles du projet LeBenchmark dans leurs versions 14k pour des tâches de traitement automatique de la parole. 2024.jeptalnrecital-jep.28 fra - felice-etal-2024-audiocite + felice-etal-2024-audiocite-net Comparaison de mesures pour la détection automatique de déviance dans la dysarthrie ataxique @@ -986,7 +986,7 @@ La factualité des modèles de langue se dégrade avec le temps puisque les événements postérieurs à leur entraînement leur sont inconnus. Une façon de maintenir ces modèles à jour pourrait être la mise à jour factuelle à l’échelle de faits atomiques. Pour étudier cette tâche, nous présentons WikiFactDiff, un jeu de données qui représente les changements survenus entre deux dates sous la forme d’un ensemble de faits simples, sous format RDF, divisés en trois catégories : les faits à apprendre, les faits à conserver et les faits obsolètes. Ces faits sont verbalisés afin de permettre l’exécution des algorithmes de mise à jour et leur évaluation, qui est présentée dans ce document. Contrairement aux jeux de données existants, WikiFactDiff représente un cadre de mise à jour réaliste qui implique divers scénarios, notamment les remplacements de faits, leur archivage et l’insertion de nouvelles entités. 2024.jeptalnrecital-taln.18 fra - ammar-khodja-etal-2024-wikifactdiff + ammar-khodja-etal-2024-wikifactdiff-un Adaptation des modèles de langue à des domaines de spécialité par un masquage sélectif fondé sur le genre et les caractéristiques thématiques @@ -1473,7 +1473,7 @@ Les modèles de langue préentraînés (PLM) constituent aujourd’hui de facto l’épine dorsale de la plupart des systèmes de traitement automatique des langues. Dans cet article, nous présentons Jargon, une famille de PLMs pour des domaines spécialisés du français, en nous focalisant sur trois domaines : la parole transcrite, le domaine clinique / biomédical, et le domaine juridique. Nous utilisons une architecture de transformeur basée sur des méthodes computationnellement efficaces(LinFormer) puisque ces domaines impliquent souvent le traitement de longs documents. Nous évaluons et comparons nos modèles à des modèles de l’état de l’art sur un ensemble varié de tâches et de corpus d’évaluation, dont certains sont introduits dans notre article. Nous rassemblons les jeux de données dans un nouveau référentiel d’évaluation en langue française pour ces trois domaines. Nous comparons également diverses configurations d’entraînement : préentraînement prolongé en apprentissage autosupervisé sur les données spécialisées, préentraînement à partir de zéro, ainsi que préentraînement mono et multi-domaines. Nos expérimentations approfondies dans des domaines spécialisés montrent qu’il est possible d’atteindre des performances compétitives en aval, même lors d’un préentraînement avec le mécanisme d’attention approximatif de LinFormer. Pour une reproductibilité totale, nous publions les modèles et les données de préentraînement, ainsi que les corpus utilisés. 2024.jeptalnrecital-trad.6 fra - segonne-etal-2024-jargon + segonne-etal-2024-jargon-une <fixed-case>LOCOST</fixed-case>: Modèles Espace-État pour le Résumé Abstractif de Documents Longs