UnitexGramLab/unitexgramlab-org

View on GitHub
pages/02.blog/01.featured/language-resources/post.fr.md

Summary

Maintainability
Test Coverage
---
title: "Ressources Linguistiques d'Unitex/GramLab"

date:   04/26/2015

taxonomy:
    category: [blog, featured]
    tag: [ressources,lgpllr]

shortcode-core:
    active: true

routes:
  default: '/language-resources'
---
Les ressources linguistiques fournies avec Unitex/GramLab sont distribuées sous licence
[LGPLLR](../lgpllr). Selon cette licence, vous pouvez obtenir une version lisible de ces ressources.
Vous pouvez les télécharger pour le Français et l'Anglais
[ici](http://infolingu.univ-mlv.fr/DonneesLinguistiques/Dictionnaires/telechargement.html).
Vous pouvez également utiliser le programe `Uncompress` inclu à partir d'Unitex 2.1 pour générer la version texte des dictionnaires binaires
distributés avec Unitex.

===

La dernière distribution d'Unitex/GramLab contient des ressources pour
[de nombreuses langues](https://github.com/UnitexGramLab/unitex-lingua?target=_blank).
Voici une brève présentation de ces ressources. CES RESSOURCES NE SONT PAS EXHAUSTIVES.
Suivez les liens pour plus d'information.

[ui-tabs position="top-left" active="0" theme="badges"]

[ui-tab title="ar"]

| Langue                 | Nom originaire         | Famille de Langue   | IETF    | ISO 639-2 | ISO 639-1 |
| ----------------------------- | ------------------- | ----------------- | :-----: | :-------: | :-------: |
| [Arabe](https://github.com/UnitexGramLab/unitex-lingua/blob/master/ar?target=_blank)                  | العربية             | Afro-Asiatique      | ar      | ara       | ar        |


## Corpus

- Fishing Earthquakes Water
- Hayy ibn Yaqdhan, de Ibn Tufail

[/ui-tab]


[ui-tab title="en"]

| Langue                 | Nom originaire         | Famille de Langue   | IETF    | ISO 639-2 | ISO 639-1 |
| ----------------------------- | ------------------- | ----------------- | :-----: | :-------: | :-------: |
| [Anglais](https://github.com/UnitexGramLab/unitex-lingua/blob/master/en?target=_blank)                 | English             | Indo-Européenne     | en      | eng       | en        |

## Corpus

- Ivanhoe, de Sir Walter Scott (grâce à Jim Manis)

## Dictionnaires

- 296,606 mots simples (150,145 lemmes distincts)
- 132,990 mots composés (69,912 lemmes distincts) 

## Références

### Mots simples

```
Klarsfeld, G., McCarthy-Hammani. Dictionnaire électronique du LADL pour les mots simples de l'anglais.
```

```
Monceaux, A. 1995. Le dictionnaire des mots simples anglais : mots nouveaux et variantes orthographiques, rapport technique IGM 95-15, Institut Gaspard Monge, Université de Marne-la-Vallée
```

### Mots composés

```
Savary, A. (2000). Recensement et description des mots composés - méthodes et applications. Thèse de doctorat en Informatique Fondamentale, Université de Marne-la-Vallée, pp. 90-101
```

```
Chrobot, A., Courtois, B., Hammani, M., Gross, M., Zellagui, K. (1999). Dictionnaire Electronique DELAC anglais : noms composés, rapport technique n°59, LADL, Université Paris 7.
```
[/ui-tab]

[ui-tab title="fi"]

| Langue                 | Nom originaire         | Famille de Langue   | IETF    | ISO 639-2 | ISO 639-1 |
| ----------------------------- | ------------------- | ----------------- | :-----: | :-------: | :-------: |
| [Finnois](https://github.com/UnitexGramLab/unitex-lingua/blob/master/fi?target=_blank)                 | Suomi               | Ouralique            | fi      | fin       | fi        |


## Corpus

- Déclaration Universelle des droits de l'Homme


## Références

```
Holman, Eugene, 1984, Handbook of Finnsih Verbs, Suomalaisen Kirjallisuuden Toimituksia 408, SKS, Vaasa.
```

```
Jäppinen, Harri and Ylilammi, Matti, 1986, "Associative Model of Morphological Analysis :An Empirical Inquiry" Computational Linguistics, Volume 12, n° 4, 257-269.
```

```
Karlsson, Fred, 1979, "Automatic Morphological Segmentation of Finnsih Word Forms", Papers from the Conference on General Linguistics, Seili, Publications of the Linguistic Association of Finland, Turku, 77-90.
```

```
Karlsson, Fred, 1982a, Suomen kielen äänne- ja muotorakenne, WSOY, Helsinki.
```

```
Karlsson, Fred, 1982b, Suomen peruskielioppi, SKS, Piekäsämki.
```

```
Koskenniemi, Kimmo, 1979, "On Automatic Lemmatisation of Finnish" Papers from the Conference on General Linguistics, Seili, Publications of the Linguistic Association of Finland, Turku, 77-90.
```

```
Laaksonen, Kaino & Lieko, Anneli, 1988, Kielen äänne- ja muoto-oppi, Oy Finn Lectura Ab, Helsinki.
```

```
Maurel, Denis and Guenthner, Franz, 2005, Automata and Dictionnaires Texts in Computing Science, Volume 6, King’s College Publications, London.
```

```
Pentillä, Aarni, 1957, Suomen Kielioppi, Werner Södertröm Osakeyhtiö, Porvoo, Helsinki.
```

```
Remes, Hannu. 1985, Suomen kielen fonologian ja taivutusmorfologian perusteet, Joensuun yliopisto.
```

```
Renault, Richard. 1985, Suomen kielen fonologian ja taivutusmorfologian perusteet, in Bottineau, Didier (ed), Les agglutinations dans la morphologie et dans les langues, Approche typologique et contrastive et théorisation, LINX 58, à paraître.
```

```
Tuomi,Tuomo (ed.), 1972, Suomen kielen käänteissanakirja, SKS, Hämeenlinna.
```

## Plus d'informations

- [Ressources pour le traitement automatique de corpus finnois](http://www.unicaen.fr/ufr/homme/linguistique/ressources/finnois/index.html)

[/ui-tab]

[ui-tab title="fr"]

| Langue                 | Nom originaire         | Famille de Langue   | IETF    | ISO 639-2 | ISO 639-1 |
| ----------------------------- | ------------------- | ----------------- | :-----: | :-------: | :-------: |
| [Français](https://github.com/UnitexGramLab/unitex-lingua/blob/master/fr?target=_blank)                  | Français            | Indo-Européenne     | fr      | fra       | fr        |

## Corpus

- Le tour du monde en 80 jours, de Jules Verne

## Dictionnaires

- 683,824 mots simples (102,073 lemmes distincts)
- 108,436 mots composés (83,604 lemmes distincts)
- dictionnaires de prénoms (24,000 entrées)
- dictionnaire de noms de professions (4,200 entrées)
- dictionnaire de mots simples québécois (2,700 entrées)

## Références

### France mots simples


```
Courtois Blandine, 1990, Un système de dictionnaires électroniques pour les mots simples du français, Langue Française 87, Paris: Larousse.

```

```
Courtois Blandine, 1994-1995, Buts et méthodes de l'élaboration des dictionnaires électroniques du LADL, Cahiers du CIEL "Théories et pratiques du lexique", Université Paris 7.

```

```
Courtois, Blandine, 1996, "Formes ambiguës de la langue française", Lingvisticae Investigationes XX:1, Amsterdam/Philadelphia, John Benjamins, p.167-202.

```

### Québec mots simples


```
Labelle, Jacques, 1993a, "Lexiques-grammaires et dictionnaires comparés: deux variétés de français, un français commun", Revue d'études canadiennes, revue de l'Association Italienne d'Etudes Canadiennes, Bari, Schena Editore.

```

```
Labelle, Jacques, 1993b, Dictionnaire électronique des formes simples en français du Québec: DELQUES V1.0, Rapport de recherche 9, Montréal, GRFL, UQAM.

```

```
Labelle, Jacques, 1995, "Le traitement automatique des variantes linguistiques en français: l'exemple des concrets", Lingvisticae Investigationes XIX:1, Amsterdam/Philadelphia: John Benjamins, p.137-152.

```

```
Labelle, Jacques, 1995, "Lexique-grammaire et variation en français", in J. Labelle et Ch. Leclère (eds.), Lexique grammaires comparés en français, LIS 17, p.13-28, Amsterdam/Philadelphia, John Benjamins.

```
### France mots composés

```
Courtois, Blandine ; Garrigues, Mylène ; Gross, Gaston ; Gross, Maurice ; Jung, René ; Mathieu-Colas, Michel ; Silberztein, Max ; Vivès, Robert. 1997. Dictionnaire électronique des noms composés DELAC : les composants NA et NN, Rapport Technique du LADL 55, Paris, Université Paris 7.

```

```
Courtois, Blandine ; Garrigues, Mylène ; Gross, Gaston ; Gross, Maurice ; Jung, René ; Mathieu-Colas, Michel ; Monceaux, Anne ; Poncet-Montange Anne ; Silberztein, Max ; Vivès, Robert. 1997. Dictionnaire électronique DELAC : les noms composés binaires, Rapport Technique du LADL 56, Paris, Université Paris 7.

```

```
Gross, Gaston. 1996. Les expressions figées en français. Noms composés et autres locutions, Paris : Ophrys.

```

```
Monceaux, Anne. 1993. La formation des noms composés de structure Nom Adjectif. élaboration d'un dictionnaire électronique. Thèse de doctorat, Université de Paris 7.

```

```
Silberztein, Max D. 1993, Les groupes nominaux productifs et les noms composés lexicalisés, Lingvisticae Investigationes XVII:2, Amsterdam/Philadelphia : John Benjamins, p. 405-426.

```

```
Gross, Gaston. 1990. Définition des noms composés dans un lexique-grammaire. Langue Française 87, Paris : Larousse.

```

```
Silberztein, Max. 1990. Le dictionnaire électronique des mots composés. Langue Française 87, pp. 71-83, Paris : Larousse.

```

```
Courtois, Blandine; Max Silberztein. 1989. Les dictionnaires électroniques DELAS et DELAC. In RELAI: Recherches en Linguistique Appliquée à l'Informatique. Actes du colloque "La description des langues naturelles en vue d'applications informatiques", Québec, 1988, Québec : Université Laval.

```

```
Gross, Gaston. 1988. Noms composés N de N. Rapport de Recherches 5, Laboratoire de Linguistique Informatique, Villetaneuse : Université Paris 13.

```

```
Gross, Gaston. 1988. Noms composés N de N. Rapport de Recherches 6, Laboratoire de Linguistique Informatique, Villetaneuse : Université Paris 13.

```

```
Gross, Gaston. 1988. Degré de figement dans les noms composés. Langages 90, pp. 57-72, Paris : Larousse.

```

```
Mathieu-Colas, Michel. 1988. Variations graphiques des mots composés dans le Petit Larousse et le Petit Robert. Lingvisticae Investigationes XII:2, pp. 235-280, Amsterdam/Philadelphia : John Benjamins.

```

```
Gross, Gaston; René Jung; Michel Mathieu-Colas. 1987. échantillon de noms composés de la forme Nom-Adjectif, Rapport 5 du Programme de Recherches Coordonnées Informatique Linguistique, LADL, Paris : Université Paris 7.

```

```
Mathieu-Colas, Michel. 1987. Composés de type NAdj. Rapport de Recherches 3, Laboratoire de Linguistique et Informatique, Université de Villetaneuse.

```

```
Gross, Gaston. 1986. Typologie des noms composés: le lexique électronique des noms composés du français, Rapport ATP, CNRS, Université Paris 13.

```

```
Gross, Maurice, 1986. "Lexicon-Grammar. The Representation of Compound Words". In COLING-1986. Proceedings, Bonn, pp. 1-6.

```

### France adverbes figés


```
Gross, Maurice, 1986. Grammaire transformationnelle du français. 3 - Syntaxe de l'adverbe, Paris, 670 p.

```

### France conjonctions de subordination


```
Piot, Mireille. 1976. Les conjonctions 'finales' du français. Recherches Linguistiques 5, pp. 208-234, Université Paris 8-Vincennes.

```

```
Piot, Mireille. 1978. Étude transformationnelle de quelques classes de conjonctions de subordination du français. Thèse de troisième cycle, LADL, Université Paris 7, 455 p.

```

```
Piot, Mireille. 1979. Les conjonctions 'finales' du français. Lingua e Stile 14:1, pp. 27-48.

```

```
Piot, Mireille. 1984. Sur une classe de conjonctions de subordination du français. Revue Québécoise de Linguistique 13.2:157-191.

```

```
Piot, Mireille. 1988a. Coordination-subordination : une définition générale. Langue Française 77, pp. 3-18, Paris : Larousse.

```

```
Piot, Mireille. 1988b. Conjonctions de subordination et figement. Langages 90, pp. 39-56, Paris: Larousse.

```

```
Piot, Mireille. 1988c. Conjonctions de subordination et problèmes de classification. In Grammaire et histoire de la grammaire. Hommage à la mémoire de Jean Stéfanini, pp. 335-352, Aix-en-Provence: Publications de l'Université de Provence.

```

```
Piot, Mireille. 1991. Problèmes de classification dans les conjonctions de subordination du français. Studia Romanica Posnaniensia XVI, pp. 135-148, Posnan: UAM.

```

```
Piot, Mireille. 1991. Quelques problèmes inédits de constructions avec des conjonctions "conséquentielles". Lingvisticae Investigationes XV:2, Amsterdam/Philadelphia: John Benjamins, pp. 285-303.

```

```
Piot, Mireille. 1993. Méthodologie et recherche en syntaxe comparée des langues romanes. L'exemple des complétives et infinitives. Studia Romanica Posnaniensia XVII, Poznan, Pologne : UAM, pp. 175-187.

```

```
Piot, Mireille. 1993. "Le pronom en dans les subordonnées 'conséquentielles', Actes du Vème Colloque International des Langues Romanes et Slaves (1992), Cracovie, Pologne.

```

```
Piot, Mireille. 1993, "Les connecteurs du français", Lingvisticae Investigationes XVII:1, Amsterdam/Philadelphia, John Benjamins, pp. 141-160.

```

```
Piot, Mireille. 1995, "Les conjonctions de subordination et la négation", in H. Bat-Zeev Shyldkrot et L. Kupferman (eds.), Tendances récentes en linguistique française et générale. Volume dédié à David Gaatone, LIS 20, Amsterdam/Philadelphia, John Benjamins, pp. 335-344.

```

```
Piot, Mireille. 1995, Composition transformationnelle de phrases par subordination et coordination, Thèse de Doctorat d'état, Paris, Université Paris 7, 426 p.

```

```
Piot, Mireille. 1996. Conjonctions de temps et constructions absolues dans les langues romanes. In Actes du 19ème Congrès International de Philologie et de Linguistique Romane (1989), Santiago de Compostela, 24 p.

```

```
Piot, Mireille. 1996, "Problemi nella classificazione delle congiunzioni subordinanti del francese" in E. D'Agostino (ed.), Tra sintassi e semantica, Napoli, ESI, pp. 399-413.

```

```
Piot, Mireille. 1996, "Propriétés et définition des conjonctions de subordination, de coordination et des adverbes conjonctifs du français", in B. Lamiroy et W. Van Belle (eds.), Themanummer 'Connectoren', Leuvense Bijdragen 84 (1995), 3, pp. 329-348.

```

```
Piot, Mireille. 1997, "Subordination-coordination : étude de transferts et des relations entre processus", in C. Muller (ed.), Actes du Colloque International 'Indépendance et intégration syntaxiques' (Bordeaux), Tübingen, Max Niemeyer, pp. 35-42. 
```
[/ui-tab]


[ui-tab title="oge"]

| Langue                 | Nom originaire         | Famille de Langue   | IETF    | ISO 639-2 | ISO 639-1 |
| ----------------------------- | ------------------- | ----------------- | :-----: | :-------: | :-------: |
| [Géorgien (Ancien)](https://github.com/UnitexGramLab/unitex-lingua/blob/master/oge?target=_blank)     | ქართული             | Sud Caucasienne   | oge     |           |           |

## Corpus

- Isaac de Nineveh (Isaacus Ninivita), première collection, texte géorgien ancien non publié
en deux traductions différentes, ancienne traduction (IXs) et nouvelle traduction (XIs)
— 25.900 mots; 7.180 formes.

## Dictionnaires

- 7.254 mots simples

## Références

```
P. Bedjan, Mar Isaacus Ninivita de perfectione religiosa, Parisiis, 1909.
```

```
A. J. Wensinck, Mystic Treatises by Isaac of Nineveh, Amsterdam, 1923.
```

```
D. Miller, The Ascetical Homilies Saint Isaac the Syrian, Boston, 1984.
```

## Plus d'information

- Fenêtre "Apply Lexical Resources" de l'IDE d'Unitex/GramLab. 

[/ui-tab]

[ui-tab title="de"]

| Langue                 | Nom originaire         | Famille de Langue   | IETF    | ISO 639-2 | ISO 639-1 |
| ----------------------------- | ------------------- | ----------------- | :-----: | :-------: | :-------: |
| [Allemand](https://github.com/UnitexGramLab/unitex-lingua/blob/master/de?target=_blank)                  | Deutsch             | Indo-Européenne     | de      | deu       | de        |

## Corpus

- Le "Proceß" de Franz Kafka

## Dictionnaires

- 30.000 formes
- Dictionnaires additionels, p. ex. pour des nombres

Le dictionnaire est un extrait du dictionnaire électronique morphologique de l'allemand 
devellopé au CIS, Munich ([CISLEX](http://www.cis.uni-muenchen.de?target=_blank)).

Cet extrait contient environ 10% du dictionnaire original, au moins les lemmes les plus fréquents, afin d'être utilisable. Pour la version complète
(300,000 lemmes), contacter F. Guenthner à gue@cis.uni-muenchen.de

## Références

```
Engelke, Sabine 2003: Freie und feste Adverbiale im Deutschen. Studien zur Informations- und Sprachverarbeitung 8. München: CIS. [Ph.D. LMU München] 
```

```
Guenthner, Franz; Petra Maier 1996: Das CISLEX-Wörterbuchsystem. In: Feldweg, H.; E. W. Hinrichs (eds.): Lexikon und Text 69–82. Tübingen: Max Niemeyer. [also in: Lexikographica 73, 69–82.] 
```

```
Langer, Stefan 1996: Selektionsklassen und Hyponymie im Lexikon. Ph.D.. CIS-Bericht-96-94. München. [http://www.cis.uni-muenchen.de/pub/cis-berichte/diss_langer.ps.gz] [Ph.D. LMU München] 
```

```
Langer, Stefan; Petra Maier; Jürgen Oesterle 1996: CISLEX -- An electronic dictionary for German: its structure and a lexicographic application. CIS-Bericht-96-97. München. [also in: Kiefer, F. et al. (eds.): Papers in computational lexicography. COMPLEX 1996, 155-156. Budapest] 
```

```
Maier-Meyer, Petra 1995: Lexikon und automatische Lemmatisierung. CIS-Bericht-95-84. München. [http://www.cis.uni-muenchen.de/pub/cis-berichte/CIS-Bericht-95-84.ps.gz] [Ph.D. LMU München] 
```

```
Schnorbusch, Daniel 1999: Einfache deutsche Verben. Eine syntaktische und semantische Beschreibung der verbalen Simplizia für das elektronische Lexikonsystem CISLEX. Studien zur Informations- und Sprachverarbeitung 1. München: Centrum für Informations- und Sprachverarbeitung. [Ph.D. LMU München] 
```

```
Thalmeier, Karin 2006: Die semantische Klassifikation der Adjektive des Deutschen für das elektronische Wörterbuch CISLEX. Studien zur Informations- und Sprachverarbeitung 11. München: CIS. [Ph.D. LMU München]
```

[/ui-tab]

[ui-tab title="grc"]

| Langue                 | Nom originaire         | Famille de Langue   | IETF    | ISO 639-2 | ISO 639-1 |
| ----------------------------- | ------------------- | ----------------- | :-----: | :-------: | :-------: |
| [Grec (ancien)](https://github.com/UnitexGramLab/unitex-lingua/blob/master/grc?target=_blank)        | Αρχαία  Ελληνικα    | Indo-Européenne     | grc     | grc       |           |


## Corpus

- Grégoire de Naziance, Discours X et XII (IVe s. PCN). Patrologie
Grècque de Migne, vol. 35, col. 828-832; 844-839 (1.905 mots)

## Dictionnaires

-  280,733 formes simples (Avril 2006)

## Références

```
Gérard, Raphaël; Kindt, Bastien. 2004. D'un dictionnaire de lemmatisation (D.A.G.) à un dictionnaire dérivationnel du grec ancien (D.D.G.). Le poids des mots. Actes des 7èmes Journées internationales d'Analyse statistique des Données Textuelles, 10-12 mars 2004, ed. A. Dister, C. Fairon, G. Purnelle, vol. 1: 488-495, Louvain-la-Neuve.
```

```
Kevers, Laurent; Kindt, Bastien. 2004, Vers un concordanceur-lemmatiseur en ligne du grec ancien. L'Antiquité Classique, 73: 203-213.
```

```
Kevers, Laurent; Kindt, Bastien. 2005. Traitement automatisé de l’ambiguïté lexicale en grec ancien. Première approche par application de grammaires locales. Lingvisticae Investigationes, 28: 235-254.
```

```
Kindt, Bastien. 2003. Avancées dans le traitement automatique du grec ancien à l'U.C.L.. L'analyse des textes au service d'une description lexicale de la langue. Une description lexicale de la langue au service de l'analyse des textes. Lexicometrica, numéro spécial «Autour de la lemmatisation» (dir. D. Labbé): 1-17 (cfr http://www.cavi.univ-paris3.fr/lexicometrica/thema/thema1.htm).
```

```
Kindt, Bastien; Yannacopoulou, Anastasia. 2006. Literary Words Automatic Recognition in a Modern Greek Corpus. Proceedings of the 7th International Conference on Greek Linguistics (York, 2005). 
```

## Plus d'informations

- [The GREgORI Project](http://tpg.fltr.ucl.ac.be?target=_blank)
- Fenêtre "Apply Lexical Resources" de l'IDE d'Unitex/GramLab

[/ui-tab]

[ui-tab title="el"]

| Langue                 | Nom originaire         | Famille de Langue   | IETF    | ISO 639-2 | ISO 639-1 |
| ----------------------------- | ------------------- | ----------------- | :-----: | :-------: | :-------: |
| [Grec (moderne)](https://github.com/UnitexGramLab/unitex-lingua/blob/master/el?target=_blank)          | Ελληνικά            | Indo-Européenne     | el      | ell       | el        |


## Corpus

- Corpus journalistique

## Dictionnaires

- 360,000 mots simples
- 40,000 mots composés

Ces ressources représentent environ 30% des dictionnaires originaux.

## Références

### Mots simples

```
Anastassiadis-Symeonidis, Anna; Kyriacopoulou Tita; Sklavounou Elsa; Thilikos Iasson; Voskaki Rania. 2000. A system for analysing texts in Modern Greek: representing and solving ambiguities. Proceedings of COMLEX 2000, Workshop on Computational Lexicography and Multimedia Dictionnaires, 22-23 September 2000, Kato Achaia, Patras.
```

```
Constant, Matthieu; Anastasia Yannacopoulou. 2002. Le dictionnaire électronique du grec moderne: Conception et développement d'outils pour son enrichissement et sa validation. Studies in Greek Linguistics, Proceedings of the 23rd annual meeting of the Department of Linguistics, Faculty of Philosophy, Aristotle University of Thessaloniki, 17-19 May 2002, Thessaloniki.
```

```
Kazantzi, Dimitra; Nantia Konstenian; Theodora Loïzidou; Polyxeni Pavlidou; Katerina Rizou; Panayota Tampanoglou. 2002. Π?οβλήματα στην αυτόματη κλίση απλών και σ?νθετων ονομάτων. Studies in Greek Linguistics, Proceedings of the 23rd annual meeting of the Department of Linguistics, Faculty of Philosophy, Aristotle University of Thessaloniki, 17-19 May 2002, Thessaloniki.
```

```
Kyriacopoulou, Panayota-Tita. 1990a. Les dictionnaires électroniques: la flexion verbale en grec moderne. Thèse de doctorat (Université Paris VIII), Paris.
```

```
Kyriacopoulou, Tita. 1990a. Les dictionnaires électroniques : Morphologie et syntaxe. Le cas du grec moderne, Proceedings AILA 1990, Chalcidique.
```

```
Kyriacopoulou, Tita. 1990b. Τα ηλεκτ?ονικά λεξικά – Η ?ηματική κλίση: Γενική πα?ουσίαση Studies in Greek Linguistics, Proceedings of the 10th annual meeting of the Department of Linguistics, Faculty of Philosophy, Aristotle University of Thessaloniki, Thessaloniki.
```

```
Kyriacopoulou, Tita. 1991. Τα ηλεκτ?ονικά λεξικά. Γλωσσολογικά δεδομένα. Studies in Greek Linguistics, Proceedings of the 11th annual meeting of the Department of Linguistics, Faculty of Philosophy, Aristotle University of Thessaloniki, Thessaloniki.
```

```
Kyriacopoulou, Tita. 1992a. Η αυτόματη επεξε?γασία της ?ηματικής κλίσης των Ελληνικών. Studies in Greek Linguistics, Proceedings of the 12th annual meeting of the Department of Linguistics, Faculty of Philosophy, Aristotle University of Thessaloniki, 18-20 April 1991, Thessaloniki.
```

```
Kyriacopoulou, Tita. 1992b. Le dictionnaire électronique des verbes grecs: le phénomène de la défectivité. Mémoires CERIL no 8, Paris 7.
```

```
Kyriacopoulou, Tita. 1992c. H αυτόματη επεξε?γασία των ελληνικών. Π?ακτικά του διεθνο?ς Συμποσίου για τη σ?γχ?ονη ελληνική γλώσσα, 14-15 Φεβ?ουα?ίου 1992, Σο?βόννη.
```

### Mots composés

```
Kyriacopoulou, Tita. 2002. Un système d'analyse de textes en grec moderne: représentation des noms composés. Actes du 5ème Colloque International de Linguistique Grecque, 13-15 septembre 2001, Sorbonne, Paris.
```

```
Kyriacopoulou, Tita; Olympia Tsaknaki. 2002 Ηλεκτ?ονική αναπα?άσταση των πα?οιμιών με πεπε?ασμένα αυτόματα. Studies in Greek Linguistics, Proceedings of the 23rd annual meeting of the Department of Linguistics, Faculty of Philosophy, Aristotle University of Thessaloniki, 17-19 May 2002, Thessaloniki.
```

```
Kyriacopoulou, Tita; Safia Mrabti; Anastasia Yannacopoulou. 2002. Le dictionnaire électronique des noms composés en grec moderne. Lingvisticae Investigationes, Amsterdam/Philadelphie.
```

```
Mavropoulos, Thanassis; Stella Bakoura. 2002. Ηλεκτ?ονικό λεξικό της ?έας Ελληνικής: αναπα?άσταση των κυ?ίων ονομάτων και ουσιαστικών και επιθέτων που δηλώνουν εθνικότητα. Studies in Greek Linguistics, Proceedings of the 23rd annual meeting of the Department of Linguistics, Faculty of Philosophy, Aristotle University of Thessaloniki, 17-19 May 2002, Thessaloniki.
```

```
Tsaknaki, Olympia. 2000a. Electronic dictionary of proverbs. Proceedings of COMLEX 2000, Workshop on Computational Lexicography and Multimedia Dictionnaires, 22-23 September 2000, Kato Achaia, Patras.
```

```
Tsaknaki, Olympia. 2000b. La traduction des noms d'animaux dans les proverbes. Actes du Colloque international «Traduction humaine, Traduction automatique, Interprétation», 28-30 septembre 2000, Tunis.
```

```
Voskaki, Rania; Iasson Thilikos. 2002. Αναπα?άσταση των ουσιαστικοποιημένων επιθέτων της ?έας Ελληνικής με διαδικασίες αυτοματισμο? πεπε?ασμένων καταστάσεων. Studies in Greek Linguistics, Proceedings of the 23rd annual meeting of the Department of Linguistics, Faculty of Philosophy, Aristotle University of Thessaloniki, 17-19 May 2002, Thessaloniki.
```

```
Voyatzi, Stavroula. 2002. Αυτόματη αναγνώ?ιση των χ?ονικών εκφ?άσεων: ημε?ομηνίες και ώ?ες. Studies in Greek Linguistics, Proceedings of the 23rd annual meeting of the Department of Linguistics, Faculty of Philosophy, Aristotle University of Thessaloniki, 17-19 May 2002, Thessaloniki. 
```

[/ui-tab]

[ui-tab title="it"]

| Langue                 | Nom originaire         | Famille de Langue   | IETF    | ISO 639-2 | ISO 639-1 |
| ----------------------------- | ------------------- | ----------------- | :-----: | :-------: | :-------: |
| [Italien](https://github.com/UnitexGramLab/unitex-lingua/blob/master/it?target=_blank)                 | Italiano            | Indo-Européenne     | it      | ita       | it        |

## Corpus

- I Malavoglia, de Giovanni Verga

## Dictionnaires

- 118,000 mots simples
- 32,000 mots composés
- 630 toponymes (mots simples)
- 3255 noms propres (mots simples)
- 223 toponymes (mots composés)
- 889 noms propres (mots composés)

## Références

### Mots simples

```
Monteleone, M., De Bueriis, G. (1995) Dizionario elettronico DELAS_I - DELAF_I ver. 1.0, Dipartimento di Scienze della Comunicazione dell'Università degli Studi di Salerno.
```

```
Elia, A. (1995), “Dizionari elettronici e applicazioni informatiche?, in S. Bolasco, L.Lebart., A. Salem, (eds.), JADT 1995, III Giornate internazionali di Analisi Statistica dei Dati Testuali, Roma: CISU.
```

```
Vietri, S., A. Elia, (2000), Electronic Dictionnaires and Linguistic Analysis of Italian Large Corpora, in Rajman M. & J.C.Chappelier (eds.) JADT 2000 - Actes des 5es Journées internationales d'Analyse statistique des Données Textuelles, 9-11 Mars 2000, Ecole Polytechnique fédérale de Lausanne.
```

```
Elia, A., S. Vietri, (2002), L'analisi automatica dei testi e i dizionari elettronici, in E. Burattini, R. Cordeschi, (eds.), Manuale di Intelligenza Artificiale per le Scienze Umane, Roma: Carocci
```

### Mots composés

```
Vietri, S. (1984), On the Study of Idioms in Italian, in AA.VV., Sintassi e morfologia della lingua italiana, Congresso internazionale della Società di Linguistica Italiana, Roma: Bulzoni.
```

```
Vietri, S. (1990), On some comparative frozen sentences in Italian, in Lingvisticae Investigationes 14: 1, pp. 149-174, Amsterdam/Philadelphia: John Benjamins.
```

```
Elia, A. (1995), Per una disambiguazione semi-automatica di sintagmi composti: i dizionari elettronici lessico-grammaticali, in Cipriani e Bolasco, (ed.), Ricerca qualitativa e computer, Milano: Franco Angeli. 
```

[/ui-tab]

[ui-tab title="ko"]

| Langue                 | Nom originaire         | Famille de Langue   | IETF    | ISO 639-2 | ISO 639-1 |
| ----------------------------- | ------------------- | ----------------- | :-----: | :-------: | :-------: |
| [Coréen](https://github.com/UnitexGramLab/unitex-lingua/blob/master/ko?target=_blank)                  | 한국어                  |  Altaïque         | ko      | kor       | ko        |

[/ui-tab]

[ui-tab title="la"]

| Langue                 | Nom originaire         | Famille de Langue   | IETF    | ISO 639-2 | ISO 639-1 |
| ----------------------------- | ------------------- | ----------------- | :-----: | :-------: | :-------: |
| [Latin](https://github.com/UnitexGramLab/unitex-lingua/blob/master/la?target=_blank)                   | Latine              | Indo-Européenne     | la      | lat       | la        |

## Corpus

- De Bello Gallico, de Jules César, rendu disponible grâce au Projet Gutenberg. 

## Dictionnaires

- 720,000 mots simples dans le DELAF (Charlton Lewis, Charles Short, 1879), rendu disponible grâce au Projet Perseus.

[/ui-tab]

[ui-tab title="mg"]

| Langue                 | Nom originaire         | Famille de Langue   | IETF    | ISO 639-2 | ISO 639-1 |
| ----------------------------- | ------------------- | ----------------- | :-----: | :-------: | :-------: |
| [Malgache](https://github.com/UnitexGramLab/unitex-lingua/blob/master/mg?target=_blank)                | Malagasy            | Austronésienne      | mg      | mlg       | mg        |


## Corpus

- Diwersy, Sascha (2009-), corpus journalistique du malgache contemporain, Départment de Philologie Romane, Université de Cologne.

## Dictionnaires

- 801 simple verbes dans DEMA-VS
- 55 mots invariables dans DEMA-INVflx

# Références

```
Ranaivoarison, Joro Ny Aina (2014). Modélisation de la morphosyntaxe du malgache. Construction d'un dictionnaire électronique des verbes simples. Thèse de doctorat, Université d'Antananarivo, 510 pages
```

```
Ranaivoarison, Joro Ny Aina; Laporte, Éric; Ralalaoherivony, Baholisoa Simone (2013). Formalization of Malagasy conjugation. Langue and Technology Conference, Poznan, Poland. pp.457-462
```

[/ui-tab]

[ui-tab title="no"]

| Langue                 | Nom originaire         | Famille de Langue   | IETF    | ISO 639-2 | ISO 639-1 |
| ----------------------------- | ------------------- | ----------------- | :-----: | :-------: | :-------: |
| [Norvégien Bokmål](https://github.com/UnitexGramLab/unitex-lingua/blob/master/no?target=_blank)        | Norsk bokmål        | Indo-Européenne     | no      | nob       | nb        |

## Corpus

- Folkeeventyr

## Dictionnaires

- 51,000 mots simples
- 640 mots composés 

[/ui-tab]

[ui-tab title="nn"]

| Langue                 | Nom originaire         | Famille de Langue   | IETF    | ISO 639-2 | ISO 639-1 |
| ----------------------------- | ------------------- | ----------------- | :-----: | :-------: | :-------: |
| [Norvégien Nynorsk](https://github.com/UnitexGramLab/unitex-lingua/blob/master/nn?target=_blank)       | Norsk nynorsk       | Indo-Européenne     | nn      | nno       | nn        |

## Corpus

- Klimarapport

[/ui-tab]

[ui-tab title="pl"]

| Langue                 | Nom originaire         | Famille de Langue   | IETF    | ISO 639-2 | ISO 639-1 |
| ----------------------------- | ------------------- | ----------------- | :-----: | :-------: | :-------: |
| [Polonais](https://github.com/UnitexGramLab/unitex-lingua/blob/master/pl?target=_blank)                  | Polski              | Indo-Européenne     | pl      | pol       | pl        |

## Corpus

- Elektronika

[/ui-tab]

[ui-tab title="pt-BR"]

| Langue                 | Nom originaire         | Famille de Langue   | IETF    | ISO 639-2 | ISO 639-1 |
| ----------------------------- | ------------------- | ----------------- | :-----: | :-------: | :-------: |
| [Portugais (Brésil)](https://github.com/UnitexGramLab/unitex-lingua/blob/master/pt-BR?target=_blank)| Português (Portugal)| Indo-Européenne     | pt-BR   |           |           |

## Corpus

- A Senhora, de José Manuel de Alencar

## Dictionnaires

- 880,000 mots simples
- 4,100 mots composés

## Références

```
Marcelo C.M. Muniz, Maria das Graças V. Nunes, Eric Laporte, 2005. "UNITEX-PB, a set of flexible language resources for Brazilian Portuguese", in Proceedings of the Workshop on Technology on Information and Human Langue (TIL), São Leopoldo (Brésil): Unisinos, pp. 2059-2068.
```

```
Muniz, Marcelo Caetano Martins, 2003. Léxicos Computacionais: Desafios na Construção de um Léxico de Português Brasileiro. Monographie de qualification. Instituto de Ciências Matemáticas de São Carlos, NILC, Université de São Paulo. 50p.
```

```
Muniz, Marcelo Caetano Martins, 2004, A construção de recursos lingüístico-computacionais para o português do Brasil: o projeto Unitex-PB. Mémoire de mestrado, NILC, Université de São Paulo, 72 p.
```

```
Muniz, Marcelo Caetano Martins, & Maria das Graças Volpe NUNES, 2004, A construção de recursos lingüístico-computacionais para o português do Brasil: o projeto Unitex-PB. NILC, Université de São Paulo, 12 p.
```

```
Oliveira Neto, Miguel Raimundo; Layane Garcia de Souza. 1996. Construção de um Dicionário Eletrônico para o Português do Brasil, Trabalho de conclusão de curso (Graduação), Ciências da Computação, UFG - Universidade Federal de Goiás.
```

```
Vale, Oto Araujo. 1990. Dictionnaire électronique des conjugaisons des verbes du portugais du Brésil, Rapport Technique du LADL n° 27, Paris: Université Paris 7.
```

## Plus d'informations

- [Projet Unitex-PB](http://www.nilc.icmc.usp.br/nilc/projects/unitex-pb.htm?target=_blank)

[/ui-tab]

[ui-tab title="pt-PT"]

| Langue                 | Nom originaire         | Famille de Langue   | IETF    | ISO 639-2 | ISO 639-1 |
| ----------------------------- | ------------------- | ----------------- | :-----: | :-------: | :-------: |
| [Portugais (Portugal)](https://github.com/UnitexGramLab/unitex-lingua/blob/master/pt-PT?target=_blank)  | Português (Brasil)  | Indo-Européenne     | pt-PT   |           |           |

## Corpus

- Os Pobres, de Raul Brandão

## Dictionnaires

- 940,000 mots simples
- 11,000 mots composés

## Références

```
Eleutério, Samuel; Elisabete Ranchhod; Jorge Baptista; Helena Freire (1995), A System of Electronic Dictionnaires of Portuguese, Lingvisticae Investigationes, XIX: 1, pp. 57-82, Amsterdam/Philadelphia: John Benjamins Publishing Company.
```

```
Ranchhod, Elisabete; Cristina Mota; Jorge Baptista (1999), A Computational Lexicon of Portuguese for Automatic Text Parsing. In Proceedings of SIGLEX'99: Standardizing Lexical Resources, 37th Annual Meeting of the ACL, pp. 74-81, College Park, Maryland, USA. [download]
```

```
Carvalho, Paula and Elisabete Ranchhod (2003), Analysis and Disambiguation of Nouns and Adjectives in Portuguese by FST. In Proceedings of the Workshop on Finite-State Methods in Natural Language Processing, pp. 105-112, EACL?03, Budapest, Hungary. [download]
```

```
Ranchhod, Elisabete; Paula Carvalho; Cristina Mota; A. Barreiro (2004), Portuguese Large-scale Language Resources for NLP Applications. In Lino, Maria Teresa; M. F. Xavier; F. Ferreira; R. Costa; R. Silva (Eds.), Proceedings of the IV Conference on Language Resources and Evaluation, LREC, pp. 1755-1759, Lisboa.
```

```
Mota, Cristina; Paula Carvalho; Elisabete Ranchhod (2004), Multiword Lexical Acquisition and Dictionary Formalization. In Proceedings of the Workshop Enhancing and Using Electronic Dictionnaires, Coling'2004, pp. 73-77, Geneva, Switzerland. [download]
```

```
Ranchhod, Elisabete M. (2005), Using Corpora to Increase Portuguese MWU Dictionnaires. Tagging MWU in a Portuguese Corpus. In Proceedings from the Corpus Linguistics Conference Series, Vol. 1, no. 1, University of Birmingham. 
```

## Plus d'informations

- [Laboratoire d'Ingénérie du Langage](http://label.ist.utl.pt/en/publications_def.php?target=_blank)

[/ui-tab]

[ui-tab title="ru"]

| Language                 | Nom originaire         | Famille de Langue   | IETF    | ISO 639-2 | ISO 639-1 |
| ----------------------------- | ------------------- | ----------------- | :-----: | :-------: | :-------: |
| [Russe](https://github.com/UnitexGramLab/unitex-lingua/blob/master/ru?target=_blank)                 | Русский             | Indo-Européenne     | ru      | rus       | ru        |

## Corpus

- Le Joueur, de Fiodor Dostoïevski

## Dictionnaires

- 9,800 entrées (260,000 formes distinctes) sont fournies avec Unitex/GramLab.
- Le lexique complet contient:
  - 140,000 entrées simples (= 2,7 millions de formes distinctes) 
  - 160,000 noms propres (= 840,000 de formes distinctes) 
  - 1800 mots composés

Le dictionnaire est un extrait du dictionnaire électonique morphologique du russe developpé au CIS, Munich.
Ce dictionnaire contient environ 15% du dictionnaire original (les lemmes les plus fréquents).
Si vous souhaité obtenir la version complète de ce dictionnaire, contactez Sebastian Nagel à wastl at cis.uni-muenchen.de

# Références

```
Nagel, Sebastian 2002: Formenbildung im Russischen. Formale Beschreibung und Automatisierung für das CISLEX-Wörterbuchsystem.
```
  
[/ui-tab]

[ui-tab title="sr-Cyrl"]

| Language                 | Nom originaire         | Famille de Langue   | IETF    | ISO 639-2 | ISO 639-1 |
| ----------------------------- | ------------------- | ----------------- | :-----: | :-------: | :-------: |
| [Serbe-Cyrillique](https://github.com/UnitexGramLab/unitex-lingua/blob/master/sr-Cyrl?target=_blank)   | Српски              | Indo-Européenne     | sr-Cyrl | sro       | sr        |

## Corpus

- la traduction serbe de Candide de Voltaire

## Dictionnaires

- 88,753 formes simples
- 10,288 formes composées
- Le dictionnaire complet contient:
  - 3,753,750 entrées simples
  - 214,295 mots composés
- Un graphe dictionnaire pour la reconnaissance et la normalisation des nombres multimots

[/ui-tab]

[ui-tab title="sr-Latn"]

| Language                 | Nom originaire         | Famille de Langue   | IETF    | ISO 639-2 | ISO 639-1 |
| ----------------------------- | ------------------- | ----------------- | :-----: | :-------: | :-------: |
| [Serbe-Latin](https://github.com/UnitexGramLab/unitex-lingua/blob/master/sr-Latn?target=_blank)      | Srpski (latinica)   | Indo-Européenne     | sr-Latn | srm       |           |

## Corpus

- la traduction serbe de Candide de Voltaire

## Dictionnaires

- 88,753 formes simples
- 10,288 formes composées
- Le dictionnaire complet contient:
  - 3,753,750 entrées simples
  - 214,295 mots composés
- Un graphe dictionnaire pour la reconnaissance et la normalisation des nombres multimots

[/ui-tab]

[ui-tab title="es"]

| Language                 | Nom originaire         | Famille de Langue   | IETF    | ISO 639-2 | ISO 639-1 |
| ----------------------------- | ------------------- | ----------------- | :-----: | :-------: | :-------: |
| [Espagnol](https://github.com/UnitexGramLab/unitex-lingua/blob/master/es?target=_blank)                 | Español             | Indo-Européenne     | es      | spa       | es        |

## Corpus

- Trafalgar, de Benito Pérez Galdós

## Dictionnaires

- 638,000 mots simples

## Références

```
Blanco, X. (2001): "Dictionnaires électroniques et traduction automatique français-espagnol", Langages 143 (Lexicologie contrastive
espagnol-français), Larousse: Paris.
```

```
Blanco, X. (2000): "Les dictionnaires électroniques de l'espagnol (DELASs et DELACs)", Lingvisticae Investigationes XXIII: 2, Amsterdam/Philadelphia:Benjamins.
```

```
Blanco, X. (2000): "Verbos soporte y clases de predicados en español",
Lingüística Española Actual, Madrid: Arcos Libros.
```

```
Guenthner, F., Blanco, X. : "Multi-lexemic Expressions: An Overview", Lingvisticae Investigationes Suplementa, Amsterdam/Philadelphia:Benjamins.
```

```
Blanco, X.; Català, D. (1999): "Quelques remarques sur un dictionnaire
électronique d'adverbes composés en espagnol", Lingvisticae Investigationes XXII, Amsterdam: John Benjamins.
```

```
Blanco, X. (1997): "Noms composés et traduction français-espagnol", Lingvisticae Investigationes XXI:1, Amsterdam/Philadelphia: Benjamins.
```

[/ui-tab]

[ui-tab title="th"]

| Language                 | Nom originaire         | Famille de Langue   | IETF    | ISO 639-2 | ISO 639-1 |
| ----------------------------- | ------------------- | ----------------- | :-----: | :-------: | :-------: |
| [Thai](https://github.com/UnitexGramLab/unitex-lingua/blob/master/th?target=_blank)                    | ไทย                 | Taï–Kadaï         | th      | tha       | th        |

## Corpus

- extrait du roman Si Phan Din

## Dictionnaires

- 33,000 mots simples
- 100 mots composés 

[/ui-tab]

[/ui-tabs]

<br />
 


{assets:inline_js}
  window.addEventListener('DOMContentLoaded', function() {
      (function($) {
          $(document).ready(function() {
            $('a[rel=tab]:contains('+urlQueryLang+')').click();
          });
      })(jQuery);
  });
{/assets}