UnitexGramLab/unitexgramlab-org

View on GitHub
pages/02.blog/01.featured/language-resources/post.en.md

Summary

Maintainability
Test Coverage
---
title: "Unitex/GramLab Language Resources"

date:   04/26/2015

taxonomy:
    category: [blog, featured]
    tag: [resources,lgpllr]

shortcode-core:
    active: true

routes:
  default: '/language-resources'
---
The language resources included in Unitex/GramLab are distributed
under the [LGPLLR](../lgpllr) license. According to this license, you can obtain readable
versions of these resources. You can download them for English and French
[here](http://infolingu.univ-mlv.fr/DonneesLinguistiques/Dictionnaires/telechargement.html).
You can also use the `Uncompress` program included in Unitex 2.1 or higher to get the text
version of binary dictionaries distributed with Unitex.

===

The latest Unitex/GramLab distribution contains resources for
[many languages](https://github.com/UnitexGramLab/unitex-lingua?target=_blank).
Here is a brief presentation of these resources. THESE RESOURCES ARE NOT THE WHOLE
 DICTIONARIES. Please follow the links for more information.

[ui-tabs position="top-left" active="0" theme="badges"]

[ui-tab title="ar"]

| Language                 | Native name         | Language Family   | IETF    | ISO 639-2 | ISO 639-1 |
| ----------------------------- | ------------------- | ----------------- | :-----: | :-------: | :-------: |
| [Arabic](https://github.com/UnitexGramLab/unitex-lingua/blob/master/ar?target=_blank)                  | العربية             | Afro-Asiatic      | ar      | ara       | ar        |


## Corpora

- Fishing Earthquakes Water
- Hayy ibn Yaqdhan, by Ibn Tufail

[/ui-tab]


[ui-tab title="en"]

| Language                 | Native name         | Language Family   | IETF    | ISO 639-2 | ISO 639-1 |
| ----------------------------- | ------------------- | ----------------- | :-----: | :-------: | :-------: |
| [English](https://github.com/UnitexGramLab/unitex-lingua/blob/master/en?target=_blank)                 | English             | Indo-European     | en      | eng       | en        |

## Corpora

- Ivanhoe, by Sir Walter Scott (courtesy of Jim Manis)

## Dictionaries

- 296,606 simple words (150,145 distinct lemmas)
- 132,990 compound words (69,912 distinct lemmas) 

## References

### Simple words

```
Klarsfeld, G., McCarthy-Hammani. Dictionnaire électronique du LADL pour les mots simples de l'anglais.
```

```
Monceaux, A. 1995. Le dictionnaire des mots simples anglais : mots nouveaux et variantes orthographiques, rapport technique IGM 95-15, Institut Gaspard Monge, Université de Marne-la-Vallée
```

### Compound words

```
Savary, A. (2000). Recensement et description des mots composés - méthodes et applications. Thèse de doctorat en Informatique Fondamentale, Université de Marne-la-Vallée, pp. 90-101
```

```
Chrobot, A., Courtois, B., Hammani, M., Gross, M., Zellagui, K. (1999). Dictionnaire Electronique DELAC anglais : noms composés, rapport technique n°59, LADL, Université Paris 7.
```
[/ui-tab]

[ui-tab title="fi"]

| Language                 | Native name         | Language Family   | IETF    | ISO 639-2 | ISO 639-1 |
| ----------------------------- | ------------------- | ----------------- | :-----: | :-------: | :-------: |
| [Finnish](https://github.com/UnitexGramLab/unitex-lingua/blob/master/fi?target=_blank)                 | Suomi               | Uralic            | fi      | fin       | fi        |


## Corpora

- Universal Declaration of Human Rights


## References

```
Holman, Eugene, 1984, Handbook of Finnsih Verbs, Suomalaisen Kirjallisuuden Toimituksia 408, SKS, Vaasa.
```

```
Jäppinen, Harri and Ylilammi, Matti, 1986, "Associative Model of Morphological Analysis :An Empirical Inquiry" Computational Linguistics, Volume 12, n° 4, 257-269.
```

```
Karlsson, Fred, 1979, "Automatic Morphological Segmentation of Finnsih Word Forms", Papers from the Conference on General Linguistics, Seili, Publications of the Linguistic Association of Finland, Turku, 77-90.
```

```
Karlsson, Fred, 1982a, Suomen kielen äänne- ja muotorakenne, WSOY, Helsinki.
```

```
Karlsson, Fred, 1982b, Suomen peruskielioppi, SKS, Piekäsämki.
```

```
Koskenniemi, Kimmo, 1979, "On Automatic Lemmatisation of Finnish" Papers from the Conference on General Linguistics, Seili, Publications of the Linguistic Association of Finland, Turku, 77-90.
```

```
Laaksonen, Kaino & Lieko, Anneli, 1988, Kielen äänne- ja muoto-oppi, Oy Finn Lectura Ab, Helsinki.
```

```
Maurel, Denis and Guenthner, Franz, 2005, Automata and Dictionaries Texts in Computing Science, Volume 6, King’s College Publications, London.
```

```
Pentillä, Aarni, 1957, Suomen Kielioppi, Werner Södertröm Osakeyhtiö, Porvoo, Helsinki.
```

```
Remes, Hannu. 1985, Suomen kielen fonologian ja taivutusmorfologian perusteet, Joensuun yliopisto.
```

```
Renault, Richard. 1985, Suomen kielen fonologian ja taivutusmorfologian perusteet, in Bottineau, Didier (ed), Les agglutinations dans la morphologie et dans les langues, Approche typologique et contrastive et théorisation, LINX 58, à paraître.
```

```
Tuomi,Tuomo (ed.), 1972, Suomen kielen käänteissanakirja, SKS, Hämeenlinna.
```

## More information

- [Ressources pour le traitement automatique de corpus finnois](http://www.unicaen.fr/ufr/homme/linguistique/ressources/finnois/index.html)

[/ui-tab]

[ui-tab title="fr"]

| Language                 | Native name         | Language Family   | IETF    | ISO 639-2 | ISO 639-1 |
| ----------------------------- | ------------------- | ----------------- | :-----: | :-------: | :-------: |
| [French](https://github.com/UnitexGramLab/unitex-lingua/blob/master/fr?target=_blank)                  | Français            | Indo-European     | fr      | fra       | fr        |

## Corpora

- Le tour du monde en 80 jours, by Jules Verne

## Dictionaries

- 683,824 simple words (102,073 distinct lemmas)
- 108,436 compound words (83,604 distinct lemmas)
- given name dictionaries (24,000 entries)
- profession dictionary (4,200 entries)
- 2,700 Quebec simple words

## References

### France simple words


```
Courtois Blandine, 1990, Un système de dictionnaires électroniques pour les mots simples du français, Langue Française 87, Paris: Larousse.

```

```
Courtois Blandine, 1994-1995, Buts et méthodes de l'élaboration des dictionnaires électroniques du LADL, Cahiers du CIEL "Théories et pratiques du lexique", Université Paris 7.

```

```
Courtois, Blandine, 1996, "Formes ambiguës de la langue française", Lingvisticae Investigationes XX:1, Amsterdam/Philadelphia, John Benjamins, p.167-202.

```

### Quebec simple words


```
Labelle, Jacques, 1993a, "Lexiques-grammaires et dictionnaires comparés: deux variétés de français, un français commun", Revue d'études canadiennes, revue de l'Association Italienne d'Etudes Canadiennes, Bari, Schena Editore.

```

```
Labelle, Jacques, 1993b, Dictionnaire électronique des formes simples en français du Québec: DELQUES V1.0, Rapport de recherche 9, Montréal, GRFL, UQAM.

```

```
Labelle, Jacques, 1995, "Le traitement automatique des variantes linguistiques en français: l'exemple des concrets", Lingvisticae Investigationes XIX:1, Amsterdam/Philadelphia: John Benjamins, p.137-152.

```

```
Labelle, Jacques, 1995, "Lexique-grammaire et variation en français", in J. Labelle et Ch. Leclère (eds.), Lexique grammaires comparés en français, LIS 17, p.13-28, Amsterdam/Philadelphia, John Benjamins.

```
### France compound words

```
Courtois, Blandine ; Garrigues, Mylène ; Gross, Gaston ; Gross, Maurice ; Jung, René ; Mathieu-Colas, Michel ; Silberztein, Max ; Vivès, Robert. 1997. Dictionnaire électronique des noms composés DELAC : les composants NA et NN, Rapport Technique du LADL 55, Paris, Université Paris 7.

```

```
Courtois, Blandine ; Garrigues, Mylène ; Gross, Gaston ; Gross, Maurice ; Jung, René ; Mathieu-Colas, Michel ; Monceaux, Anne ; Poncet-Montange Anne ; Silberztein, Max ; Vivès, Robert. 1997. Dictionnaire électronique DELAC : les noms composés binaires, Rapport Technique du LADL 56, Paris, Université Paris 7.

```

```
Gross, Gaston. 1996. Les expressions figées en français. Noms composés et autres locutions, Paris : Ophrys.

```

```
Monceaux, Anne. 1993. La formation des noms composés de structure Nom Adjectif. élaboration d'un dictionnaire électronique. Thèse de doctorat, Université de Paris 7.

```

```
Silberztein, Max D. 1993, Les groupes nominaux productifs et les noms composés lexicalisés, Lingvisticae Investigationes XVII:2, Amsterdam/Philadelphia : John Benjamins, p. 405-426.

```

```
Gross, Gaston. 1990. Définition des noms composés dans un lexique-grammaire. Langue Française 87, Paris : Larousse.

```

```
Silberztein, Max. 1990. Le dictionnaire électronique des mots composés. Langue Française 87, pp. 71-83, Paris : Larousse.

```

```
Courtois, Blandine; Max Silberztein. 1989. Les dictionnaires électroniques DELAS et DELAC. In RELAI: Recherches en Linguistique Appliquée à l'Informatique. Actes du colloque "La description des langues naturelles en vue d'applications informatiques", Québec, 1988, Québec : Université Laval.

```

```
Gross, Gaston. 1988. Noms composés N de N. Rapport de Recherches 5, Laboratoire de Linguistique Informatique, Villetaneuse : Université Paris 13.

```

```
Gross, Gaston. 1988. Noms composés N de N. Rapport de Recherches 6, Laboratoire de Linguistique Informatique, Villetaneuse : Université Paris 13.

```

```
Gross, Gaston. 1988. Degré de figement dans les noms composés. Langages 90, pp. 57-72, Paris : Larousse.

```

```
Mathieu-Colas, Michel. 1988. Variations graphiques des mots composés dans le Petit Larousse et le Petit Robert. Lingvisticae Investigationes XII:2, pp. 235-280, Amsterdam/Philadelphia : John Benjamins.

```

```
Gross, Gaston; René Jung; Michel Mathieu-Colas. 1987. échantillon de noms composés de la forme Nom-Adjectif, Rapport 5 du Programme de Recherches Coordonnées Informatique Linguistique, LADL, Paris : Université Paris 7.

```

```
Mathieu-Colas, Michel. 1987. Composés de type NAdj. Rapport de Recherches 3, Laboratoire de Linguistique et Informatique, Université de Villetaneuse.

```

```
Gross, Gaston. 1986. Typologie des noms composés: le lexique électronique des noms composés du français, Rapport ATP, CNRS, Université Paris 13.

```

```
Gross, Maurice, 1986. "Lexicon-Grammar. The Representation of Compound Words". In COLING-1986. Proceedings, Bonn, pp. 1-6.

```

### France frozen adverbs


```
Gross, Maurice, 1986. Grammaire transformationnelle du français. 3 - Syntaxe de l'adverbe, Paris, 670 p.

```

### France subordinating conjunctions


```
Piot, Mireille. 1976. Les conjonctions 'finales' du français. Recherches Linguistiques 5, pp. 208-234, Université Paris 8-Vincennes.

```

```
Piot, Mireille. 1978. Étude transformationnelle de quelques classes de conjonctions de subordination du français. Thèse de troisième cycle, LADL, Université Paris 7, 455 p.

```

```
Piot, Mireille. 1979. Les conjonctions 'finales' du français. Lingua e Stile 14:1, pp. 27-48.

```

```
Piot, Mireille. 1984. Sur une classe de conjonctions de subordination du français. Revue Québécoise de Linguistique 13.2:157-191.

```

```
Piot, Mireille. 1988a. Coordination-subordination : une définition générale. Langue Française 77, pp. 3-18, Paris : Larousse.

```

```
Piot, Mireille. 1988b. Conjonctions de subordination et figement. Langages 90, pp. 39-56, Paris: Larousse.

```

```
Piot, Mireille. 1988c. Conjonctions de subordination et problèmes de classification. In Grammaire et histoire de la grammaire. Hommage à la mémoire de Jean Stéfanini, pp. 335-352, Aix-en-Provence: Publications de l'Université de Provence.

```

```
Piot, Mireille. 1991. Problèmes de classification dans les conjonctions de subordination du français. Studia Romanica Posnaniensia XVI, pp. 135-148, Posnan: UAM.

```

```
Piot, Mireille. 1991. Quelques problèmes inédits de constructions avec des conjonctions "conséquentielles". Lingvisticae Investigationes XV:2, Amsterdam/Philadelphia: John Benjamins, pp. 285-303.

```

```
Piot, Mireille. 1993. Méthodologie et recherche en syntaxe comparée des langues romanes. L'exemple des complétives et infinitives. Studia Romanica Posnaniensia XVII, Poznan, Pologne : UAM, pp. 175-187.

```

```
Piot, Mireille. 1993. "Le pronom en dans les subordonnées 'conséquentielles', Actes du Vème Colloque International des Langues Romanes et Slaves (1992), Cracovie, Pologne.

```

```
Piot, Mireille. 1993, "Les connecteurs du français", Lingvisticae Investigationes XVII:1, Amsterdam/Philadelphia, John Benjamins, pp. 141-160.

```

```
Piot, Mireille. 1995, "Les conjonctions de subordination et la négation", in H. Bat-Zeev Shyldkrot et L. Kupferman (eds.), Tendances récentes en linguistique française et générale. Volume dédié à David Gaatone, LIS 20, Amsterdam/Philadelphia, John Benjamins, pp. 335-344.

```

```
Piot, Mireille. 1995, Composition transformationnelle de phrases par subordination et coordination, Thèse de Doctorat d'état, Paris, Université Paris 7, 426 p.

```

```
Piot, Mireille. 1996. Conjonctions de temps et constructions absolues dans les langues romanes. In Actes du 19ème Congrès International de Philologie et de Linguistique Romane (1989), Santiago de Compostela, 24 p.

```

```
Piot, Mireille. 1996, "Problemi nella classificazione delle congiunzioni subordinanti del francese" in E. D'Agostino (ed.), Tra sintassi e semantica, Napoli, ESI, pp. 399-413.

```

```
Piot, Mireille. 1996, "Propriétés et définition des conjonctions de subordination, de coordination et des adverbes conjonctifs du français", in B. Lamiroy et W. Van Belle (eds.), Themanummer 'Connectoren', Leuvense Bijdragen 84 (1995), 3, pp. 329-348.

```

```
Piot, Mireille. 1997, "Subordination-coordination : étude de transferts et des relations entre processus", in C. Muller (ed.), Actes du Colloque International 'Indépendance et intégration syntaxiques' (Bordeaux), Tübingen, Max Niemeyer, pp. 35-42. 
```
[/ui-tab]


[ui-tab title="oge"]

| Language                 | Native name         | Language Family   | IETF    | ISO 639-2 | ISO 639-1 |
| ----------------------------- | ------------------- | ----------------- | :-----: | :-------: | :-------: |
| [Georgian (Ancient)](https://github.com/UnitexGramLab/unitex-lingua/blob/master/oge?target=_blank)     | ქართული             | South Caucasian   | oge     |           |           |

## Corpora

- Isaac of Nineveh (Isaacus Ninivita), first collection, unpublished old Georgian
text of two different translations, old translation (IXs) and new translation (XIs)
— 25.900 words; 7.180 forms.

## Dictionaries

- 7.254 simple words

## References

```
P. Bedjan, Mar Isaacus Ninivita de perfectione religiosa, Parisiis, 1909.
```

```
A. J. Wensinck, Mystic Treatises by Isaac of Nineveh, Amsterdam, 1923.
```

```
D. Miller, The Ascetical Homilies Saint Isaac the Syrian, Boston, 1984.
```

## More information

- More information is available from the "Apply Lexical Resources" window of the Unitex/GramLab IDE. 

[/ui-tab]

[ui-tab title="de"]

| Language                 | Native name         | Language Family   | IETF    | ISO 639-2 | ISO 639-1 |
| ----------------------------- | ------------------- | ----------------- | :-----: | :-------: | :-------: |
| [German](https://github.com/UnitexGramLab/unitex-lingua/blob/master/de?target=_blank)                  | Deutsch             | Indo-European     | de      | deu       | de        |

## Corpora

- Franz Kafka's "Proceß"

## Dictionaries

- 30.000 word forms
- Additional dictionaries, e.g. for numerals

The dictionary is an extract of the German computational morphological dictionary
developed at CIS, Munich ([CISLEX](http://www.cis.uni-muenchen.de?target=_blank)).

This extract contains about 10% of the original dictionary, minimally the most
frequent lemmata, so it is possible to work with it. For the full version of the
lexicon (300,000 lemmata), please contact F. Guenthner at gue at cis.uni-muenchen.de

## References

```
Engelke, Sabine 2003: Freie und feste Adverbiale im Deutschen. Studien zur Informations- und Sprachverarbeitung 8. München: CIS. [Ph.D. LMU München] 
```

```
Guenthner, Franz; Petra Maier 1996: Das CISLEX-Wörterbuchsystem. In: Feldweg, H.; E. W. Hinrichs (eds.): Lexikon und Text 69–82. Tübingen: Max Niemeyer. [also in: Lexikographica 73, 69–82.] 
```

```
Langer, Stefan 1996: Selektionsklassen und Hyponymie im Lexikon. Ph.D.. CIS-Bericht-96-94. München. [http://www.cis.uni-muenchen.de/pub/cis-berichte/diss_langer.ps.gz] [Ph.D. LMU München] 
```

```
Langer, Stefan; Petra Maier; Jürgen Oesterle 1996: CISLEX -- An electronic dictionary for German: its structure and a lexicographic application. CIS-Bericht-96-97. München. [also in: Kiefer, F. et al. (eds.): Papers in computational lexicography. COMPLEX 1996, 155-156. Budapest] 
```

```
Maier-Meyer, Petra 1995: Lexikon und automatische Lemmatisierung. CIS-Bericht-95-84. München. [http://www.cis.uni-muenchen.de/pub/cis-berichte/CIS-Bericht-95-84.ps.gz] [Ph.D. LMU München] 
```

```
Schnorbusch, Daniel 1999: Einfache deutsche Verben. Eine syntaktische und semantische Beschreibung der verbalen Simplizia für das elektronische Lexikonsystem CISLEX. Studien zur Informations- und Sprachverarbeitung 1. München: Centrum für Informations- und Sprachverarbeitung. [Ph.D. LMU München] 
```

```
Thalmeier, Karin 2006: Die semantische Klassifikation der Adjektive des Deutschen für das elektronische Wörterbuch CISLEX. Studien zur Informations- und Sprachverarbeitung 11. München: CIS. [Ph.D. LMU München]
```

[/ui-tab]

[ui-tab title="grc"]

| Language                 | Native name         | Language Family   | IETF    | ISO 639-2 | ISO 639-1 |
| ----------------------------- | ------------------- | ----------------- | :-----: | :-------: | :-------: |
| [Greek (ancient)](https://github.com/UnitexGramLab/unitex-lingua/blob/master/grc?target=_blank)        | Αρχαία  Ελληνικα    | Indo-European     | grc     | grc       |           |


## Corpora

- Gregory of Nazianzus, Discourses X and XII (IVe s. PCN). Migne's Patrologia
Graeca, vol. 35, col. 828-832; 844-839 (1.905 words)

## Dictionaries

-  280,733 simple forms (April 2006)

## References

```
Gérard, Raphaël; Kindt, Bastien. 2004. D'un dictionnaire de lemmatisation (D.A.G.) à un dictionnaire dérivationnel du grec ancien (D.D.G.). Le poids des mots. Actes des 7èmes Journées internationales d'Analyse statistique des Données Textuelles, 10-12 mars 2004, ed. A. Dister, C. Fairon, G. Purnelle, vol. 1: 488-495, Louvain-la-Neuve.
```

```
Kevers, Laurent; Kindt, Bastien. 2004, Vers un concordanceur-lemmatiseur en ligne du grec ancien. L'Antiquité Classique, 73: 203-213.
```

```
Kevers, Laurent; Kindt, Bastien. 2005. Traitement automatisé de l’ambiguïté lexicale en grec ancien. Première approche par application de grammaires locales. Lingvisticae Investigationes, 28: 235-254.
```

```
Kindt, Bastien. 2003. Avancées dans le traitement automatique du grec ancien à l'U.C.L.. L'analyse des textes au service d'une description lexicale de la langue. Une description lexicale de la langue au service de l'analyse des textes. Lexicometrica, numéro spécial «Autour de la lemmatisation» (dir. D. Labbé): 1-17 (cfr http://www.cavi.univ-paris3.fr/lexicometrica/thema/thema1.htm).
```

```
Kindt, Bastien; Yannacopoulou, Anastasia. 2006. Literary Words Automatic Recognition in a Modern Greek Corpus. Proceedings of the 7th International Conference on Greek Linguistics (York, 2005). 
```

## More information

- [The GREgORI Project](http://tpg.fltr.ucl.ac.be?target=_blank)
- "Apply Lexical Resources" window of the Unitex/GramLab IDE

[/ui-tab]

[ui-tab title="el"]

| Language                 | Native name         | Language Family   | IETF    | ISO 639-2 | ISO 639-1 |
| ----------------------------- | ------------------- | ----------------- | :-----: | :-------: | :-------: |
| [Greek (modern)](https://github.com/UnitexGramLab/unitex-lingua/blob/master/el?target=_blank)          | Ελληνικά            | Indo-European     | el      | ell       | el        |


## Corpora

- Journalistic corpus

## Dictionaries

- 360,000 simple words
- 40,000 compound words

These resources represent about 30% of the whole dictionaries.

## References

### Simple words

```
Anastassiadis-Symeonidis, Anna; Kyriacopoulou Tita; Sklavounou Elsa; Thilikos Iasson; Voskaki Rania. 2000. A system for analysing texts in Modern Greek: representing and solving ambiguities. Proceedings of COMLEX 2000, Workshop on Computational Lexicography and Multimedia Dictionaries, 22-23 September 2000, Kato Achaia, Patras.
```

```
Constant, Matthieu; Anastasia Yannacopoulou. 2002. Le dictionnaire électronique du grec moderne: Conception et développement d'outils pour son enrichissement et sa validation. Studies in Greek Linguistics, Proceedings of the 23rd annual meeting of the Department of Linguistics, Faculty of Philosophy, Aristotle University of Thessaloniki, 17-19 May 2002, Thessaloniki.
```

```
Kazantzi, Dimitra; Nantia Konstenian; Theodora Loïzidou; Polyxeni Pavlidou; Katerina Rizou; Panayota Tampanoglou. 2002. Π?οβλήματα στην αυτόματη κλίση απλών και σ?νθετων ονομάτων. Studies in Greek Linguistics, Proceedings of the 23rd annual meeting of the Department of Linguistics, Faculty of Philosophy, Aristotle University of Thessaloniki, 17-19 May 2002, Thessaloniki.
```

```
Kyriacopoulou, Panayota-Tita. 1990a. Les dictionnaires électroniques: la flexion verbale en grec moderne. Thèse de doctorat (Université Paris VIII), Paris.
```

```
Kyriacopoulou, Tita. 1990a. Les dictionnaires électroniques : Morphologie et syntaxe. Le cas du grec moderne, Proceedings AILA 1990, Chalcidique.
```

```
Kyriacopoulou, Tita. 1990b. Τα ηλεκτ?ονικά λεξικά – Η ?ηματική κλίση: Γενική πα?ουσίαση Studies in Greek Linguistics, Proceedings of the 10th annual meeting of the Department of Linguistics, Faculty of Philosophy, Aristotle University of Thessaloniki, Thessaloniki.
```

```
Kyriacopoulou, Tita. 1991. Τα ηλεκτ?ονικά λεξικά. Γλωσσολογικά δεδομένα. Studies in Greek Linguistics, Proceedings of the 11th annual meeting of the Department of Linguistics, Faculty of Philosophy, Aristotle University of Thessaloniki, Thessaloniki.
```

```
Kyriacopoulou, Tita. 1992a. Η αυτόματη επεξε?γασία της ?ηματικής κλίσης των Ελληνικών. Studies in Greek Linguistics, Proceedings of the 12th annual meeting of the Department of Linguistics, Faculty of Philosophy, Aristotle University of Thessaloniki, 18-20 April 1991, Thessaloniki.
```

```
Kyriacopoulou, Tita. 1992b. Le dictionnaire électronique des verbes grecs: le phénomène de la défectivité. Mémoires CERIL no 8, Paris 7.
```

```
Kyriacopoulou, Tita. 1992c. H αυτόματη επεξε?γασία των ελληνικών. Π?ακτικά του διεθνο?ς Συμποσίου για τη σ?γχ?ονη ελληνική γλώσσα, 14-15 Φεβ?ουα?ίου 1992, Σο?βόννη.
```

### Compound words

```
Kyriacopoulou, Tita. 2002. Un système d'analyse de textes en grec moderne: représentation des noms composés. Actes du 5ème Colloque International de Linguistique Grecque, 13-15 septembre 2001, Sorbonne, Paris.
```

```
Kyriacopoulou, Tita; Olympia Tsaknaki. 2002 Ηλεκτ?ονική αναπα?άσταση των πα?οιμιών με πεπε?ασμένα αυτόματα. Studies in Greek Linguistics, Proceedings of the 23rd annual meeting of the Department of Linguistics, Faculty of Philosophy, Aristotle University of Thessaloniki, 17-19 May 2002, Thessaloniki.
```

```
Kyriacopoulou, Tita; Safia Mrabti; Anastasia Yannacopoulou. 2002. Le dictionnaire électronique des noms composés en grec moderne. Lingvisticae Investigationes, Amsterdam/Philadelphie.
```

```
Mavropoulos, Thanassis; Stella Bakoura. 2002. Ηλεκτ?ονικό λεξικό της ?έας Ελληνικής: αναπα?άσταση των κυ?ίων ονομάτων και ουσιαστικών και επιθέτων που δηλώνουν εθνικότητα. Studies in Greek Linguistics, Proceedings of the 23rd annual meeting of the Department of Linguistics, Faculty of Philosophy, Aristotle University of Thessaloniki, 17-19 May 2002, Thessaloniki.
```

```
Tsaknaki, Olympia. 2000a. Electronic dictionary of proverbs. Proceedings of COMLEX 2000, Workshop on Computational Lexicography and Multimedia Dictionaries, 22-23 September 2000, Kato Achaia, Patras.
```

```
Tsaknaki, Olympia. 2000b. La traduction des noms d'animaux dans les proverbes. Actes du Colloque international «Traduction humaine, Traduction automatique, Interprétation», 28-30 septembre 2000, Tunis.
```

```
Voskaki, Rania; Iasson Thilikos. 2002. Αναπα?άσταση των ουσιαστικοποιημένων επιθέτων της ?έας Ελληνικής με διαδικασίες αυτοματισμο? πεπε?ασμένων καταστάσεων. Studies in Greek Linguistics, Proceedings of the 23rd annual meeting of the Department of Linguistics, Faculty of Philosophy, Aristotle University of Thessaloniki, 17-19 May 2002, Thessaloniki.
```

```
Voyatzi, Stavroula. 2002. Αυτόματη αναγνώ?ιση των χ?ονικών εκφ?άσεων: ημε?ομηνίες και ώ?ες. Studies in Greek Linguistics, Proceedings of the 23rd annual meeting of the Department of Linguistics, Faculty of Philosophy, Aristotle University of Thessaloniki, 17-19 May 2002, Thessaloniki. 
```

[/ui-tab]

[ui-tab title="it"]

| Language                 | Native name         | Language Family   | IETF    | ISO 639-2 | ISO 639-1 |
| ----------------------------- | ------------------- | ----------------- | :-----: | :-------: | :-------: |
| [Italian](https://github.com/UnitexGramLab/unitex-lingua/blob/master/it?target=_blank)                 | Italiano            | Indo-European     | it      | ita       | it        |

## Corpora

- I Malavoglia, by Giovanni Verga

## Dictionaries

- 118,000 simple words
- 32,000 compound words
- 630 toponyms (simple words)
- 3255 proper names (simple words)
- 223 toponyms (compound words)
- 889 proper names (compound words)

## References

### Simple words

```
Monteleone, M., De Bueriis, G. (1995) Dizionario elettronico DELAS_I - DELAF_I ver. 1.0, Dipartimento di Scienze della Comunicazione dell'Università degli Studi di Salerno.
```

```
Elia, A. (1995), “Dizionari elettronici e applicazioni informatiche?, in S. Bolasco, L.Lebart., A. Salem, (eds.), JADT 1995, III Giornate internazionali di Analisi Statistica dei Dati Testuali, Roma: CISU.
```

```
Vietri, S., A. Elia, (2000), Electronic Dictionaries and Linguistic Analysis of Italian Large Corpora, in Rajman M. & J.C.Chappelier (eds.) JADT 2000 - Actes des 5es Journées internationales d'Analyse statistique des Données Textuelles, 9-11 Mars 2000, Ecole Polytechnique fédérale de Lausanne.
```

```
Elia, A., S. Vietri, (2002), L'analisi automatica dei testi e i dizionari elettronici, in E. Burattini, R. Cordeschi, (eds.), Manuale di Intelligenza Artificiale per le Scienze Umane, Roma: Carocci
```

### Compound words

```
Vietri, S. (1984), On the Study of Idioms in Italian, in AA.VV., Sintassi e morfologia della lingua italiana, Congresso internazionale della Società di Linguistica Italiana, Roma: Bulzoni.
```

```
Vietri, S. (1990), On some comparative frozen sentences in Italian, in Lingvisticae Investigationes 14: 1, pp. 149-174, Amsterdam/Philadelphia: John Benjamins.
```

```
Elia, A. (1995), Per una disambiguazione semi-automatica di sintagmi composti: i dizionari elettronici lessico-grammaticali, in Cipriani e Bolasco, (ed.), Ricerca qualitativa e computer, Milano: Franco Angeli. 
```

[/ui-tab]

[ui-tab title="ko"]

| Language                 | Native name         | Language Family   | IETF    | ISO 639-2 | ISO 639-1 |
| ----------------------------- | ------------------- | ----------------- | :-----: | :-------: | :-------: |
| [Korean](https://github.com/UnitexGramLab/unitex-lingua/blob/master/ko?target=_blank)                  | 한국어                  |  Koreanic         | ko      | kor       | ko        |

[/ui-tab]

[ui-tab title="la"]

| Language                 | Native name         | Language Family   | IETF    | ISO 639-2 | ISO 639-1 |
| ----------------------------- | ------------------- | ----------------- | :-----: | :-------: | :-------: |
| [Latin](https://github.com/UnitexGramLab/unitex-lingua/blob/master/la?target=_blank)                   | Latine              | Indo-European     | la      | lat       | la        |

## Corpora

- De Bello Gallico, by Julius Caesar, made available by the Gutenberg Project. 

## Dictionaries

- 720,000 simple words in DELAF (Charlton Lewis, Charles Short, 1879), made available by the Perseus Project

[/ui-tab]

[ui-tab title="mg"]

| Language                 | Native name         | Language Family   | IETF    | ISO 639-2 | ISO 639-1 |
| ----------------------------- | ------------------- | ----------------- | :-----: | :-------: | :-------: |
| [Malagasy](https://github.com/UnitexGramLab/unitex-lingua/blob/master/mg?target=_blank)                | Malagasy            | Austronesian      | mg      | mlg       | mg        |


## Corpora

- Diwersy, Sascha (2009-), Corpus journalistique du malgache contemporain, Romance Philology Department, University of Cologne.

## Dictionaries

- 801 simple verbs in DEMA-VS
- 55 invariable words in DEMA-INVflx

# References

```
Ranaivoarison, Joro Ny Aina (2014). Modélisation de la morphosyntaxe du malgache. Construction d'un dictionnaire électronique des verbes simples. Thèse de doctorat, Université d'Antananarivo, 510 pages
```

```
Ranaivoarison, Joro Ny Aina; Laporte, Éric; Ralalaoherivony, Baholisoa Simone (2013). Formalization of Malagasy conjugation. Language and Technology Conference, Poznan, Poland. pp.457-462
```

[/ui-tab]

[ui-tab title="no"]

| Language                 | Native name         | Language Family   | IETF    | ISO 639-2 | ISO 639-1 |
| ----------------------------- | ------------------- | ----------------- | :-----: | :-------: | :-------: |
| [Norwegian Bokmål](https://github.com/UnitexGramLab/unitex-lingua/blob/master/no?target=_blank)        | Norsk bokmål        | Indo-European     | no      | nob       | nb        |

## Corpora

- Folkeeventyr

## Dictionaries

- 51,000 simple words
- 640 compound words 

[/ui-tab]

[ui-tab title="nn"]

| Language                 | Native name         | Language Family   | IETF    | ISO 639-2 | ISO 639-1 |
| ----------------------------- | ------------------- | ----------------- | :-----: | :-------: | :-------: |
| [Norwegian Nynorsk](https://github.com/UnitexGramLab/unitex-lingua/blob/master/nn?target=_blank)       | Norsk nynorsk       | Indo-European     | nn      | nno       | nn        |

## Corpora

- Klimarapport

[/ui-tab]

[ui-tab title="pl"]

| Language                 | Native name         | Language Family   | IETF    | ISO 639-2 | ISO 639-1 |
| ----------------------------- | ------------------- | ----------------- | :-----: | :-------: | :-------: |
| [Polish](https://github.com/UnitexGramLab/unitex-lingua/blob/master/pl?target=_blank)                  | Polski              | Indo-European     | pl      | pol       | pl        |

## Corpora

- Elektronika

[/ui-tab]

[ui-tab title="pt-BR"]

| Language                 | Native name         | Language Family   | IETF    | ISO 639-2 | ISO 639-1 |
| ----------------------------- | ------------------- | ----------------- | :-----: | :-------: | :-------: |
| [Portuguese (Portugal)](https://github.com/UnitexGramLab/unitex-lingua/blob/master/pt-BR?target=_blank)| Português (Portugal)| Indo-European     | pt-BR   |           |           |

## Corpora

- A Senhora, by José Manuel de Alencar

## Dictionaries

- 880,000 simple words
- 4,100 compound words

## References

```
Marcelo C.M. Muniz, Maria das Graças V. Nunes, Eric Laporte, 2005. "UNITEX-PB, a set of flexible language resources for Brazilian Portuguese", in Proceedings of the Workshop on Technology on Information and Human Language (TIL), São Leopoldo (Brésil): Unisinos, pp. 2059-2068.
```

```
Muniz, Marcelo Caetano Martins, 2003. Léxicos Computacionais: Desafios na Construção de um Léxico de Português Brasileiro. Monographie de qualification. Instituto de Ciências Matemáticas de São Carlos, NILC, Université de São Paulo. 50p.
```

```
Muniz, Marcelo Caetano Martins, 2004, A construção de recursos lingüístico-computacionais para o português do Brasil: o projeto Unitex-PB. Mémoire de mestrado, NILC, Université de São Paulo, 72 p.
```

```
Muniz, Marcelo Caetano Martins, & Maria das Graças Volpe NUNES, 2004, A construção de recursos lingüístico-computacionais para o português do Brasil: o projeto Unitex-PB. NILC, Université de São Paulo, 12 p.
```

```
Oliveira Neto, Miguel Raimundo; Layane Garcia de Souza. 1996. Construção de um Dicionário Eletrônico para o Português do Brasil, Trabalho de conclusão de curso (Graduação), Ciências da Computação, UFG - Universidade Federal de Goiás.
```

```
Vale, Oto Araujo. 1990. Dictionnaire électronique des conjugaisons des verbes du portugais du Brésil, Rapport Technique du LADL n° 27, Paris: Université Paris 7.
```

## More information

- [Project Unitex-PB](http://www.nilc.icmc.usp.br/nilc/projects/unitex-pb.htm?target=_blank)

[/ui-tab]

[ui-tab title="pt-PT"]

| Language                 | Native name         | Language Family   | IETF    | ISO 639-2 | ISO 639-1 |
| ----------------------------- | ------------------- | ----------------- | :-----: | :-------: | :-------: |
| [Portuguese (Brazil)](https://github.com/UnitexGramLab/unitex-lingua/blob/master/pt-PT?target=_blank)  | Português (Brasil)  | Indo-European     | pt-PT   |           |           |

## Corpora

- Os Pobres, by Raul Brandão

## Dictionaries

- 940,000 simple words
- 11,000 compound words

## References

```
Eleutério, Samuel; Elisabete Ranchhod; Jorge Baptista; Helena Freire (1995), A System of Electronic Dictionaries of Portuguese, Lingvisticae Investigationes, XIX: 1, pp. 57-82, Amsterdam/Philadelphia: John Benjamins Publishing Company.
```

```
Ranchhod, Elisabete; Cristina Mota; Jorge Baptista (1999), A Computational Lexicon of Portuguese for Automatic Text Parsing. In Proceedings of SIGLEX'99: Standardizing Lexical Resources, 37th Annual Meeting of the ACL, pp. 74-81, College Park, Maryland, USA. [download]
```

```
Carvalho, Paula and Elisabete Ranchhod (2003), Analysis and Disambiguation of Nouns and Adjectives in Portuguese by FST. In Proceedings of the Workshop on Finite-State Methods in Natural Language Processing, pp. 105-112, EACL?03, Budapest, Hungary. [download]
```

```
Ranchhod, Elisabete; Paula Carvalho; Cristina Mota; A. Barreiro (2004), Portuguese Large-scale Language Resources for NLP Applications. In Lino, Maria Teresa; M. F. Xavier; F. Ferreira; R. Costa; R. Silva (Eds.), Proceedings of the IV Conference on Language Resources and Evaluation, LREC, pp. 1755-1759, Lisboa.
```

```
Mota, Cristina; Paula Carvalho; Elisabete Ranchhod (2004), Multiword Lexical Acquisition and Dictionary Formalization. In Proceedings of the Workshop Enhancing and Using Electronic Dictionaries, Coling'2004, pp. 73-77, Geneva, Switzerland. [download]
```

```
Ranchhod, Elisabete M. (2005), Using Corpora to Increase Portuguese MWU Dictionaries. Tagging MWU in a Portuguese Corpus. In Proceedings from the Corpus Linguistics Conference Series, Vol. 1, no. 1, University of Birmingham. 
```

## More information

- [Laboratório de Engenharia da Linguagem](http://label.ist.utl.pt/en/publications_def.php?target=_blank)

[/ui-tab]

[ui-tab title="ru"]

| Language                 | Native name         | Language Family   | IETF    | ISO 639-2 | ISO 639-1 |
| ----------------------------- | ------------------- | ----------------- | :-----: | :-------: | :-------: |
| [Russian](https://github.com/UnitexGramLab/unitex-lingua/blob/master/ru?target=_blank)                 | Русский             | Indo-European     | ru      | rus       | ru        |

## Corpora

- The Gambler, by Fiodor Dostoyevsky

## Dictionaries

- 9,800 entries (260,000 distinct forms) are included in Unitex/GramLab.
- The whole lexicon contains:
  - 140,000 simple entries (= 2,7 millions distinct forms) 
  - 160,000 proper nouns (= 840,000 distinct forms) 
  - 1800 compound words

The dictionary is an extract of the Russian computational morphological dictionary developed at CIS, Munich.
This extract contains about 15% of the original dictionary (the most frequent lemmata). If you want to use
the full version of the lexicon, please contact Sebastian Nagel at wastl at cis.uni-muenchen.de

# References

```
Nagel, Sebastian 2002: Formenbildung im Russischen. Formale Beschreibung und Automatisierung für das CISLEX-Wörterbuchsystem.
```
  
[/ui-tab]

[ui-tab title="sr-Cyrl"]

| Language                 | Native name         | Language Family   | IETF    | ISO 639-2 | ISO 639-1 |
| ----------------------------- | ------------------- | ----------------- | :-----: | :-------: | :-------: |
| [Serbian-Cyrillic](https://github.com/UnitexGramLab/unitex-lingua/blob/master/sr-Cyrl?target=_blank)   | Српски              | Indo-European     | sr-Cyrl | sro       | sr        |

## Corpora

- the Serbian translation of Voltaire's Candide

## Dictionaries

- 88,753 simple word forms
- 10,288 compound word forms
- The whole dictionary contains:
  - 3,753,750 simple entries
  - 214,295 compound words
- A dictionary-graph for recognition and normalization of multiword numerals

[/ui-tab]

[ui-tab title="sr-Latn"]

| Language                 | Native name         | Language Family   | IETF    | ISO 639-2 | ISO 639-1 |
| ----------------------------- | ------------------- | ----------------- | :-----: | :-------: | :-------: |
| [Serbian-Latin](https://github.com/UnitexGramLab/unitex-lingua/blob/master/sr-Latn?target=_blank)      | Српски (латиница)   | Indo-European     | sr-Latn | srm       |           |

## Corpora

- the Serbian translation of Voltaire's Candide

## Dictionaries

- 88,753 simple word forms
- 10,288 compound word forms
- The whole dictionary contains:
  - 3,753,750 simple entries
  - 214,295 compound words
- A dictionary-graph for recognition and normalization of multiword numerals

[/ui-tab]

[ui-tab title="es"]

| Language                 | Native name         | Language Family   | IETF    | ISO 639-2 | ISO 639-1 |
| ----------------------------- | ------------------- | ----------------- | :-----: | :-------: | :-------: |
| [Spanish](https://github.com/UnitexGramLab/unitex-lingua/blob/master/es?target=_blank)                 | Español             | Indo-European     | es      | spa       | es        |

## Corpora

- Trafalgar, by Benito Pérez Galdós

## Dictionaries

- 638,000 simple words

## References

```
Blanco, X. (2001): "Dictionnaires électroniques et traduction automatique français-espagnol", Langages 143 (Lexicologie contrastive
espagnol-français), Larousse: Paris.
```

```
Blanco, X. (2000): "Les dictionnaires électroniques de l'espagnol (DELASs et DELACs)", Lingvisticae Investigationes XXIII: 2, Amsterdam/Philadelphia:Benjamins.
```

```
Blanco, X. (2000): "Verbos soporte y clases de predicados en español",
Lingüística Española Actual, Madrid: Arcos Libros.
```

```
Guenthner, F., Blanco, X. : "Multi-lexemic Expressions: An Overview", Lingvisticae Investigationes Suplementa, Amsterdam/Philadelphia:Benjamins.
```

```
Blanco, X.; Català, D. (1999): "Quelques remarques sur un dictionnaire
électronique d'adverbes composés en espagnol", Lingvisticae Investigationes XXII, Amsterdam: John Benjamins.
```

```
Blanco, X. (1997): "Noms composés et traduction français-espagnol", Lingvisticae Investigationes XXI:1, Amsterdam/Philadelphia: Benjamins.
```

[/ui-tab]

[ui-tab title="th"]

| Language                 | Native name         | Language Family   | IETF    | ISO 639-2 | ISO 639-1 |
| ----------------------------- | ------------------- | ----------------- | :-----: | :-------: | :-------: |
| [Thai](https://github.com/UnitexGramLab/unitex-lingua/blob/master/th?target=_blank)                    | ไทย                 | Tai–Kadai         | th      | tha       | th        |

## Corpora

- extract from the novel Si Phan Din

## Dictionaries

- 33,000 simple
- 100 compound words 

[/ui-tab]

[/ui-tabs]

<br />
 


{assets:inline_js}
  window.addEventListener('DOMContentLoaded', function() {
      (function($) {
          $(document).ready(function() {
            $('a[rel=tab]:contains('+urlQueryLang+')').click();
          });
      })(jQuery);
  });
{/assets}