BLKSerene/Wordless

View on GitHub
tests/wl_test_lang_examples.py

Summary

Maintainability
A
0 mins
Test Coverage
# ----------------------------------------------------------------------
# Wordless: Tests - Language examples
# Copyright (C) 2018-2024  Ye Lei (叶磊)
#
# This program is free software: you can redistribute it and/or modify
# it under the terms of the GNU General Public License as published by
# the Free Software Foundation, either version 3 of the License, or
# (at your option) any later version.
#
# This program is distributed in the hope that it will be useful,
# but WITHOUT ANY WARRANTY; without even the implied warranty of
# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
# GNU General Public License for more details.
#
# You should have received a copy of the GNU General Public License
# along with this program.  If not, see <http://www.gnu.org/licenses/>.
# ----------------------------------------------------------------------

from tests import wl_test_init

# Examples are extracted from Wikipedia in different languages
# Encodings
ENCODING_ARA = '''ٱللُّغَةُ ٱلْعَرَبِيَّة هي أكثر اللغات السامية تحدثًا، وإحدى أكثر اللغات انتشاراً في العالم، يتحدثها أكثر من 467 مليون نسمة.[4](1) ويتوزع متحدثوها في الوطن العربي، بالإضافة إلى العديد من المناطق الأخرى المجاورة كالأحواز وتركيا وتشاد ومالي والسنغال وإرتيريا وإثيوبيا وجنوب السودان وإيران. وبذلك فهي تحتل المركز الرابع أو الخامس من حيث اللغات الأكثر انتشارًا في العالم،[5][6][7] وهي تحتل المركز الثالث تبعًا لعدد الدول التي تعترف بها كلغة رسمية؛ إذ تعترف بها 27 دولة لغةً رسميةً،[8] واللغة الرابعة من حيث عدد المستخدمين على الإنترنت.[9] اللغةُ العربيةُ ذات أهمية قصوى لدى المسلمين، فهي عندَهم لغةٌ مقدسة إذ أنها لغة القرآن، وهي لغةُ الصلاة وأساسيةٌ في القيام بالعديد من العبادات والشعائرِ الإسلامية.[10][11] العربيةُ هي أيضاً لغة شعائرية رئيسية لدى عدد من الكنائس المسيحية في الوطن العربي، كما كُتبَت بها كثير من أهمِّ الأعمال الدينية والفكرية اليهودية في العصور الوسطى. ارتفعتْ مكانةُ اللغةِ العربية إثْرَ انتشارِ الإسلام بين الدول إذ أصبحت لغة السياسة والعلم والأدب لقرون طويلة في الأراضي التي حكمها المسلمون. وللغة العربية تأثير مباشر وغير مباشر على كثير من اللغات الأخرى في العالم الإسلامي، كالتركية والفارسية والأمازيغية والكردية والأردية والماليزية والإندونيسية والألبانية وبعض اللغات الإفريقية الأخرى مثل الهاوسا والسواحيلية والتجرية والأمهرية والصومالية، وبعض اللغات الأوروبية وخاصةً المتوسطية كالإسبانية والبرتغالية والمالطية والصقلية؛ ودخلت الكثير من مصطلحاتها في اللغة الإنجليزية واللغات الأخرى، مثل أدميرال والتعريفة والكحول والجبر وأسماء النجوم. كما أنها تُدرَّس بشكل رسمي أو غير رسمي في الدول الإسلامية والدول الإفريقية المحاذية للوطن العربي.

العربية لغةٌ رسمية في كل دول الوطن العربي إضافة إلى كونها لغة رسمية في تشاد وإريتريا. وهي إحدى اللغات الرسمية الست في منظمة الأمم المتحدة، ويُحتفل باليوم العالمي للغة العربية في 18 ديسمبر كذكرى اعتماد العربية بين لغات العمل في الأمم المتحدة.[12] وفي سنة 2011 صنفت بلومبيرغ بيزنس ويك اللغة العربية في المرتبة الرابعة من حيث اللغات الأكثر فائدة في الأعمال التجارية على مستوى العالم.[13] وفي 2013 نشر المجلس الثقافي البريطاني تقريرًا مفصلاً عن اللغات الأكثر طلباً في المملكة المتحدة تحت عنوان "لغات المستقبل" وتبين أن العربية تحتل المرتبة الثانية على مستوى العالم وفي عام 2017 احتلت المرتبة الرابعة.[14][15][16] فيما يخص اللغات الأكثر جنيًا للأرباح في بريطانيا تأتي العربية في المرتبة الثانية وفقًا للمنظمة.[17][18][19][20]

واللغة العربية من أغزر اللغات من حيث المادةِ اللغوية، فعلى سبيل المثال يحوي معجم لسان العرب لابن منظور من القرن الثالث عشر أكثر من 80 ألف مادة، بينما في اللغة الإنجليزية فإن قاموس صموئيل جونسون - وهو من أوائل من وضع قاموساً إنجليزياً من القرن الثامن عشر-[21] يحتوي على 42 ألف كلمة.[22]

تحتوي اللغة العربية 28 حرفاً مكتوباً. ويرى بعضُ اللغويين أنه يجب إضافة حرف الهمزة إلى حروف العربية، ليصبحَ عدد الحروف 29. تُكتب العربية من اليمين إلى اليسار - ومثلها اللغة الفارسية والعبرية على عكس كثير من اللغات العالمية - ومن أعلى الصفحة إلى أسفلها.'''
ENCODING_ZHO_CN = '''汉语又称中文、华语[6]、唐话[7],概指由上古汉语(先秦雅言)发展而来、书面使用汉字的分析语,为汉藏语系最大的一支语族。如把整个汉语族视为单一语言,则汉语为世界使用人数最多的语言,目前全世界有五分之一人口将汉语做为母语或第二语言。

汉语在以其做为母语的地方有不同通称,且有多种方言变体,其中以北方汉语为基础的官话最为流行,其衍生而来的现代标准汉语(有国语、普通话、新加坡标准华语等变体)是大中华区的主要通用语。此外,汉语还是联合国正式语文[8],并被上海合作组织等国际组织采用为官方语言。国际上常将“汉语”称为“中文”,这是因为大多数语言使用表音文字,对于“文”[9]与“语”[10]并不作区分,不符合汉语语法;然而华人使用语素文字,文字[11]并不等于语言[12],作为母语人士不宜随之误用。[注 1]

对于汉语下属语言的分类,学界主要有两种观点,一种观点将汉语定义为语言,并将官话、赣语、闽语、粤语、客家话、吴语、湘语七大分支定义为一级方言;另一种观点则将汉语视为语族,七大分支因无法互相沟通而视为语支,而语支下面的各个分支被视为独立的语言[13],如国际标准化组织就将汉语族分为13种语言:闽东语、晋语、官话、莆仙语、徽语、闽中语、赣语、客家话、湘语、闽北语、闽南语、吴语、粤语。无论用哪种观点,上述各种语言都是平等的,它们都是汉语里的一分子;而汉语是它们的集合体,并非专指它们当中的其中一种。

汉语使用的文字是汉字,以汉字写成的词、词组、句子、段落、文字作品,称为中文(又称华文、国文、汉文、唐文)。汉字是一种意音文字,表意之同时也具一定表音功能;而汉语属分析语,且声调辨义。

汉语包含书面语及口语两部分,古代书面语称为文言文,现代书面语一般指官话白话文,即使用标准官话语法、词汇的中文通行文体。粤港澳等地又流行夹杂文言文、官话白话文及粤语白话文的三及第文体,吴语区亦偶有人书写吴语白话文。汉字也被其他语言使用,并形成汉字文化圈。'''
ENCODING_ZHO_TW = '''漢語又稱中文、華語[6]、唐話[7],概指由上古漢語(先秦雅言)發展而來、書面使用漢字的分析語,為漢藏語系最大的一支語族。如把整個漢語族視為單一語言,則漢語為世界使用人數最多的語言,目前全世界有五分之一人口將漢語做為母語或第二語言。

漢語在以其做為母語的地方有不同通稱,且有多種方言變體,其中以北方漢語為基礎的官話最為流行,其衍生而來的現代標準漢語(有國語、普通話、新加坡標準華語等變體)是大中華區的主要通用語。此外,漢語還是聯合國正式語文[8],並被上海合作組織等國際組織採用為官方語言。國際上常將「漢語」稱為「中文」,這是因為大多數語言使用表音文字,對於「文」[9]與「語」[10]並不作區分,不符合漢語語法;然而華人使用語素文字,文字[11]並不等於語言[12],作為母語人士不宜隨之誤用。[註 1]

對於漢語下屬語言的分類,學界主要有兩種觀點,一種觀點將漢語定義為語言,並將官話、贛語、閩語、粵語、客家話、吳語、湘語七大分支定義為一級方言;另一種觀點則將漢語視為語族,七大分支因無法互相溝通而視為語支,而語支下面的各個分支被視為獨立的語言[13],如國際標準化組織就將漢語族分為13種語言:閩東語、晉語、官話、莆仙語、徽語、閩中語、贛語、客家話、湘語、閩北語、閩南語、吳語、粵語。無論用哪種觀點,上述各種語言都是平等的,它們都是漢語裡的一分子;而漢語是它們的集合體,並非專指它們當中的其中一種。

漢語使用的文字是漢字,以漢字寫成的詞、詞組、句子、段落、文字作品,稱為中文(又稱華文、國文、漢文、唐文)。漢字是一種意音文字,表意之同時也具一定表音功能;而漢語屬分析語,且聲調辨義。

漢語包含書面語及口語兩部分,古代書面語稱為文言文,現代書面語一般指官話白話文,即使用標準官話文法、詞彙的中文通行文體。粵港澳等地又流行夾雜文言文、官話白話文及粵語白話文的三及第文體,吳語區亦偶有人書寫吳語白話文。漢字也被其他語言使用,並形成漢字文化圈。'''
ENCODING_HRV = '''Hrvatski jezik (ISO 639-3: hrv) obuhvaća govoreni i pisani hrvatski standardni jezik i sve narodne govore kojima govore i pišu Hrvati.[4] Povijesno, obuhvaća sve govore i sve književne jezike izgrađene na tim govorima, kojima su se služili Hrvati.[5][6]

Njime govori više od 5,5 milijuna ljudi[2] u Hrvatskoj i hrvatskim zajednicama u inozemstvu. Hrvatskim jezikom kao materinskim služi se 3 687 735 stanovnika prema podatcima popisa stanovništva Hrvatske iz 2021.[7]

Hrvatski je službeni jezik Republike Hrvatske, jedan od triju službenih jezika Bosne i Hercegovine te jedan od 24 službena jezika Europske unije.[2]

Prema poredbenom jezikoslovlju hrvatski jezik jest sustav triju narječja:

čakavskog
kajkavskog
štokavskog.
Proučavanje hrvatskog jezika cilj je znanstvene discipline kroatistike.'''
ENCODING_ENG = '''English is a West Germanic language in the Indo-European language family, whose speakers, called Anglophones, originated in early medieval England.[4][5][6] The namesake of the language is the Angles, one of the ancient Germanic peoples that migrated to the island of Great Britain. Modern English is both the most spoken language in the world[7] and the third-most spoken native language, after Mandarin Chinese and Spanish.[8] It is also the most widely learned second language in the world, with more second-language speakers than native speakers.

English is either the official language or one of the official languages in 59 sovereign states (such as in India, Ireland, and Canada). In some other countries, it is the sole or dominant language for historical reasons without being explicitly defined by law (such as in the United States or United Kingdom).[9] It is a co-official language of the United Nations, the European Union, and many other international and regional organisations. English accounts for at least 70% of total speakers of the Germanic language branch, and as of 2005, it was estimated that there were over two billion speakers worldwide.[10]

Old English emerged from a group of West Germanic dialects spoken by the Anglo-Saxons. Late Old English borrowed some grammar and core vocabulary from Old Norse, a North Germanic language.[11][12][13] Then, Middle English borrowed words extensively from French dialects, which make up about 28% of Modern English words, and from Latin, which also provides about 28%.[14] Thus, although most of its vocabulary now comes from Romance languages, its grammar, phonology, and most commonly-used words keep it genealogically classified under the Germanic branch. English exists on a dialect continuum with Scots and then is most closely related to the Low Saxon and Frisian languages.'''
ENCODING_FRA = '''Le français est une langue indo-européenne de la famille des langues romanes dont les locuteurs sont appelés francophones. Elle est parfois surnommée la « langue de Molière ».

Le français est parlé, en 2023, sur tous les continents par environ 321 millions de personnes5,2 : 235 millions l'emploient quotidiennement et 90 millions3 en sont des locuteurs natifs. En 2018, 80 millions d'élèves et étudiants s'instruisent en français dans le monde6. Selon l'Organisation internationale de la francophonie (OIF), il pourrait y avoir 700 millions de francophones sur Terre en 20507.

Le français est la cinquième langue parlée au monde après l'anglais, le mandarin, le hindi et l'espagnol. Elle est également la deuxième langue apprise sur le globe, la troisième langue des affaires et du commerce, la quatrième langue employée sur Internet8. Le français se classe deuxième parmi les langues étrangères les plus fréquemment enseignées à travers le monde7. Il est également la quatrième langue utilisée sur internet après l'espagnol, le mandarin et l'anglais9, langue dont le vocabulaire a été fortement enrichi par le français.

Dans le monde, 28 États ont le français comme langue officielle. C'est une des six langues officielles ainsi qu'une des deux langues de travail de l'Organisation des Nations unies. Le français est une langue officielle ou de travail de nombreuses organisations gouvernementales internationales, parmi lesquelles l'Union postale universelle ou les trois autorités mondiales de régulation du système métrique. Il est aussi langue officielle ou de travail de nombreuses organisations gouvernementales régionales, telles que l'Union africaine ou l’Union européenne, et est aussi langue officielle ou de travail de nombreuses organisations non gouvernementales internationales, comme le Comité international olympique ou le Mouvement international de la Croix-Rouge et du Croissant-Rouge.

L'histoire du français et des francophones est celle de la rencontre et de l'échange entre de nombreux peuples. Le français est une variété de la langue d'oïl, un groupe de langues romanes parlées originellement dans la partie septentrionale du domaine gallo-roman, sur le territoire des actuelles France, Suisse et Belgique. Les langues gallo-romanes résultent de l'évolution, sous l'influence de langues germaniques, tel que le vieux-francique des Francs, du latin populaire parlé en Gaule par les Gallo-Romains. Ces derniers formaient un ensemble de peuples d'origines principalement celtes qui furent progressivement romanisés à la suite de la conquête romaine de la région, terminée aux alentours de 52 av. J.-C. En 843, l'historien franc Nithard, petit-fils de Charlemagne, produit ce qui est considéré comme le premier texte connu en langue française. Il s'agit d'une chronique qui retranscrit les serments d'alliance, prononcés à Strasbourg l'année précédente, par Louis le Germanique, premier souverain allemand.

Durant le Moyen Âge européen, en particulier entre le xe et le xiiie siècle, alors que le système de déclinaisons de l'ancien français s'effondre, les langues d'oïl commencent à se diffuser hors de leur domaine d'origine du fait des invasions normandes des îles Britanniques, du sud de l'Italie ou bien des croisades qui, en établissant des États latins au Levant, font du français une base de la lingua franca méditerranéenne. En 1539, par l’ordonnance de Villers-Cotterêts, le moyen français, langue maternelle des dynasties capétiennes, devient une langue juridique et administrative en France. À la même période, il commence à se diffuser plus massivement hors d'Europe, d'abord en Amérique, puis en Afrique, en Asie et en Océanie, sous l'effet de l'expansion des empires coloniaux français puis belges. À partir du xviie siècle, dans les océans Atlantique, Indien et Pacifique, les déportations de populations pratiquées par les empires européens vers leurs colonies amènent, dans un contexte principalement d'esclavage, à la formation de nombreux créoles à base lexicale française.

En 1794, par le décret révolutionnaire du 2 thermidor an II et malgré le fait qu'il ait été, sous l'Ancien Régime, la langue des cours royales et princières européennes, le français classique, langue des Lumières, devient la seule langue officielle de la Première République française10. Une des particularités du français se trouve dans le fait que son développement et sa codification ont été en partie l'œuvre de groupes intellectuels, comme la Pléiade, ou d'institutions, comme l'Académie française. Le français est ainsi souvent considéré comme une langue « académique ». À partir du xixe siècle, et malgré quelques réformes au cours des siècles suivants, son orthographe codifiée commence à se figer. Elle est considérée comme transparente dans le sens de la lecture, mais opaque dans le sens de l'écriture. Au cours du xxe siècle, le français devient une langue d'envergure mondiale en même temps qu'il s'émancipe de l'Europe : à partir de ce siècle le nombre de francophones vivant hors d'Europe dépasse le nombre de locuteurs sur le continent d'origine de la langue.

Entre le 16 mars et le 20 mars 1970 et sous l'impulsion de ceux qui deviendront les « cinq pères fondateurs de la Francophonie » — Léopold Sédar Senghor, poète, écrivain et premier président de la république du Sénégal, Habib Bourguiba, avocat et premier président de la République tunisienne, Hamani Diori, professeur et premier président de la république du Niger, Norodom Sihanouk, roi du Cambodge et Jean-Marc Léger, écrivain et journaliste canadien — a lieu, dans la salle des séances de l'Assemblée nationale du Niger, la conférence de Niamey. Celle-ci, une des premières conférences réunissant les gouvernements des états francophones, établit l'Agence de coopération culturelle et technique, le premier organisme intergouvernemental francophone, et jette ainsi les bases pour la création d'une Organisation internationale de la francophonie (OIF) qui réunit les peuples partageant la langue française. En 1988, en commémoration de cet évènement, les États membres de l'Organisation font du 20 mars la Journée internationale de la francophonie. En 1989, ont lieu au Maroc les premiers jeux de la Francophonie qui réunissent pour la première fois les athlètes de la communauté francophone autour de la langue qu'ils partagent. En 1997, à Hanoï, capitale du Viêt Nam, les États francophones adoptent la Charte institutionnelle de la Francophonie qui sera complétée en 2005 à Antananarivo, capitale de Madagascar, par la Charte de la Francophonie. Ces deux chartes présentent l'importance du multilinguisme pour le monde francophone, les valeurs de solidarité, d'égalité et de fraternité entre les peuples qui doivent être véhiculées par la langue française, vecteur de progrès et de modernité, ainsi que le rôle actif que doivent exercer les francophones pour la préservation de la diversité linguistique et culturelle. En 2010, l'Organisation des Nations unies déclare que le 20 mars de chaque année sera observée à travers le monde la Journée de la langue française en souvenir de la conférence de Niamey. Les organisations francophones proposent autour de cette date des semaines d'échanges et de discussions souvent appelées « Semaine de la langue française et de la francophonie ».

La langue française est un attribut culturel souverain pour de nombreux peuples et États comme en France où depuis 1992 « la langue de la République est le français » ou au Québec où depuis 1977 elle « permet au peuple québécois d’exprimer son identité ». Elle est également le principal véhicule des cultures francophones dans le monde et le moyen principal d'expression de leurs pensées. La langue, parfois surnommée « langue de Molière11 », ne cesse de s'enrichir que ce soit de façon formelle, par des décrets par exemple, mais aussi de façon informelle.'''
ENCODING_DEU = '''Die deutsche Sprache bzw. Deutsch [dɔɪ̯tʃ][25] ist eine westgermanische Sprache, die weltweit etwa 90 bis 105 Millionen Menschen als Muttersprache und weiteren rund 80 Millionen als Zweit- oder Fremdsprache dient.

Das Deutsche ist eine plurizentrische Sprache, enthält also mehrere Standardvarietäten in verschiedenen Regionen. Ihr Sprachgebiet umfasst Deutschland, Österreich, die Deutschschweiz, Liechtenstein, Luxemburg, Ostbelgien, Südtirol, das Elsass und Lothringen sowie Nordschleswig. Außerdem ist Deutsch eine Minderheitensprache in einigen europäischen und außereuropäischen Ländern, z. B. in Rumänien und Südafrika sowie Nationalsprache im afrikanischen Namibia. Deutsch ist die meistgesprochene Muttersprache in der Europäischen Union (EU).[26]

Ursprünglich bestand eine Vielzahl von Mundarten innerhalb eines Dialektkontinuums, das sich aufgrund der zweiten (hochdeutschen) Lautverschiebung in hochdeutsche (oberdeutsche und mitteldeutsche) und niederdeutsche Mundarten einteilen lässt. Da die Niederdeutsche Sprache außerhalb des Hochdeutschen steht, ist sie oft nicht mitgemeint, wenn von „der deutschen Sprache“ die Rede ist. Teilweise wird Niederdeutsch bzw. „Platt“ aber auch als Dialekt des Deutschen behandelt.

Die deutsche Standardsprache ist mit ihren Standardvarietäten bundesdeutsches Deutsch, österreichisches Deutsch und schweizerisches Deutsch das Ergebnis bewusster sprachplanerischer Eingriffe. Das Standarddeutsche überspannt als Dachsprache den Großteil der Mundarten des Dialektkontinuums. Eine Ausnahme sind z. B. die Luxemburger Dialekte, die nunmehr unter Letzebuergesch und somit nur noch indirekt als Deutsch zusammengefasst werden.[27]

Die wissenschaftliche Disziplin, die die deutsche Sprache und Literatur in ihren historischen und gegenwärtigen Formen dokumentiert und vermittelt, wird Germanistik genannt (dieser Ausdruck bezieht sich also meist nicht auf die germanischen Sprachen insgesamt).'''
ENCODING_ELL = '''Η ελληνική γλώσσα ανήκει στην ινδοευρωπαϊκή οικογένεια[9] και αποτελεί το μοναδικό μέλος του ελληνικού κλάδου, ενώ είναι η επίσημη γλώσσα της Ελλάδας και της Κύπρου. Ανήκει επίσης στο βαλκανικό γλωσσικό δεσμό. Στην ελληνική γλώσσα, έχουμε γραπτά κείμενα ήδη από τον 15ο αιώνα π.Χ.. Σαν Παγκόσμια Ημέρα Ελληνικής Γλώσσας, κάθε έτος, έχει καθιερωθεί η 9η Φεβρουαρίου. Έχει την μακροβιότερη καταγεγραμμένη ιστορία από οποιαδήποτε άλλη ζωντανή ινδοευρωπαϊκή γλώσσα με τουλάχιστον 3.400 χρόνια γραπτής ιστορίας.[10] Γράφεται με το ελληνικό αλφάβητο, το οποίο χρησιμοποιείται αδιάκοπα (αρχικά με τοπικές παραλλαγές, μετέπειτα υπό μια, ενιαία μορφή) εδώ και περίπου 2.600 χρόνια.[11][12] Προηγουμένως η ελληνική γλώσσα γραφόταν με τη Γραμμική Β και το κυπριακό συλλαβάριο.[13] Το ελληνικό αλφάβητο προέρχεται από το φοινικικό αλφάβητο, με κάποιες προσαρμογές. Στο ελληνικό αλφάβητο βασίζεται το λατινικό, το κυριλλικό, το αρμενικό, το κοπτικό, το γοτθικό και πολλά άλλα αλφάβητα.

Η ελληνική γλώσσα κατέχει υψηλή -ιστορική- θέση στην ιστορία του Δυτικού κόσμου.[14] Ξεκινώντας με τα Ομηρικά έπη, η αρχαία ελληνική λογοτεχνία περιλαμβάνει πολλά σημαντικά έργα της Ευρωπαϊκής λογοτεχνίας. Η ελληνική γλώσσα είναι η γλώσσα με την οποία συντέθηκαν πολλά από τα θεμελιώδη επιστημονικά και φιλοσοφικά κείμενα. Η Καινή Διαθήκη γράφτηκε στα ελληνικά και έπειτα μεταφράστηκε σε άλλες γλώσσες.[15][16] Μαζί με τα λατινικά κείμενα και τις παραδόσεις του Ρωμαϊκός κόσμος, τα ελληνικά κείμενα και η ελληνική κοινωνία της αρχαιότητας αποτελούν μέρος της κλασικής επιστήμης.

Κατά τη διάρκεια της αρχαιότητας, η ελληνική ήταν η κύρια γλώσσα του μεσογειακού κόσμου. Έγινε έπειτα η επίσημη γλώσσα της Βυζαντινής Αυτοκρατορίας και εξελίχθηκε στα Μεσαιωνικά Ελληνικά.[17] Στη σύγχρονη μορφή της τα ελληνικά είναι η επίσημη γλώσσα της Ελλάδας και της Κύπρου και μια από τις 24 επίσημες γλώσσες της Ευρωπαϊκής Ένωσης. Την ομιλούν, ως μητρική γλώσσα, τουλάχιστον 13,5 εκατομμύρια άνθρωποι στην Ελλάδα, την Κύπρο, την Ιταλία, την Αλβανία, την Τουρκία και την ελληνική διασπορά. Επίσης εκατομμύρια άτομα γνωρίζουν ελληνικά, είτε την αρχαία μορφή της ή τα νέα ελληνικά.

Οι ελληνικές ρίζες χρησιμοποιούνται για αιώνες και συνεχίζουν να χρησιμοποιούνται ευρέως για να σχηματίσουν νέες λέξεις σε άλλες γλώσσες. Πολλές ελληνικές λέξεις μπορούν να εντοπιστούν στις περισσότερες κύριες γλώσσες του κόσμου. Τα ελληνικά και τα λατινικά, ως γλωσσικές δεξαμένες, είναι οι κύριες πηγές του διεθνούς επιστημονικού και τεχνολογικού λεξιλογίου.

Ο συνολικός αριθμός των ανθρώπων που μιλούν τα νέα ελληνικά ως μητρική τους γλώσσα είναι περίπου 14 εκατομμύρια άτομα. Οι περισσότεροι από αυτούς είναι Έλληνες στην εθνικότητα, αν και στην Ελλάδα χρησιμοποιείται επίσης ευρέως από αρκετούς εξελληνισμένους Αρωμάνους, Μεγλενορουμάνους, Τσιγγάνους, Αλβανούς, Σλάβους και μια σειρά από μουσουλμανικές εθνότητες στα βόρεια της χώρας. Χάρη στους αυξημένους οικονομικούς δεσμούς της Ελλάδας με άλλες βαλκανικές χώρες, καθώς και χάρη στις μαζικές μεταναστεύσεις προς την Ελλάδα και την Κύπρο τα τελευταία είκοσι χρόνια, ένας σημαντικός αριθμός κατοίκων στις χώρες που συνορεύουν με την Ελλάδα μιλάει και ελληνικά. Ελληνόγλωσσοι υπάρχουν πάρα πολλοί στην Αλβανία, όπου ομιλείται ευρέως στα νότια της χώρας και στις μεγάλες πόλεις και είναι ουσιαστικά η γλώσσα εργασίας σε τρεις δήμους της Αλβανίας. Ως σημαντική γλώσσα της διασποράς, τα ελληνικά χρησιμοποιούνται μεταξύ των Ελλήνων της Αυστραλίας, του Καναδά και των ΗΠΑ. Ο συνολικός αριθμός των ανθρώπων που μιλούν την ελληνική ως ξένη γλώσσα κυμαίνεται στα 3 με 5 εκατομμύρια άτομα.

Η ελληνική λογοτεχνία έχει πλούσια παραγωγή σε όλα τα στάδια της ιστορίας της. Στη Ρωμαϊκή Αυτοκρατορία η γνώση της ελληνικής γλώσσας θεωρούνταν υποχρέωση του κάθε μορφωμένου Ρωμαίου. Τα λατινικά έχουν δανειστεί μεγάλο αριθμό ελληνικών δανείων και αντιθέτως ελληνικά έχουν σημαντικό αριθμό λατινικών και ρομανικών λέξεων.'''
ENCODING_HEB = '''שם השפה עברית פירושו "לשונו של עֵבֶר",[2] ונגזר מהשם של הדמות המקראית עֵבֶר, אביהם הקדמון של עמים רבים, בהם עם ישראל. לפי המסורת היהודית,[3] עבר סירב לקחת חלק בבניית מגדל בבל, ועל כן הוא וצאצאיו לא נענשו על בניית המגדל, ושפתם לא נתבלבלה. עבר שימר את השפה האוניברסלית המקורית - העברית.
...אבל אברהם אבינו עצמו היה בדור הָפַּלָּגָה ונשאר הוא וקרוביו בלשון עֵבֶר, אבי אביו, ולזה נקרא עִבְרִי... ...כי כל הלשונות אשר היו לפניהם חמש מאות שנה היו לשון עבר לבדה ונפלגה בבבל בימי פֶּלֶג... 

— רבי יהודה הלוי, ספר הכוזרי, פרק א, סעיף מט
[4]

המושג "עברי" נזכר שלושים וארבע פעמים בתנ"ך ככינוי לבני ישראל, אולם לא כשפה.[5] במקרא, שמה של שפתם של העברים מכונה "יהודית",[6] וגם בשם "שפת כנען".[7] ייתכן שהשם 'יהודית' היה רק שם הניב שדובר בממלכת יהודה או באזור ירושלים, להבדיל מהניב של ממלכת הצפון, ממלכת ישראל (אם כי גם לפי תאוריה זו, מדובר בסך הכול בשני ניבים שונים של אותה שפה, ולא בשתי שפות שונות).

המקור הקדום ביותר המזכיר את המונח עברית כשם השפה, הוא מקור יווני מן המאה ה-2 לפנה"ס.[8] המקור הוא נכדו של בן סירא שכותב בהקדמה לתרגום החיבור של סבו ליוונית שבוצע על ידיו כי:
לכן מתבקשים אתם לקרא את הקריאה ברצון ובתשומת לב, ולסלוח אם נראה שלא הצלחנו במילים ידועות שעמלנו באהבה לתרגם אותן, כי הנאמרים בעברית אין כחם שווה כשהם מועתקים ללשון אחרת. 

— משה צבי סגל, ספר בן סירא השלם, עמ' א. לנוסח המקור ביוונית ראו כאן
בלשון חז"ל שדוברה החל מהמאה הראשונה לספירה, הכינוי המקובל לשפה המקראית ולשפה המדוברת היה "לשון הקודש",[9] והמונח "עברית" שימש לציון הכתב העברי הקדום,[10] וכן לציון שפתם של בני עבר הנהר,[11] אך יש גם שימושים במונח "עברית" המתייחסים ללשון המקרא.[12]

הניב התנ"כי מכונה "לשון המקרא", כדי להבדילו מלשון חז"ל המכונה גם "לשון חכמים", שהיא בעצם ניב מאוחר של עברית.

בברית החדשה משמש המונח "עברית" כשם לשפה הארמית שדוברה על ידי ה"עבריים" (תושבי עבר הנהר) בארץ ישראל, אולם בספרות חז"ל משמש מונח זה רק לעברית (המשנאית).[13]'''
ENCODING_ISL = '''Íslenska er vesturnorrænt, germanskt og indóevrópskt tungumál sem er einkum talað og ritað á Íslandi og er móðurmál langflestra Íslendinga.[6] Það hefur tekið minni breytingum frá fornnorrænu en önnur norræn mál[6] og er skyldara norsku og færeysku en sænsku og dönsku.[3][4]

Ólík mörgum öðrum vesturevrópskum tungumálum hefur íslenskan ítarlegt beygingarkerfi. Nafnorð og lýsingarorð eru beygð jafnt sem sagnir. Fjögur föll eru í íslensku, eins og í þýsku, en íslenskar nafnorðabeygingar eru flóknari en þær þýsku. Beygingarkerfið hefur ekki breyst mikið frá víkingaöld, þegar Norðmenn komu til Íslands með norræna tungumál sitt.

Meirihluti íslenskumælenda býr á Íslandi, eða um 300.000 manns.[7] Um 8.000 íslenskumælendur búa í Danmörku, en þar af eru 3.000 nemendur. Í Bandaríkjunum eru talendur málsins um 5.000, og í Kanada 1.400. Stærsti hópur kanadískra íslenskumælenda býr í Manitoba, sérstaklega í Gimli, þar sem Vestur-Íslendingar settust að. Þó að 97% Íslendinga telji íslensku móðurmál sitt er tungumálið nokkuð í rénun utan Íslands. Þeir sem tala íslensku utan Íslands eru oftast aðfluttir Íslendingar, nema í Gimli þar sem íslenskumælendur hafa búið frá 1880.

Árnastofnun sér um varðveislu málsins og hýsir miðaldahandrit sem skrifuð voru á Íslandi. Auk þess styður hún rannsóknir á málinu. Frá 1995 hefur verið haldið upp á dag íslenskrar tungu þann 16. nóvember á hverju ári, sem var fæðingardagur Jónas Hallgrímssonar skálds.'''
ENCODING_GLE = '''Is ceann de na teangacha Ceilteacha í an Ghaeilge (nó Gaeilge na hÉireann mar a thugtar uirthi corruair), agus ceann de na trí cinn de theangacha Ceilteacha ar a dtugtar na teangacha Gaelacha (Gaeilge, Gaeilge Mhanann agus Gaeilge na hAlban) go háirithe. Labhraítear in Éirinn go príomha í, ach tá cainteoirí Gaeilge ina gcónaí in áiteanna eile ar fud an domhain.

Is í an teanga náisiúnta nó dhúchais agus an phríomhtheanga oifigiúil i bPoblacht na hÉireann í an Ghaeilge. Tá an Béarla luaite sa Bhunreacht mar theanga oifigiúil eile. Tá aitheantas oifigiúil aici chomh maith i dTuaisceart Éireann, ar cuid den Ríocht Aontaithe é. Ar an 13 Meitheamh 2005 d'aontaigh airí gnóthaí eachtracha an Aontais Eorpaigh glacadh leis an nGaeilge mar theanga oifigiúil oibre san AE. Ón 1 Eanáir 2007 cuireadh tús leis an stádas oifigiúil seo, agus ba é an tAire Nollaig Ó Treasaigh, T. D., an chéad aire Éireannach a labhair Gaeilge ag cruinniú de chuid Chomhairle na nAirí, an 22 Eanáir 2007.

Tá go leor ainmneacha eile réigiúnda nó stairiúla ar an teanga freisin: Gaedhealg, Gaedhilge agus Gaedhilg (i gConamara); Gaedhilic, Gaeilic agus Gaeilig (in áiteanna i gCúige Uladh agus Maigh Eo); Gaedhealaing, Gaoluinn agus Gaeilinn (i bPort Láirge); Gaelainn (sa Mhumhain); Gaedhlag (Ó Méith, Ard Mhacha agus Lú); agus Guithealg nó Goidelc (sa tSean-Ghaeilge). Go minic, níl i gceist leo seo ach litrithe malartacha ar an bhfocal "Gaeilge" agus iad ag baint leis an tréimhse réamhchaighdeánach (féach thíos chun a thuilleadh eolais a fháil), ach tabhair faoi deara gurb iondúil inniu a úsáidtear an leagan Muimhneach d'ainm na teanga, Gaelainn, le tagairt a dhéanamh do chanúint an chúige ina gcluinfeá an t-ainm seo uirthi. D'fheicfeá Gaoluinn, leis, toisc gur mar é fada a fhuaimnítear ao an litrithe sna canúintí deisceartacha.'''
ENCODING_JPN = '''日本語(にほんご、にっぽんご[注釈 3])は、日本国内や、かつての日本領だった国、そして国外移民や移住者を含む日本人同士の間で使用されている言語。日本は法令によって公用語を規定していないが、法令その他の公用文は全て日本語で記述され、各種法令[注釈 4]において日本語を用いることが規定され、学校教育においては「国語」の教科として学習を行うなど、事実上日本国内において唯一の公用語となっている。

使用人口について正確な統計はないが、日本国内の人口、及び日本国外に住む日本人や日系人、日本がかつて統治した地域の一部住民など、約1億3,000万人以上と考えられている[10]。統計によって前後する場合もあるが、この数は世界の母語話者数で上位10位以内に入る人数である[11]。

また第一次世界大戦後、日本に委任統治(南洋諸島を参照)されていたパラオでは、現在も一部地域で日本語を公用語と定めている。'''
ENCODING_KAZ = '''Қазақ тілі (төте: قازاق ٴتىلى‎, латын: qazaq tili) — Қазақстан Республикасының мемлекеттік тілі, сонымен қатар Ресей, Өзбекстан, Қытай, Моңғолия жəне т.б. елдерде тұратын қазақтардың ана тілі.

Қазақ тілі түркі тілдерінің қыпшақ тобына, соның ішінде қарақалпақ, ноғай, қарашай тілдерімен бірге қыпшақ-ноғай тармағына жатады. Сонымен қатар қырғыз, татар, башқұрт, қарашай-балқар, құмық, қарайым, қырымтатар тілдеріне жақын.

Қазақ тілі диалектілерге бөлінбейтіні ғылыми түрде дәлелденген. Барлық өлкелердің қазақтары бір-бірін жақсы түсінеді. Бірақ кейбір ғалымдардың пікірінше қазақ тілі 3 диалектіге бөлінеді: солтүстік-шығыс, оңтүстік және батыс (ескі үш жүздің орналасқан аумағы бойынша).'''
ENCODING_KOR = '''한국어(韓國語)는 대한민국과 조선민주주의인민공화국의 공용어이며 조선민주주의인민공화국에서는 조선말이라고 불린다.

세계 여러 지역에 한민족 인구가 거주하게 되면서 전 세계 각지에서 한국어가 사용 되고 있다. 2016년 1월 초 기준으로 한국어 사용 인구는 약 8,000만 명으로 추산된다.[1]

역사 및 현대 언어학자들은 한국어를 고립어로 분류한다.[2][3][4][5][6][7] 그러나 한국어와 제주어(제주도에서 사용되며 구별되는 것으로 간주됨)와 함께 한국어족을 구성하던 몇 개의 사어가 한 때 존재했다.[8][9] 일부 언어학자들이 한국어를 알타이 제어에 포함시켰지만 오늘날 알타이 제어설은 사전적 지지를 대부분 상실했다.[10]'''
ENCODING_LAV = '''Latviešu valoda ir dzimtā valoda apmēram 1,5 miljoniem cilvēku, galvenokārt Latvijā, kur tā ir vienīgā valsts valoda.[1][3] Lielākās latviešu valodas pratēju kopienas ārpus Latvijas ir Apvienotajā Karalistē, ASV, Īrijā, Austrālijā, Vācijā, Zviedrijā, Kanādā, Brazīlijā, Krievijas Federācijā. Latviešu valoda pieder pie indoeiropiešu valodu saimes baltu valodu grupas. Senākie rakstu paraugi latviešu valodā — jau no 15. gadsimta — ir atrodami Jāņa ģildes alus nesēju biedrības grāmatās. Tajā lielākoties bija latvieši, un no 1517. gada arī brālības vecākie bija latvieši. Pirmais teksts latviski iespiests 1507. gadā izdotajā baznīcas rokasgrāmatā „AGENDA”.[4]'''
ENCODING_MLT = '''Il-Malti huwa l-ilsien nazzjonali tar-Repubblika ta' Malta. Huwa l-ilsien uffiċjali flimkien mal-Ingliż; kif ukoll wieħed mill-ilsna uffiċjali u l-uniku wieħed ta' oriġini Għarbija (Semitiku) tal-Unjoni Ewropea. Dan l-ilsien għandu sisien u għerq semitiku, ta' djalett Għarbi li ġej mit-Tramuntana tal-Afrika, għalħekk qatt ma kellu rabta mill-qrib mal-Għarbi Klassiku. Iżda tul iż-żminijiet, minħabba proċess tal-Latinizzazzjoni ta' Malta, bdew deħlin bosta elementi lingwistiċi mill-Isqalli, djalett ta' art li wkoll għaddiet minn żmien ta' ħakma Għarbija. Wara l-Isqalli beda dieħel ukoll it-Taljan, fuq kollox fiż-żmien tad-daħla tal-Kavallieri tal-Ordni ta' San Ġwann sa meta l-Ingliż ħa post it-Taljan bħala l-ilsien uffiċjali fil-Kostituzzjoni Kolonjali tal-1934. Il-Malti huwa l-ilsien waħdieni ta' għajn semitika li jinkiteb b'ittri Latini. Studju tal-2016 juri li, fil-lingwaġġ bażiku ta’ kuljum, il-Maltin kapaċi jifhmu madwar terz ta’ dak li jingħad lilhom bl-Għarbi Tuneżin li huwa Għarbi tal-Maghrebi relatat mal-Għarbi Sqalli, filwaqt li dawk li jitkellmu bl-Għarbi Tuneżin (Tuneżin) huma kapaċi jifhmu madwar 40% ta’ dak li jingħad lilhom bil-Malti.[1]'''
ENCODING_POR = '''A língua portuguesa, também designada português, é uma língua indo-europeia românica flexiva ocidental originada no galego-português falado no Reino da Galiza e no norte de Portugal. Com a criação do Reino de Portugal em 1139 e a expansão para o sul na sequência da Reconquista, deu-se a difusão da língua pelas terras conquistadas e mais tarde, com as descobertas portuguesas, para o Brasil, África e outras partes do mundo.[8] O português foi usado, naquela época, não somente nas cidades conquistadas pelos portugueses, mas também por muitos governantes locais nos seus contatos com outros estrangeiros poderosos. Especialmente nessa altura a língua portuguesa também influenciou várias línguas.[9]

Durante a Era dos Descobrimentos, marinheiros portugueses levaram o seu idioma para lugares distantes. A exploração foi seguida por tentativas de colonizar novas terras para o Império Português e, como resultado, o português dispersou-se pelo mundo. Brasil e Portugal são os dois únicos países cuja língua primária é o português. É língua oficial em antigas colônias portuguesas, nomeadamente, Moçambique, Angola, Cabo Verde, Guiné Equatorial,[10][11][12] Guiné-Bissau e São Tomé e Príncipe, todas na África.[13] Além disso, por razões históricas, falantes do português, ou de crioulos portugueses, são encontrados também em Macau (China), Timor-Leste, em Damão e Diu e no estado de Goa (Índia), Malaca (na Malásia, que conta com utilizadores do crioulo kristáng, ou Língua cristã), em enclaves na ilha das Flores (Indonésia), Baticaloa no (Sri Lanka) e nas ilhas ABC no Caribe.[14][15]

É uma das línguas oficiais da União Europeia, do Mercosul, da União de Nações Sul-Americanas, da Organização dos Estados Americanos, da União Africana e dos Países Lusófonos. Com aproximadamente 280 milhões de falantes, o português é a 5.ª língua mais falada no mundo, a 3.ª mais falada no hemisfério ocidental e a mais falada no hemisfério sul do planeta.[16] O português também é conhecido como "a língua de Camões"[17] (em homenagem a uma das mais conhecidas figuras literárias de Portugal, Luís Vaz de Camões, autor de Os Lusíadas) e "a última flor do Lácio" (expressão usada no soneto Língua Portuguesa, do escritor brasileiro Olavo Bilac).[18][19][20][21][22] Miguel de Cervantes, o célebre autor espanhol, considerava o idioma "doce e agradável".[23] Em março de 2006, o Museu da Língua Portuguesa, um museu interativo sobre o idioma, foi fundado em São Paulo, Brasil, a cidade com o maior número de falantes do português em todo o mundo.[24]

O Dia Internacional da Língua Portuguesa é comemorado em 5 de maio.[25] A data foi instituída em 2009, no âmbito da Comunidade dos Países de Língua Portuguesa (CPLP), com o propósito de promover o sentido de comunidade e de pluralismo dos falantes do português. A comemoração propicia também a discussão de questões idiomáticas e culturais da lusofonia, promovendo a integração entre os povos desses nove países.[26]'''
ENCODING_RON = '''Limba română este o limbă indo-europeană din grupul italic și din subgrupul oriental al limbilor romanice. Printre limbile romanice, româna este a cincea după numărul de vorbitori, în urma spaniolei, portughezei, francezei și italienei. Din motive de diferențiere tipologică, româna mai este numită în lingvistica comparată limba dacoromână sau dialectul dacoromân. De asemenea, este limba oficială în România și în Republica Moldova.

Limba română este vorbită în toată lumea de 28 de milioane de persoane, dintre care circa 24 de milioane o au ca limbă maternă.[2] Din numărul total de vorbitori, peste 17 milioane[3] se află în România, unde româna (dialectul dacoromân) este limbă oficială și, conform recensământului populației din 2011, este limbă maternă pentru peste 90% din populație. Limba română este una dintre cele șase limbi oficiale ale Provinciei Autonome Voivodina (Serbia). De asemenea este limbă oficială sau administrativă în câteva comunități și organizații internaționale, precum Uniunea Latină sau Uniunea Europeană (de la 1 ianuarie 2007).'''
ENCODING_RUS = '''Ру́сский язы́к (МФА: [ˈruskʲɪi̯ jɪˈzɨk](инф.))[~ 3][⇨] — язык восточнославянской группы славянской ветви индоевропейской языковой семьи, национальный язык русского народа. Является одним из наиболее распространённых языков мира — восьмым среди всех языков мира по общей численности говорящих[5] и седьмым по численности владеющих им как родным (2022)[2]. Русский является также самым распространённым славянским языком[8] и самым распространённым языком в Европе — географически и по числу носителей языка как родного[6].

Русский язык — государственный язык Российской Федерации, один из двух государственных языков Белоруссии, один из официальных языков Казахстана, Киргизии и некоторых других стран, основной язык международного общения в Центральной Евразии, в Восточной Европе, в странах бывшего Советского Союза, один из шести рабочих языков ООН, ЮНЕСКО и других международных организаций[9][10][11][⇨].

Число владеющих русским языком в России составляет 137,5 млн человек (2010)[4]. Всего в мире на русском говорят 258,2 млн человек (2022)[5][⇨].

Фонологический строй русского языка характеризуется исторически усложнившейся системой консонантизма, включающей 37 согласных фонем, и менее сложной системой вокализма, в которую входят 5 или 6[~ 4] гласных фонем. При этом как в системе гласных, так и в системе согласных отмечается большое разнообразие позиционных видоизменений. В частности, гласные в безударной позиции ослабляются и в ряде случаев не различаются. Ударение в русском языке — динамическое, разноместное и подвижное[12][13][⇨].

По морфологическому строю русский язык преимущественно флективный, синтетический. Грамматическое значение лексем передаётся, как правило, с помощью флексий. Каждая флексия обычно выражает одновременно несколько значений. Наряду с синтетическими формами, в русском языке наблюдается также развитие элементов аналитизма[12][⇨].

Синтаксис русского языка характеризуется относительно свободным порядком слов, противопоставлением однокомпонентных и двухкомпонентных структур простых предложений, наличием трёх видов сложных предложений, активной ролью интонационных средств[14][⇨].

Лексический состав русского языка в своей основе — исконно русский. Средства пополнения словарного фонда — образование слов по собственным моделям и заимствования. К ранним заимствованиям относят славянизмы, грецизмы и тюркизмы. C XVIII века преобладают голландские, немецкие и французские заимствования, с XX века — англицизмы[14][⇨].

Диалекты русского языка группируются в два наречия: северное и южное. Между наречиями локализуются переходные среднерусские говоры, ставшие основой современного литературного языка[9][⇨].

В истории русского языка выделяют три основных периода: древнерусский, общий для русского, белорусского и украинского языков (VI—XIV веков), старорусский или великорусский (XIV—XVII веков) и период национального русского языка (с середины XVII века)[15][⇨]. В основе письменности лежит старославянская кириллица[⇨].

Комплекс наук о русском языке называется лингвистической русистикой[9][14][⇨].'''
ENCODING_TGK = '''Забони тоҷикӣ (дар солҳои 1989—1991 — забони форсии тоҷикӣ; 1991—1999 – забони тоҷикии форсӣ, дарӣ: زبان تاجیکی) — забони давлатии кишварҳои Тоҷикистон, Эрон (варианти форсӣ) ва Афғонистон (дарӣ) мебошад. Ин забон ба хонаводаи забонҳои ҳинду аврупоӣ дохил мешавад. Дар маҷмӯъ: порсигӯёни асил (форсӣ, тоҷикӣ, дарӣ) зиёда аз 122 млн нафар мебошанд. Фақат ба гӯиши тоҷикӣ (бидуни дарӣ) зиёда аз 16 миллион (2022) нафар ҳарф мезананд.

Дар рушди забони тоҷикӣ дар намуди кунуниаш Садриддин Айнӣ саҳми зиёд гузоштааст.


Забони тоҷикӣ ва забони тоҷикии дарӣ (бо ранги сабз) ва дигар забонҳои эронии шарқӣ, ва туркӣ
Забони тоҷикӣ яке аз забонҳои бостонтарини ҷаҳон ба шумор меравад. Давраи нави инкишофи он дар асрҳои VII-VIII оғоз шудааст. Бо ин забон шоирону нависандагони бузург Рӯдакӣ, Фирдавсӣ, Хайём, Сино, Ҷомӣ, Мавлоно, Ҳофиз, Аҳмади Дониш, Айнӣ, Лоҳутӣ, Турсунзода, Пайрав Сулаймонӣ, Абдусалом Деҳотӣ, Убайд Раҷаб, Наимҷон Назирӣ ва дигарон асарҳои безавол эҷод кардаанд.'''
ENCODING_THA = '''ภาษาไทย หรือ ภาษาไทยกลาง เป็นภาษาในกลุ่มภาษาไท ซึ่งเป็นกลุ่มย่อยของตระกูลภาษาขร้า-ไท และเป็นภาษาราชการ และภาษาประจำชาติของประเทศไทย[3][4] มีการสันนิษฐานว่าภาษาในตระกูลนี้มีถิ่นกำเนิดจากทางตอนใต้ของประเทศจีน และนักภาษาศาสตร์บางส่วนเสนอว่า ภาษาไทยน่าจะมีความเชื่อมโยงกับตระกูลภาษาออสโตร-เอเชียติก ตระกูลภาษาออสโตรนีเซียน และตระกูลภาษาจีน-ทิเบต

ภาษาไทยเป็นภาษาที่มีระดับเสียงของคำแน่นอนหรือวรรณยุกต์เช่นเดียวกับภาษาจีน และออกเสียงแยกคำต่อคำ

ภาษาไทยปรากฏครั้งแรกในพุทธศักราช 1826 โดยพ่อขุนรามคำแหง และปรากฏอย่างสากลและใช้ในงานของราชการ เมื่อวันที่ 31 มีนาคม พุทธศักราช 2476 ด้วยการก่อตั้งสำนักงานราชบัณฑิตยสภาขึ้น และปฏิรูปภาษาไทย พุทธศักราช 2485'''
ENCODING_TUR = '''Türkçe ya da Türk dili, Güneydoğu Avrupa ve Batı Asya'da konuşulan, Türk dilleri dil ailesine ait sondan eklemeli bir dildir.[10] Türk dilleri ailesinin Oğuz dilleri grubundan bir Batı Oğuz dili olan Osmanlı Türkçesinin devamını oluşturur. Dil, başta Türkiye olmak üzere Balkanlar, Ege Adaları, Kıbrıs ve Orta Doğu'yu kapsayan eski Osmanlı İmparatorluğu coğrafyasında konuşulur.[10] Ethnologue'a göre Türkçe, yaklaşık 90 milyon konuşanı ile dünyada en çok konuşulan 17. dildir.[11] Türkçe, Türkiye, Kuzey Kıbrıs ve Kıbrıs Cumhuriyeti'nde ulusal resmî dil statüsüne sahiptir.[10]

Türkçe, diğer pek çok Türk dili ile de paylaştığı sondan eklemeli olması ve ünlü uyumu gibi dil bilgisi özellikleri ile karakterize edilir. Dil, tümce yapısı açısından genellikle özne-nesne-yüklem sırasına sahiptir. Almanca, Arapça gibi dillerin aksine gramatik cinsiyetin (erillik, dişilik, cinsiyet ayrımı) bulunmadığı Türkçede sözcüklerin bir kısmı Arapça, Farsça ve Fransızca gibi yabancı dillerden geçmedir. Ayrıca Azerice, Gagavuzca ve Türkmence gibi diğer Oğuz dilleri ile Türkçe yüksek oranda karşılıklı anlaşılabilirlik gösterir.[12]

Türkçe 1928'de Atatürk önderliğinde gerçekleştirilmiş Harf Devrimi'nden beri Latin alfabesini temel alan Türk alfabesi ile yazılır. Standart Türkçedeki Yazım kuralları Türk Dil Kurumu tarafından denetlenir. İstanbul Türkçesi olarak da adlandırılan İstanbul ağzı,[13] Türkçenin standart formudur ve Türkçe yazı dili bu ağzı temel alır. Bununla birlikte Güneydoğu Avrupa ve Orta Doğu'da çeşitli Türkçe şiveleri bulunur ve bu şiveler İstanbul Türkçesi ile çeşitli ses ve dilbilgisi farklılıklarına sahiptir.'''
ENCODING_UKR = '''Украї́нська мо́ва (МФА: [ukrɑ̽ˈjɪnʲsʲkɑ̽ ˈmɔwɑ̽], історичні назви — ру́ська[10][11][12][* 1]) — національна мова українців. Належить до східнослов'янської групи слов'янських мов, що входять до індоєвропейської мовної сім'ї, поряд з романськими, германськими, кельтськими, грецькою, албанською, вірменською та найближче спорідненими зі слов'янськими балтійськими мовами[13][14][* 2]. Є державною мовою в Україні[13][15].

Число мовців — орієнтовно 45 млн, більшість із яких мешкає в Україні. Поширена також у Білорусі[16], Молдові[17][18], Польщі[19], Росії[20][21], Румунії[22], Словаччині[23], Казахстані[24], Аргентині, Бразилії, Великій Британії[25], Канаді[26], США[27] та інших країнах, де живуть українці. Українською мовою у світі послуговуються приблизно від 40 до 45 млн осіб; вона є другою чи третьою слов'янською мовою за кількістю мовців (після російської та, можливо, польської)[13] та входить до третього десятка найпоширеніших мов світу[* 3].

Українську мову вивчає українське мовознавство, а також досліджує україністика (українознавство). Довкола походження та становлення української мови є декілька гіпотез[28] — праслов'янська[29][30][31], давньоруська[32][33], південноруська X—XI століття[34][35] та інші[* 4]. Але на сьогодні остаточно спростовані теорії про давньоруську мовну єдність[13].

Згідно з нещодавно оприлюдненою гіпотезою К. М. Тищенка, українська мова відбиває утворення українців як етносу, що сталося у VI—XVI століттях унаслідок злиття діалектів трьох слов'янських племен — полян, деревлян та сіверян за участі груп іраномовного та тюркомовного степового населення[36]. У XVIII—XX століттях українська мова зазнавала утисків із боку польської та російської влади[* 5]. Противники української мови створили численні міфи щодо української мови.

Для запису української мови використовують пристосовану кирилицю («гражданка»).

Норми української мови встановлюються у словниках української мови й українському правописі[37], які затверджуються Міністерством освіти та науки за рекомендаціями фахівців з української мови наукових установ Національної академії наук, інших наукових установ, вищих навчальних закладів[38]. До наукових установ Національної академії наук України, зокрема, належать такі: Інститут української мови НАН України (історія, граматика, лексикологія, термінологія, ономастика, стилістика та культура мови, діалектологія, соціолінгвістика), Український мовно-інформаційний фонд НАН України (комп'ютерна лінгвістика, словники), Інститут мовознавства ім. О. О. Потебні НАН України (українська мова у зв'язках з іншими мовами).

Центральний орган виконавчої влади, який забезпечує розробку та впроваджує державну мовну політику — Міністерство культури України.

Щороку 27 жовтня в Україні святкують День української писемності та мови. Цього дня відбувається щорічний флешмоб — Всеукраїнський радіодиктант національної єдності — акція Українського радіо, що об'єднує українців по всьому світу навколо української мови.'''
ENCODING_URD = '''اُردُو[8] برصغیر کی معیاری زبانوں میں سے ایک ہے۔ یہ پاکستان کی قومی اور رابطہ عامہ کی زبان ہے، جبکہ بھارت کی چھ ریاستوں کی دفتری زبان کا درجہ رکھتی ہے۔ آئین ہند کے مطابق اسے 22 دفتری شناخت شدہ زبانوں میں شامل کیا جا چکا ہے۔ 2001ء کی مردم شماری کے مطابق اردو کو بطور مادری زبان بھارت میں 5.01% فیصد لوگ بولتے ہیں اور اس لحاظ سے ہی بھارت کی چھٹی بڑی زبان ہے جبکہ پاکستان میں اسے بطور مادری زبان 7.59% فیصد لوگ استعمال کرتے ہیں، یہ پاکستان کی پانچویں بڑی زبان ہے۔ اردو تاریخی طور پر ہندوستان کی مسلم آبادی سے جڑی ہے۔[9] زبانِ اردو کو پہچان و ترقی اس وقت ملی جب برطانوی دور میں انگریز حکمرانوں نے اسے فارسی کی بجائے انگریزی کے ساتھ شمالی ہندوستان کے علاقوں اور جموں و کشمیر میں اسے 1846ء اور پنجاب میں 1849ء میں بطور دفتری زبان نافذ کیا۔ اس کے علاوہ خلیجی، یورپی، ایشیائی اور امریکی علاقوں میں اردو بولنے والوں کی ایک بڑی تعداد آباد ہے جو بنیادی طور پر جنوبی ایشیاء سے کوچ کرنے والے اہلِ اردو ہیں۔ 1999ء کے اعداد و شمار کے مطابق اردو زبان کے مجموعی متکلمین کی تعداد دس کروڑ ساٹھ لاکھ کے لگ بھگ تھی۔ اس لحاظ سے یہ دنیا کی نویں بڑی زبان ہے۔ اردو زبان کو کئی ہندوستانی ریاستوں میں سرکاری حیثیت بھی حاصل ہے۔ [10] نیپال میں، اردو ایک رجسٹرڈ علاقائی بولی ہے [11] اور جنوبی افریقہ میں یہ آئین میں ایک محفوظ زبان ہے۔ یہ افغانستان اور بنگلہ دیش میں اقلیتی زبان کے طور پر بھی بولی جاتی ہے، جس کی کوئی سرکاری حیثیت نہیں ہے۔

1837ء میں، اردو برطانوی ایسٹ انڈیا کمپنی کی سرکاری زبان بن گئی، کمپنی کے دور میں پورے شمالی ہندوستان میں فارسی کی جگہ لی گئی۔ فارسی اس وقت تک مختلف ہند-اسلامی سلطنتوں کی درباری زبان کے طور پر کام کرتی تھی۔ [12] یورپی نوآبادیاتی دور میں مذہبی، سماجی اور سیاسی عوامل پیدا ہوئے جنہوں نے اردو اور ہندی کے درمیان فرق کیا، جس کی وجہ سے ہندی-اردو تنازعہ شروع ہوا ۔

اردو 18ویں صدی میں ایک ادبی زبان بن گئی اور اسی طرح کی دو معیاری شکلیں دہلی اور لکھنؤ میں وجود میں آئیں۔ 1947ء میں تقسیم ہند کے بعد سے پاکستانی شہر کراچی میں ایک تیسرا معیار پیدا ہوا ہے۔ [13] [14] دکنی ، ایک پرانی شکل جو دکن میں استعمال ہوتی تھی، سولہویں صدی تک دکن سلاطین کی درباری زبان بن گئی۔ [15] [14]

اُردو کا بعض اوقات ہندی کے ساتھ موازنہ کیا جاتا ہے۔ اُردو اور ہندی میں بُنیادی فرق یہ ہے کہ اُردو نستعلیق رسم الخط میں لکھی جاتی ہے اور عربی و فارسی الفاظ استعمال کرتی ہے۔ جبکہ ہندی زبان دیوناگری رسم الخط میں لکھی جاتی ہے اور سنسکرت الفاظ زیادہ استعمال کرتی ہے۔ کچھ ماہرینِ لسانیات اُردو اور ہندی کو ایک ہی زبان کی دو معیاری صورتیں گردانتے ہیں۔ لیکن حقیقت یہ ہے کہ ہندی، اُردو زبان سے نکلی ہے۔ اسی طرح اگر اردو اور ہندی زبان کو ایک سمجھا جائے تو یہ دنیا کی چوتھی بڑی زبان ہے۔ اردو زبان دنیا کی نئی زبانوں میں سے ہونے کے باوجود اپنے پاس معیاری اور وسیع ذخیرہ ادب رکھتی ہے۔ خاص کر جنوبی ایشیائی زبانوں میں اردو اپنی شاعری کے حوالے سے جانی جاتی ہے۔'''
ENCODING_VIE = '''Tiếng Việt, cũng gọi là tiếng Việt Nam[9] hay Việt ngữ là ngôn ngữ của người Việt và là ngôn ngữ chính thức tại Việt Nam. Đây là tiếng mẹ đẻ của khoảng 85% dân cư Việt Nam cùng với hơn 4 triệu người Việt kiều. Tiếng Việt còn là ngôn ngữ thứ hai của các dân tộc thiểu số tại Việt Nam và là ngôn ngữ dân tộc thiểu số được công nhận tại Cộng hòa Séc.

Dựa trên từ vựng cơ bản, tiếng Việt được phân loại là một ngôn ngữ thuộc ngữ hệ Nam Á. Tiếng Việt là ngôn ngữ có nhiều người nói nhất trong ngữ hệ này (nhiều hơn tổng số người nói của tất cả các ngôn ngữ còn lại trong ngữ hệ). Vì Việt Nam thuộc Vùng văn hoá Đông Á, tiếng Việt cũng chịu nhiều ảnh hưởng về từ tiếng Hán, do vậy là ngôn ngữ có ít điểm tương đồng nhất với các ngôn ngữ khác trong ngữ hệ Nam Á.'''

# Texts
TEXT_AFR = ["Afrikaans is tipologies beskou 'n Indo-Europese, Wes-Germaanse, Nederfrankiese taal,[2] wat aan die suidpunt van Afrika onder invloed van verskeie ander tale en taalgroepe ontstaan het.", ' ', "Afrikaans is op 8 Mei 1925 as 'n amptelike taal van Suid-Afrika erken en is tans die derde jongste Germaanse taal wat amptelike status geniet, naas Faroëes wat in 1948 grondwetlik erken is en Luxemburgs wat hierdie status in 1984 verkry het."]
TEXT_ARA = ['تحتوي اللغة العربية 28 حرفاً مكتوباً.', ' ', 'ويرى بعضُ اللغويين أنه يجب إضافة حرف الهمزة إلى حروف العربية، ليصبحَ عدد الحروف 29.', ' ', 'تُكتب العربية من اليمين إلى اليسار - ومثلها اللغة الفارسية والعبرية على عكس كثير من اللغات العالمية - ومن أعلى الصفحة إلى أسفلها.']
TEXT_XCL = ['Զգոյշ լերուք ողորմութեան ձերում՝ մի առնել առաջի մարդկան՝ որպէս թե ի ցոյց ինչ նոցա, գուցէ եւ վարձս ոչ ընդունիցիք ի հաւրէ ձերմէ որ յերկինսն է:', ' ', 'Այղ յորժամ առնիցես ողորմութիւն, մի հարկաներ փող առաջի քո. որպէս կեղծաւորքն առնեն ի ժողովուրդս եւ ի հրապարակս. որպէս զի փառաւորեսցին ի մարդկանէ:']
TEXT_HYE = TEXT_HYW = ['Հայոց լեզվով ստեղծվել է մեծ գրականություն։ Գրաբարով է ավանդված հայ հին պատմագրությունը, գիտափիլիսոփայական, մաթեմատիկական, բժշկագիտական, աստվածաբանական-դավանաբանական գրականությունը։', ' ', 'Միջին գրական հայերենով են մեզ հասել միջնադարյան հայ քնարերգության գլուխգործոցները, բժշկագիտական, իրավագիտական նշանակալի աշխատություններ։', ' ', 'Գրական նոր հայերենի արևելահայերեն ու արևմտահայերեն գրական տարբերակներով ստեղծվել է գեղարվեստական, հրապարակախոսական ու գիտական բազմատիպ ու բազմաբնույթ հարուստ գրականություն։']
TEXT_EUS = ['Euskara Euskal Herriko hizkuntza da.[8]', ' ', 'Hizkuntza bakartua da, ez baitzaio ahaidetasunik aurkitu.', ' ', 'Morfologiari dagokionez, hizkuntza eranskari eta ergatiboa da.', ' ', 'Euskaraz mintzo direnei euskaldun deritze.', ' ', 'Gaur egun, Euskal Herrian bertan ere hizkuntza gutxitua da, lurralde horretan gaztelania eta frantsesa nagusitu baitira.']
TEXT_BEL = ["Белару́ская мо́ва — нацыянальная мова беларусаў, уваходзіць у індаеўрапейскую моўную сям'ю, славянскую групу, усходнеславянскую падгрупу.", ' ', 'Пашырана ў асноўным у Беларусі.', ' ', 'Распаўсюджана таксама і ў іншых краінах, галоўным чынам у Польшчы, Украіне, Расіі, Літве, Латвіі[2].', ' ', 'Беларуская мова мае шмат агульных граматычных і лексічных уласцівасцей з іншымі ўсходнеславянскімі мовамі.']
TEXT_BUL = ['Бъ̀лгарският езѝк е индоевропейски език от групата на южнославянските езици, като образува неговата източна подгрупа.', ' ', 'Той е официалният език на Република България и един от 24-те официални езика на Европейския съюз.', ' ', 'Българският език е плурицентричен език – има няколко книжовни норми.', ' ', 'Наред с използваната в България основна норма, съществуват още македонска норма, която също използва кирилица, и банатска норма, която използва латиница.']
TEXT_MYA = ['မြန်မာဘာသာစကား (အင်္ဂလိပ်: Myanmar Language)သည် မြန်မာနိုင်ငံ၏ ရုံးသုံး ဘာသာစကားဖြစ်သည်။', ' ', 'ဗမာလူမျိုးနှင့် ဗမာနွယ်ဝင်(ဓနု၊ အင်းသား၊ တောင်ရိုးနှင့် ယော)တို့၏ ဇာတိစကားဖြစ်သည်။', ' ', 'ဗမာလူမျိုးတို့သည် တိဘက်-ဗမာနွယ် ဘာသာစကားများ (Tibeto-Burman Languages) ပြောဆိုသည့် လူမျိုးနွယ်စုကြီးမှ အကြီးဆုံးသော လူမျိုးဖြစ်သည်။', ' ', 'လူဦးရေ ၃၈သန်းကျော်ခန့်သည် မြန်မာဘာသာစကားကို မိခင်ဘာသာစကား အနေဖြင့် သုံး၍ မြန်မာတိုင်းရင်သားများသည် ဒုတိယဘာသာစကား အနေဖြင့် သုံးသည်။']
TEXT_BXR = ['Буряад хэлэн (буряад-монгол хэлэн) Алтайн хэлэнэй изагуурай буряад арад түмэнһөө хэрэглэгдэжэ бай монгол хэлэнэй бүлэгэй xэлэн-аялгуу юм.', ' ', 'Бүгэдэ Найрамдаха Буряад Улас, Эрхүү можо, Забайкалиин хизаар, Усть-Ордын болон Агын тойрогууд, мүн Монгол Уласай хойто аймагууд, Хитадай зүүн-хойто орондо ажаһуудаг буряадууд хэлэлсэдэг.', ' ', 'Орос гүрэндэ (1989 оной тоололгоор) 376 мянга оршом хүн буряадаар дуугардаг.', ' ', 'Буряадай 86,6%-нь буряад хэлые, 13,3%-нь ород хэлые эхэ (түрэлхи) хэлэн гэһэн байна.', ' ', 'Баруун (эхирэд, булагад), дундада (алайр, түнхэн), зүүн (хори), урда (сонгоол, сартуул) гэхэ мэтэ аялгуутай.']
TEXT_CAT = ["El català té cinc grans dialectes (valencià, nord-occidental, central, balear i rossellonès) que juntament amb l'alguerès, es divideixen fins a vint-i-una varietats i s'agrupen en dos grans blocs: el català occidental i el català oriental.", ' ', 'Les propostes normatives permeten reduir les diferències entre aquests dialectes en el català estàndard des del punt de vista gramatical, fonètic i de lèxic.']
TEXT_LZH = ['先民言語,傳乎口耳,至結繩以記,事日贅,是結繩之不足,求諸繪圖,繪圖猶逾,而創字製文,金石竹帛載之,自劉漢而書諸紙。', '唐宋降,文士崇古非今,尚先秦古文,規法矩繩,典模乃定。', '由是,口述耳聞者雖變於百歲千載,手書目觀者猶通,前後貫延三代。', '唯文言非創於一舉而得,所式所尊,莫衷一是,時比燕越。']
TEXT_ZHO_CN = ['汉语又称中文、华语[6]、唐话[7],概指由上古汉语(先秦雅言)发展而来、书面使用汉字的分析语,为汉藏语系最大的一支语族。', '如把整个汉语族视为单一语言,则汉语为世界使用人数最多的语言,目前全世界有五分之一人口将汉语做为母语或第二语言。']
TEXT_ZHO_TW = ['漢語又稱中文、華語[6]、唐話[7],概指由上古漢語(先秦雅言)發展而來、書面使用漢字的分析語,為漢藏語系最大的一支語族。', '如把整個漢語族視為單一語言,則漢語為世界使用人數最多的語言,目前全世界有五分之一人口將漢語做為母語或第二語言。']
TEXT_CHU = ['ВЪ И҃ В҃ ДЬНЬ КЛꙆМЕНТА', ' ', 'Бъ҃ ꙇже нъи лѣта огрѧдѫцѣ блаженаго климента мѫченіка твоего ꙇ папежа чьстьѭ веселішꙇ подазь мілостівъі да егоже чьсть чьстімъ сілоѭ ѹбо мѫчениѣ его наслѣдѹемъ г҃мь']
TEXT_COP = ['ϭⲟⲗ ·', ' ', 'ⲛⲉⲛⲧⲁⲩⲕⲗⲏⲣⲟⲛⲟⲙⲉⲓ ⲉⲛⲉϩ ⲛⲧⲙⲛⲧⲣⲣⲟ ⲙⲡⲛⲟⲩⲧⲉ ·']
TEXT_HRV = ['Hrvatski jezik (ISO 639-3: hrv) skupni je naziv za nacionalni standardni jezik Hrvata, te za skup narječja i govora kojima govore ili su nekada govorili Hrvati.', ' ', 'Njime govori više od 5,5 milijuna ljudi,[2] poglavito Hrvata u Hrvatskoj, 3 980 000 (popis iz 2001.) i Bosni i Hercegovini, 469 000 (2004.).[3]', ' ', 'Hrvatski je materinski jezik za Hrvate u drugim zemljama: Sjedinjenim Američkim Državama, 58 400 (popis iz 2000.);[1] Austriji, 19 400 (popis iz 2001.); Srbiji, 19 223 (popis iz 2011.);[4] Mađarskoj, 14 300 (popis iz 2001.); Italiji, 3500 (Vincent 1987.); Crnoj Gori, 6810 (2006.); Slovačkoj, 890 (popis iz 2001.).']
TEXT_CES = ['Čeština neboli český jazyk je západoslovanský jazyk, nejbližší slovenštině, poté lužické srbštině a polštině.', ' ', 'Patří mezi slovanské jazyky, do rodiny jazyků indoevropských.', ' ', 'Čeština se vyvinula ze západních nářečí praslovanštiny na konci 10. století.', ' ', 'Je částečně ovlivněná latinou a němčinou.', ' ', 'Česky psaná literatura se objevuje od 14. století.', ' ', 'První písemné památky jsou však již z 12. století.']
TEXT_DAN = ['Dansk er et østnordisk sprog indenfor den germanske gren af den indoeuropæiske sprogfamilie.', ' ', 'Det danske sprog tales af ca. seks millioner mennesker, hovedsageligt i Danmark, men også i Sydslesvig, på Færøerne og Grønland.[1]', ' ', 'Dansk er tæt beslægtet med norsk, svensk og islandsk, og sproghistorisk har dansk været stærkt påvirket af plattysk.']
TEXT_NLD = ['Het Nederlands is een West-Germaanse taal, de meest gebruikte taal in Nederland en België, de officiële taal van Suriname en een van de drie officiële talen van België.', ' ', 'Binnen het Koninkrijk der Nederlanden is het Nederlands ook een officiële taal van Aruba, Curaçao en Sint-Maarten.', ' ', 'Het Nederlands is na Engels en Duits de meest gesproken Germaanse taal.']
TEXT_ANG = ['Seo ænglisce spræc (Englisc gereord) is Westgermanisc spræc, þe fram Englalande aras.', ' ', 'Heo is sibb þæm Ealdfresiscan and þære Ealdseaxiscan spræcum.', ' ', 'Hit is gastleas spræc, and ne hæfþ nane gebyrdlice sprecan todæg, ac sume menn leorniaþ hit on Betweoxnette and writaþ on him, swa swa her on þissum Wicipædian.']
TEXT_ENG_GB = TEXT_ENG_US = ['English is a West Germanic language in the Indo-European language family.', ' ', 'Originating in early medieval England,[3][4][5] today English is both the most spoken language in the world[6] and the third most spoken native language, after Mandarin Chinese and Spanish.[7]', ' ', 'English is the most widely learned second language and is either the official language or one of the official languages in 59 sovereign states.', ' ', 'There are more people who have learned English as a second language than there are native speakers.', ' ', 'As of 2005, it was estimated that there were over two billion speakers of English.[8]']
TEXT_MYV = ['Э́рзянь кель — совавтови суоминь-равонь тарадонтень суоми-угрань келень семиянь группанть пельксэнтень, уралонь келень семиянтень.', ' ', 'Эрзянь кельсэ кортыть эрзянь ломанть.']
TEXT_EST = ['Eesti keelel on kaks suuremat murderühma (põhjaeesti ja lõunaeesti), mõnes käsitluses eristatakse ka kirderanniku murdeid eraldi murderühmana.', ' ', 'Liikumisvõimaluste laienemine ning põhjaeesti keskmurde alusel loodud normitud eesti kirjakeele kasutus on põhjustanud murdeerinevuste taandumise.']
TEXT_FAO = ['Føroyskt er høvuðsmálið í Føroyum.', ' ', 'Føroyskt er almenna málið í Føroyum, og tað er tjóðarmál føroyinga.', ' ', 'Harafturat verður nógv føroyskt tosað í Danmark og Íslandi.', ' ', 'Í Føroyum tosa 48.000 fólk føroyskt, í Danmark umleið 25.000 og í Íslandi umleið 5.000, so samlaða talið av fólkum, ið duga føroyskt liggur um 75-80.000.', ' ', 'Føroyskt er tí í altjóða høpi eitt lítið mál.', ' ', 'Føroyskt mál hevur fýra føll og trý kyn, og grammatiski málbygningurin líkist ógvuliga nógv íslendskum, meðan orðatilfarið og í summum lutum úttalan líkist norska landsmálinum.']
TEXT_FIN = ['Suomen kieli eli suomi on uralilaisten kielten itämerensuomalaiseen ryhmään kuuluva kieli, jota puhuvat pääosin suomalaiset.', ' ', 'Suomessa suomen kieltä puhuu äidinkielenään 4,8 miljoonaa ja toisena kielenään 0,5 miljoonaa ihmistä.', ' ', 'Suurimmat suomea puhuvat vähemmistöt ovat Ruotsissa, Norjassa ja Venäjällä.']
TEXT_FRA = ['Le français est une langue indo-européenne de la famille des langues romanes dont les locuteurs sont appelés francophones.', ' ', 'Elle est parfois surnommée la langue de Molière.']
TEXT_FRO = ["Si l'orrat Carles, ki est as porz passant.", ' ', 'Je vos plevis, ja returnerunt Franc.']
TEXT_GLG = ['O galego ([ɡaˈleɣo̝][1]) é unha lingua indoeuropea que pertence á póla de linguas románicas.', ' ', 'É a lingua propia de Galicia,[5] onde é falada por uns 2,4 millóns de galegos.[6]', ' ', 'Á parte de en Galicia, a lingua fálase tamén en territorios limítrofes con esta comunidade, aínda que sen estatuto de oficialidade (agás en casos puntuais, como na Veiga),[7] así como pola diáspora galega que emigrou a outras partes de España, a América Latina, os Estados Unidos, Suíza e outros países de Europa.']
TEXT_DEU_AT = TEXT_DEU_DE = TEXT_DEU_CH = ['Das Deutsche ist eine plurizentrische Sprache, enthält also mehrere Standardvarietäten in verschiedenen Regionen.', ' ', 'Ihr Sprachgebiet umfasst Deutschland, Österreich, die Deutschschweiz, Liechtenstein, Luxemburg, Ostbelgien, Südtirol, das Elsass und Lothringen sowie Nordschleswig.', ' ', 'Außerdem ist Deutsch eine Minderheitensprache in einigen europäischen und außereuropäischen Ländern, z. B. in Rumänien und Südafrika sowie Nationalsprache im afrikanischen Namibia.', ' ', 'Deutsch ist die meistgesprochene Muttersprache in der Europäischen Union (EU).[26]']
TEXT_GOT = ['𐌲𐌿𐍄𐌰𐍂𐌰𐌶𐌳𐌰, 𐌲𐌿𐍄𐍂𐌰𐌶𐌳𐌰 𐌰𐌹𐌸𐌸𐌰𐌿 𐌲𐌿𐍄𐌹𐍃𐌺𐌰 𐍂𐌰𐌶𐌳𐌰 𐌹𐍃𐍄 𐌲𐌰𐍃𐍅𐌿𐌻𐍄𐌰𐌽𐌰 𐌰𐌿𐍃𐍄𐍂𐌰𐌲𐌰𐌹𐍂𐌼𐌰𐌽𐌹𐍃𐌺𐌰 𐍂𐌰𐌶𐌳𐌰 𐍂𐍉𐌳𐌹𐌳𐌰 𐍆𐍂𐌰𐌼 𐌲𐌿𐍄𐌰𐌼.', ' ', '𐍃𐌹 𐌹𐍃𐍄 𐌰𐌹𐌽𐌰𐌷𐍉 𐌰𐌿𐍃𐍄𐍂𐌰𐌲𐌰𐌹𐌼𐌰𐌽𐌹𐍃𐌺𐌰 𐍂𐌰𐌶𐌳𐌰 𐍃𐍉𐌴𐌹 𐌷𐌰𐌱𐌰𐌹𐌸 𐌲𐌰𐌼𐌴𐌻𐌴𐌹𐌽𐌹𐌽𐍃.']
TEXT_GRC = ['ἦλθον δὲ οἱ δύο ἄγγελοι εἰς Σόδομα ἑσπέρας· Λὼτ δὲ ἐκάθητο παρὰ τὴν πύλην Σοδόμων. ἰδὼν δὲ Λὼτ ἐξανέστη εἰς συνάντησιν αὐτοῖς καὶ προσεκύνησεν τῷ προσώπῳ ἐπὶ τὴν γῆν', ' ', 'καὶ εἶπεν, ἰδού, κύριοι, ἐκκλίνατε εἰς τὸν οἶκον τοῦ παιδὸς ὑμῶν καὶ καταλύσατε καὶ νίψασθε τοὺς πόδας ὑμῶν, καὶ ὀρθρίσαντες ἀπελεύσεσθε εἰς τὴν ὁδὸν ὑμῶν. εἶπαν δέ, οὐχί, ἀλλ᾿ ἐν τῇ πλατείᾳ καταλύσομεν.']
TEXT_ELL = ['Η ελληνική γλώσσα ανήκει στην ινδοευρωπαϊκή οικογένεια[9] και αποτελεί το μοναδικό μέλος του ελληνικού κλάδου, ενώ είναι η επίσημη γλώσσα της Ελλάδας και της Κύπρου.', ' ', 'Ανήκει επίσης στο βαλκανικό γλωσσικό δεσμό.', ' ', 'Στην ελληνική γλώσσα, έχουμε γραπτά κείμενα ήδη από τον 15ο αιώνα π.Χ..', ' ', 'Σαν Παγκόσμια Ημέρα Ελληνικής Γλώσσας, κάθε έτος, έχει καθιερωθεί η 9η Φεβρουαρίου.', ' ', 'Έχει την μακροβιότερη καταγεγραμμένη ιστορία από οποιαδήποτε άλλη ζωντανή ινδοευρωπαϊκή γλώσσα με τουλάχιστον 3.400 χρόνια γραπτής ιστορίας.[10]', ' ', 'Γράφεται με το ελληνικό αλφάβητο, το οποίο χρησιμοποιείται αδιάκοπα (αρχικά με τοπικές παραλλαγές, μετέπειτα υπό μια, ενιαία μορφή) εδώ και περίπου 2.600 χρόνια.[11][12]', ' ', 'Προηγουμένως η ελληνική γλώσσα γραφόταν με τη Γραμμική Β και το κυπριακό συλλαβάριο.[13]', ' ', 'Το ελληνικό αλφάβητο προέρχεται από το φοινικικό αλφάβητο, με κάποιες προσαρμογές.', ' ', 'Στο ελληνικό αλφάβητο βασίζεται το λατινικό, το κυριλλικό, το αρμενικό, το κοπτικό, το γοτθικό και πολλά άλλα αλφάβητα.']
TEXT_HBO = ['וַ֠יָּבֹאוּ שְׁנֵ֨י הַמַּלְאָכִ֤ים סְדֹ֨מָה֙ בָּעֶ֔רֶב וְלֹ֖וט יֹשֵׁ֣ב בְּשַֽׁעַר־סְדֹ֑ם וַיַּרְא־לֹוט֙ וַיָּ֣קָם לִקְרָאתָ֔ם וַיִּשְׁתַּ֥חוּ אַפַּ֖יִם אָֽרְצָה׃', ' ', 'וַיֹּ֜אמֶר הִנֶּ֣ה נָּא־אֲדֹנַ֗י ס֣וּרוּ נָ֠א אֶל־בֵּ֨ית עַבְדְּכֶ֤ם וְלִ֨ינוּ֙ וְרַחֲצ֣וּ רַגְלֵיכֶ֔ם וְהִשְׁכַּמְתֶּ֖ם וַהְלַכְתֶּ֣ם לְדַרְכְּכֶ֑ם וַיֹּאמְר֣וּ לֹּ֔א כִּ֥י בָרְחֹ֖וב נָלִֽין׃']
TEXT_HEB = ['עִבְרִית היא שפה שמית, ממשפחת השפות האפרו-אסיאתיות, הידועה כשפתם של היהודים ושל השומרונים.', ' ', 'העברית היא שפתה הרשמית של מדינת ישראל, מעמד שעוגן בשנת תשע"ח, 2018, בחוק יסוד: ישראל – מדינת הלאום של העם היהודי.']
TEXT_HIN = ['हिन्दी जिसके मानकीकृत रूप को मानक हिन्दी कहा जाता है, विश्व की एक प्रमुख भाषा है और भारत की एक राजभाषा है।', ' ', 'केन्द्रीय स्तर पर भारत में सह-आधिकारिक भाषा अंग्रेजी है।', ' ', 'यह हिन्दुस्तानी भाषा की एक मानकीकृत रूप है जिसमें संस्कृत के तत्सम तथा तद्भव शब्दों का प्रयोग अधिक है और अरबी–फ़ारसी शब्द कम हैं।', ' ', 'हिन्दी संवैधानिक रूप से भारत की राजभाषा और भारत की सबसे अधिक बोली और समझी जाने वाली भाषा है।', ' ', 'हिन्दी भारत की राष्ट्रभाषा नहीं है क्योंकि भारत के संविधान में किसी भी भाषा को ऐसा दर्जा नहीं दिया गया है।[5][6]', ' ', 'एथनोलॉग के अनुसार हिन्दी विश्व की तीसरी सबसे अधिक बोली जाने वाली भाषा है।[7]', ' ', 'विश्व आर्थिक मंच की गणना के अनुसार यह विश्व की दस शक्तिशाली भाषाओं में से एक है।[8]']
TEXT_HUN = ['A magyar nyelv az uráli nyelvcsalád tagja, a finnugor nyelvek közé tartozó ugor nyelvek egyike.', ' ', 'Legközelebbi rokonai a manysi és a hanti nyelv, majd utánuk az udmurt, a komi, a mari és a mordvin nyelvek.', ' ', 'Vannak olyan vélemények, melyek szerint a moldvai csángó önálló nyelv – különösen annak északi, középkori változata –, így ez volna a magyar legközelebbi rokonnyelve.[1]']
TEXT_ISL = ['Íslenska er vesturnorrænt, germanskt og indóevrópskt tungumál sem er einkum talað og ritað á Íslandi og er móðurmál langflestra Íslendinga.[5]', ' ', 'Það hefur tekið minni breytingum frá fornnorrænu en önnur norræn mál[5] og er skyldara norsku og færeysku en sænsku og dönsku.[2][3]']
TEXT_IND = ['Bahasa Indonesia adalah bahasa nasional dan resmi di seluruh wilayah Indonesia.', ' ', 'Ini merupakan bahasa komunikasi resmi, diajarkan di sekolah-sekolah, dan digunakan untuk penyiaran di media elektronik dan digital.', ' ', 'Sebagai negara dengan tingkat multilingual (terutama trilingual)[12][13] teratas di dunia, mayoritas orang Indonesia juga mampu bertutur dalam bahasa daerah atau bahasa suku mereka sendiri, dengan yang paling banyak dituturkan adalah bahasa Jawa dan Sunda yang juga memberikan pengaruh besar ke dalam elemen bahasa Indonesia itu sendiri.[14][15]']
TEXT_GLE = ['Is ceann de na teangacha Ceilteacha í an Ghaeilge (nó Gaeilge na hÉireann mar a thugtar uirthi corruair), agus ceann de na trí cinn de theangacha Ceilteacha ar a dtugtar na teangacha Gaelacha (Gaeilge, Gaeilge Mhanann agus Gaeilge na hAlban) go háirithe.', ' ', 'Labhraítear in Éirinn go príomha í, ach tá cainteoirí Gaeilge ina gcónaí in áiteanna eile ar fud an domhain.']
TEXT_ITA = ["L'italiano ([itaˈljaːno][Nota 1] ascoltaⓘ) è una lingua romanza parlata principalmente in Italia.", ' ', "Per ragioni storiche e geografiche, l'italiano è la lingua romanza meno divergente dal latino.[2][3][4][Nota 2]"]
TEXT_JPN = ['日本語(にほんご、にっぽんご[注釈 2])は、日本国内や、かつての日本領だった国、そして国外移民や移住者を含む日本人同士の間で使用されている言語。', '日本は法令によって公用語を規定していないが、法令その他の公用文は全て日本語で記述され、各種法令[注釈 3]において日本語を用いることが規定され、学校教育においては「国語」の教科として学習を行うなど、事実上日本国内において唯一の公用語となっている。']
TEXT_KAZ = ['Қазақ тілі (төте: قازاق ٴتىلى‎, латын: qazaq tili) — Қазақстан Республикасының мемлекеттік тілі, сонымен қатар Ресей, Өзбекстан, Қытай, Моңғолия жəне т.б.', ' ', 'елдерде тұратын қазақтардың ана тілі.']
TEXT_KHM = ['ភាសាខ្មែរ គឺជាភាសាកំណើតរបស់ជនជាតិខ្មែរនិងជាភាសាផ្លូវការរបស់ប្រទេសកម្ពុជា។', ' ', 'ភាសាសំស្ក្រឹតនិងភាសាបាលីបាន\u200Bជួយបង្កើតខេមរភាសា ព្រោះភាសាខ្មែរបានខ្ចីពាក្យច្រើនពីភាសាទាំងពីរនេះ។', ' ', '\u200Bមានអក្សរក្រមវែងជាងគេនៅលើពិភពលោក ។\u200B', ' ', 'វាជាភាសាមួយដ៏ចំណាស់\u200B ដែលប្រហែលជាមានដើមកំណើតតាំងតែពី\u200B២០០០ឆ្នាំមុនមកម៉្លេះ។']
TEXT_KOR = ['세계 여러 지역에 한민족 인구가 거주하게 되면서 전 세계 각지에서 한국어가 사용 되고 있다.', ' ', '2016년 1월 초 기준으로 한국어 사용 인구는 약 8,000만 명으로 추산된다.[1]']
TEXT_KMR = ['Kurmancî, Kurdiya jorîn yan jî Kurdiya bakurî yek ji zaravayên zimanê kurdî ye ku ji aliyê kurdan ve tê axaftin.', ' ', 'Zaravayê kurmancî li herçar parçeyên Kurdistanê bi awayekî berfireh tê axaftin û rêjeya zêde ya kurdan bi zaravayê kurmancî diaxivin.', ' ', 'Kurmancî li henek deverên herêmên Kurdistanê bi navên cuda cuda hatiye binavkirin.', ' ', 'Li Rojhilatê Kurdistanê wekî şikakî û li Başurê Kurdistanê jî wek badînî hatiye binavkirin.']
TEXT_KIR = ['Кыргыз тили — Кыргыз Республикасынын мамлекеттик тили, түрк тилдери курамына, анын ичинде кыргыз-кыпчак же тоо-алтай тобуна кирет.', ' ', 'Кыргыз Республикасынын түптүү калкынын, Кытайдагы, Өзбекстан, Тажикстан, Республикасында Ооганстан, Түркия, Орусияда жашап жаткан кыргыздардын эне тили.', ' ', '2009 ж. өткөн элди жана турак-жай фондун каттоонун жыйынтыгында Кыргыз Республикасында кыргыз тилин 3 830 556 адам өз эне тили катары көрсөтүшкөн жана 271 187 адам кыргыз тилин экинчи тил катары биле тургандыгы аныкталган[1].', ' ', 'Бул КРсындагы калктын 76% кыргыз тилинде сүйлөйт дегенди билдирет.', ' ', 'Кыргыз тилинде 1 720 693 адам орус тилин дагы билише тургандыгын көргөзүшкөн[2].', ' ', 'Бул 2 109 863 адам кыргыз тилинде гана сүйлөй билишет дегенди билдирет.', ' ', 'Болжолдуу эсеп менен дүйнө жүзү боюнча кыргыз тилинде 6 700 000 адам сүйлөйт.']
TEXT_LAO = ['ພາສາລາວ (Lao: ລາວ, [láːw] ຫຼື ພາສາລາວ, [pʰáːsǎːláːw]) ເປັນພາສາຕະກູນໄທ-ກະໄດຂອງຄົນລາວ ໂດຍມີຄົນເວົ້າໃນປະເທດລາວ ເຊິ່ງເປັນພາສາລັດຖະການຂອງສາທາລະນະລັດ ປະຊາທິປະໄຕ ປະຊາຊົນລາວ ຂອງປະຊາກອນປະມານ 7 ລ້ານຄົນ ແລະໃນພື້ນທີ່ພາກຕາເວັນອອກສຽງເໜືອຂອງປະເທດໄທທີ່ມີຄົນເວົ້າປະມານ 23 ລ້ານຄົນ ທາງລັດຖະບານປະເທດໄທມີການສະໜັບສະໜຸນໃຫ້ເອີ້ນພາສາລາວຖິ່ນໄທວ່າ ພາສາລາວຖິ່ນອີສານ ນອກຈາກນີ້, ຢູ່ທາງພາກຕາເວັນອອກສຽງເໜືອຂອງປະເທດກຳປູເຈຍກໍມີຄົນເວົ້າພາສາລາວຄືກັນ.', ' ', 'ພາສາລາວເປັນແມ່ຂອງຄົນເຊື້ອຊາດລາວທັງຢູ່ພາຍໃນແລະຕ່າງປະເທດ ທັງເປັນພາສາກາງຂອງພົນລະເມືອງໃນປະເທດລາວທີ່ມີພາສາອື່ນອີກຫຼາຍພາສາ ເຊິ່ງບາງພາສາບໍ່ມີຄວາມກ່ຽວຂ້ອງກັບພາສານີ້[3] .']
TEXT_LAT = ['Lingua Latina,[1] sive sermo Latinus,[2] est lingua Indoeuropaea qua primum Latini universi et Romani antiqui in primis loquebantur quamobrem interdum etiam lingua Latia[3] (in Latio enim sueta) et lingua Romana[4] (nam imperii Romani sermo sollemnis) appellatur.', ' ', 'Nomen linguae ductum est a terra quam gentes Latine loquentes incolebant, Latium vetus interdum appellata, in paeninsula Italica inter Tiberim, Volscos, Appenninum, et mare Inferum sita.']
TEXT_LAV = ['Latviešu valoda ir dzimtā valoda apmēram 1,5 miljoniem cilvēku, galvenokārt Latvijā, kur tā ir vienīgā valsts valoda.[1][3]', ' ', 'Lielākās latviešu valodas pratēju kopienas ārpus Latvijas ir Apvienotajā Karalistē, ASV, Īrijā, Austrālijā, Vācijā, Zviedrijā, Kanādā, Brazīlijā, Krievijas Federācijā.', ' ', 'Latviešu valoda pieder pie indoeiropiešu valodu saimes baltu valodu grupas.', ' ', 'Senākie rakstu paraugi latviešu valodā — jau no 15. gadsimta — ir atrodami Jāņa ģildes alus nesēju biedrības grāmatās.', ' ', 'Tajā lielākoties bija latvieši, un no 1517. gada arī brālības vecākie bija latvieši.', ' ', 'Pirmais teksts latviski iespiests 1507. gadā izdotajā baznīcas rokasgrāmatā „AGENDA”.[4]']
TEXT_LIJ = ["O baxin d'influensa di dialetti lìguri o l'é de çirca 2 milioìn de personn-e anche se, specialmente inti ùrtimi çinquant'anni, pe coscì de variante locali se son pèrse e de âtre son a reizego tutt'òua, anche pe córpa da mancansa de 'n pâ de generaçioin inta continoasion da parlâ.", ' ', "Coscî, ancheu, a popolaçion ch'a conosce a léngoa a l'é ben ben infeiô e ancón meno son quelli che a pàrlan e a scrîvan."]
TEXT_LIT = ['Lietuvių kalba – iš baltų prokalbės kilusi lietuvių tautos kalba, kuri Lietuvoje yra valstybinė, o Europos Sąjungoje – viena iš oficialiųjų kalbų.', ' ', 'Lietuviškai kalba apie tris milijonus žmonių (dauguma jų gyvena Lietuvoje).', ' ', 'Drauge su latvių, mirusiomis prūsų, jotvingių ir kitomis baltų kalbomis priklauso indoeuropiečių kalbų šeimos baltų kalbų grupei.']
TEXT_MKD = ['Македонски јазик — јужнословенски јазик, дел од групата на словенски јазици од јазичното семејство на индоевропски јазици.', ' ', 'Македонскиот е службен и национален јазик во Македонија, а воедно е и официјално признат како регионален службен јазик во Горица и Пустец во Албанија каде што живее бројно македонско население, но и во Србија како официјален во општините Јабука и Пландиште, Романија и Косово.', ' ', 'Македонски се зборува и во Австралија, Бугарија, Грција, Канада, САД, Црна Гора, Турција, во некои земји−членки на Европската Унија и останатата македонска дијаспора.', ' ', 'Вкупниот број на македонски говорници е тешко да се утврди поради несоодветни пописи, но бројката се движи од околу 2,5 до 3 милиони луѓе.']
TEXT_MAL = ['ദ്രാവിഡഭാഷാ കുടുംബത്തിൽ ഉൾപ്പെടുന്ന മലയാളത്തിന് ഇതര ഭാരതീയ ഭാഷകളായ സംസ്കൃതം, തമിഴ് എന്നീ ഉദാത്തഭാഷകളുമായി പ്രകടമായ ബന്ധമുണ്ട്[8].', ' ', 'പൂക്കാട്ടിയൂർ ലിഖിതങ്ങൾ 8 ക്രി.മു മുതൽ 3000 ക്രി.മു അടുത്ത് വരെയും പഴക്കം ചെന്നതാണ്.']
TEXT_MLT = ['L-oriġini tal-ilsien Malti huma attribwiti għall-wasla, kmieni fis-seklu 11, ta’ settlers minn Sqallija ġirien, fejn kien mitkellem is-sikolu-Għarbi, li biddel il-konkwista tal-gżira mill-Kalifat Fatimid fl-aħħar tas-seklu 9[18].', ' ', 'Din it-talba ġiet ikkorroborata minn studji ġenetiċi, li juru li l-Maltin kontemporanji jaqsmu antenati komuni ma’ Sqallin u Calabrians, bi ftit input ġenetiku mill-Afrika ta’ Fuq u l-Levant.']
TEXT_GLV = ['She Gaelg (graït: /gɪlg/) çhengey Ghaelagh Vannin.', ' ', "Haink y Ghaelg woish Shenn-Yernish, as t'ee cosoylagh rish Yernish as Gaelg ny h-Albey."]
TEXT_MAR = ['मराठी भाषा ही इंडो-युरोपीय भाषाकुळातील एक भाषा आहे.', ' ', 'मराठी ही भारताच्या २२ अधिकृत भाषांपैकी एक आहे.', ' ', 'मराठी महाराष्ट्र राज्याची अधिकृत तर गोवा राज्याची सहअधिकृत भाषा आहे.', ' ', '२०११ च्या जनगणनेनुसार, भारतात मराठी भाषकांची एकूण लोकसंख्या सुमारे १४ कोटी आहे.', ' ', 'मराठी मातृभाषा असणाऱ्या लोकांच्या संख्येनुसार मराठी ही जगातील दहावी व भारतातील तिसरी भाषा आहे.', ' ', 'मराठी भाषा भारताच्या प्राचीन भाषांपैकी एक असून महाराष्ट्री प्राकृतचे आधुनिक रूप आहे.', ' ', 'मराठीचे वय सुमारे २४०० वर्ष आहे.', ' ', 'महाराष्ट्र हे मराठी भाषिकांचे राज्य म्हणून मराठी भाषेला वेगळे महत्त्व प्राप्त झालेले आहे.', ' ', 'आजतागायत मराठी भाषेतून अनेक श्रेष्ठ साहित्यकृती निर्माण झालेल्या आहेत आणि त्यात सातत्यपूर्ण रीतीने भर पडत आहे.', ' ', 'गोवा, गुजरात सारख्या राज्यातही मराठी भाषा काही प्रमाणात बोलली जाते.', ' ', 'गोव्यात मराठीला समृद्ध असा इतिहास आहे.[१]']
TEXT_PCM = ['Naijá na pijin, a langwej for oda langwej.', ' ', 'Naijá for Inglish an wey Afrikan langwej.']
TEXT_NOB = ['Bokmål er en av to offisielle målformer av norsk skriftspråk, hvorav den andre er nynorsk.', ' ', 'I skrift har 87,3% bokmål som hovedmål i skolen.[1]', ' ', 'Etter skriftreformene av riksmål i 1987 og bokmål i 1981 og 2005 er det lite som skiller bokmål og riksmål i alminnelig bruk.']
TEXT_NNO = ['Nynorsk, før 1929 offisielt kalla landsmål, er sidan jamstillingsvedtaket av 12. mai 1885 ei av dei to offisielle målformene av norsk; den andre forma er bokmål.', ' ', 'Nynorsk vert i dag nytta av om lag 10–15% av innbyggjarane i Noreg.[1][2]', ' ', 'Skriftspråket er basert på nynorsk talemål, det vil seie dei moderne norske dialektane til skilnad frå gamalnorsk og mellomnorsk.', ' ', 'Når ein seier at nokon snakkar nynorsk, meiner ein helst at dei snakkar nynorsk normaltalemål.', ' ', 'Dei færraste dialekttalande nordmenn seier at dei snakkar nynorsk, men det er ikkje uvanleg i kjerneområda til nynorsken.', ' ', 'Dette tilhøvet mellom tale og skrift ligg bak målrørsla sitt slagord sidan 1970-talet: «Snakk dialekt – skriv nynorsk!»', ' ', 'Nynorske dialektar vart snakka over heile landet, men det er berre på Vestlandet utanom dei største byene og i dei austlandske fjellbygdene at skriftspråket står sterkt.', ' ', 'Det vil seie at dei fleste dialekttalarane har bokmål som det primære skriftspråket sitt.']
TEXT_FAS = ['فارسی یا پارسی یک زبان ایرانی غربی از زیرگروه ایرانی شاخهٔ هندوایرانیِ خانوادهٔ زبان‌های هندواروپایی است که در کشورهای ایران، افغانستان، تاجیکستان، ازبکستان، پاکستان، عراق، ترکمنستان و آذربایجان به آن سخن می‌گویند.', ' ', 'فارسی یک زبان چندکانونی و زبان رسمی ایران، تاجیکستان و افغانستان به‌شمار می‌رود.', ' ', 'این زبان در ایران و افغانستان به الفبای فارسی، که از خط عربی ریشه گرفته، و در تاجیکستان و ازبکستان به الفبای تاجیکی، که از سیریلیک آمده، نوشته می‌شود.', ' ', 'زبان فارسی در افغانستان به‌طور رسمی دَری (از ۱۳۴۳ خورشیدی) و در تاجیکستان تاجیکی (از دورهٔ شوروی) خوانده می‌شود.']
TEXT_POL = ['Język polski, polszczyzna – język z grupy zachodniosłowiańskiej (do której należą również czeski, kaszubski, słowacki i języki łużyckie), stanowiącej część rodziny indoeuropejskiej.', ' ', 'Jest językiem urzędowym w Polsce oraz należy do oficjalnych języków Unii Europejskiej.']
TEXT_QPM = ['Kážyjte nǽko, de!', ' ', 'Še go preskókneme!']
TEXT_POR_BR = TEXT_POR_PT = ['A língua portuguesa, também designada português, é uma língua indo-europeia românica flexiva ocidental originada no galego-português falado no Reino da Galiza e no norte de Portugal.', ' ', 'Com a criação do Reino de Portugal em 1139 e a expansão para o sul na sequência da Reconquista, deu-se a difusão da língua pelas terras conquistadas e mais tarde, com as descobertas portuguesas, para o Brasil, África e outras partes do mundo.[8]', ' ', 'O português foi usado, naquela época, não somente nas cidades conquistadas pelos portugueses, mas também por muitos governantes locais nos seus contatos com outros estrangeiros poderosos.', ' ', 'Especialmente nessa altura a língua portuguesa também influenciou várias línguas.[9]']
TEXT_RON = ['Limba română este o limbă indo-europeană din grupul italic și din subgrupul oriental al limbilor romanice.', ' ', 'Printre limbile romanice, româna este a cincea după numărul de vorbitori, în urma spaniolei, portughezei, francezei și italienei.', ' ', 'Din motive de diferențiere tipologică, româna mai este numită în lingvistica comparată limba dacoromână sau dialectul dacoromân.', ' ', 'De asemenea, este limba oficială în România și în Republica Moldova.']
TEXT_RUS = ['Ру́сский язы́к (МФА: [ˈruskʲɪi̯ jɪˈzɨk]ⓘ)[~ 3][⇨] — язык восточнославянской группы славянской ветви индоевропейской языковой семьи, национальный язык русского народа.', ' ', 'Является одним из наиболее распространённых языков мира — восьмым среди всех языков мира по общей численности говорящих[5] и седьмым по численности владеющих им как родным (2022)[2].', ' ', 'Русский является также самым распространённым славянским языком[8] и самым распространённым языком в Европе — географически и по числу носителей языка как родного[6].']
TEXT_ORV = ['шаибатъ же ѿ бедерѧ г҃ мсци', ' ', 'а ѿ дабылѧ до шаибата в҃ мсца моремъ итьти']
TEXT_SME = ['Davvisámegiella gullá sámegielaid oarjesámegielaid davvejovkui ovttas julev- ja bihtánsámegielain.', ' ', 'Eará oarjesámegielat leat ubmisámegiella ja lullisámegiella.']
TEXT_SAN = ['संस्कृतम् जगतः एकतमा अतिप्राचीना समृद्धा शास्त्रीया च भाषासु वर्तते।', ' ', 'संस्कृतम् भारतस्य जगत: वा भाषासु एकतमा‌ प्राचीनतमा।', ' ', 'भारती, सुरभारती, अमरभारती, अमरवाणी, सुरवाणी, गीर्वाणवाणी, गीर्वाणी, देववाणी, देवभाषा, संस्कृतावाक्, दैवीवाक्, इत्यादिभिः नामभिः एतद्भाषा प्रसिद्धा।']
TEXT_GLA = ["'S i cànan dùthchasach na h-Alba a th' anns a' Ghàidhlig.", ' ', "'S i ball den teaghlach de chànanan Ceilteach dhen mheur Ghoidhealach a tha anns a' Ghàidhlig.", ' ', '''Tha Goidhealach a' gabhail a-steach na cànanan Gàidhealach gu lèir; Gàidhlig na h-Èireann, Gàidhlig Mhanainn, agus Gàidhlig agus gu dearbh chan eil anns an fhacal "Goidhealach" ach seann fhacal a tha a' ciallachadh "Gàidhealach".''']
TEXT_SRP_CYRL = ['Српски језик је званичан у Србији, Босни и Херцеговини и Црној Гори и говори га око 12 милиона људи.[13]', ' ', 'Такође је мањински језик у државама централне и источне Европе.[13]']
TEXT_SRP_LATN = ['Srpski jezik je zvaničan u Srbiji, Bosni i Hercegovini i Crnoj Gori i govori ga oko 12 miliona ljudi.[13]', ' ', 'Takođe je manjinski jezik u državama centralne i istočne Evrope.[13]']
TEXT_SND = ['سنڌي (/ˈsɪndi/[6]सिन्धी, Sindhi)ھڪ ھند-آريائي ٻولي آھي جيڪا سنڌ جي تاريخي خطي ۾ سنڌي ماڻھن پاران ڳالھائي وڃي ٿي.', ' ', 'سنڌي پاڪستان جي صوبي سنڌ جي سرڪاري ٻولي آھي.[7][8][9]', ' ', 'انڊيا ۾، سنڌي وفاقي سرڪار پاران مڃتا حاصل ڪيل ٻولين يعني شيڊيولڊ ٻولين مان ھڪ آھي.', ' ', 'گھڻا سنڌي ڳالھائيندڙ پاڪستان جي صوبي سنڌ، ڀارت جي رياست گجرات جي علائقي ڪڇ ۽ مھاراشٽر جي علائقي الھاس نگر ۾ رھن ٿا.', ' ', 'ڀارت ۾ بچيل ڳالھائيندڙ سنڌي ھندو آھن جن پاڪستان جي آزادي کان بعد 1948ع ۾ ڀارت ۾ رھائش اختيار ڪئي ۽ باقي سنڌي سڄي دنيا جي مختلف علائقن ۾ رھن ٿا.', ' ', 'سنڌي ٻولي پاڪستان جي صوبن سنڌ، بلوچستان ۽ پنجاب، سان گڏوگڏ ڀارت جي رياستن راجستان، پنجاب ۽ گجرات ۾ ڳالھائي وڃي ٿي.', ' ', 'ان سان گڏوگڏ ھانگ ڪانگ، عمان، انڊونيشيا، سنگاپور، گڏيل عرب اماراتون، گڏيل بادشاھت ۽ آمريڪا ۾ لڏي ويل جماعتن پاران بہ ڳالھائي وڃي ٿي.[10]']
TEXT_SLK = ['Slovenčina je oficiálne úradným jazykom Slovenska, Vojvodiny a od 1. mája 2004 jedným z jazykov Európskej únie.', ' ', 'Jazykový kód alebo po anglicky Language Code je sk príp. slk podľa ISO 639.', ' ', 'Slovenčina je známa ako „esperanto“ slovanských jazykov, vníma sa ako najzrozumiteľnejšia aj pre používateľov iných slovanských jazykov.[2]']
TEXT_SLV = ['Slovenščina [sloˈʋenʃtʃina] je združeni naziv za uradni knjižni jezik Slovencev in skupno ime za narečja in govore, ki jih govorijo ali so jih nekoč govorili Slovenci.', ' ', 'Govori ga okoli 2,5 (dva in pol) milijona govorcev po svetu, od katerih jih večina živi v Sloveniji.', ' ', 'Glede na število govorcev ima razmeroma veliko narečij.', ' ', 'Slovenščina je zahodni južnoslovanski jezik in eden redkih indoevropskih jezikov, ki je ohranil dvojino.', ' ', 'Za zapisovanje slovenskega jezika se danes uporablja gajica, pisava imenovana po hrvaškem jezikoslovcu Ljudevitu Gaju, ki jo je priredil po češkem črkopisu.', ' ', 'Slovenska gajica se imenuje slovenica.', ' ', 'Pišemo jo od marčne revolucije 1848.', ' ', 'Do takrat smo uporabljali bohoričico.']
TEXT_DSB = ['Dolnoserbšćina, dolnoserbska rěc (nimski Niedersorbisch abo teke Wendisch, pólski język dolnołużycki, česki dolnolužická srbština) jo jadna z dweju rěcowu Serbow, kotaraž se wužywa w Dolnej Łužycy, w pódpołdnjowej Bramborskej, na pódzajtšu Nimskej.', ' ', 'Dolnoserbšćina gromaźe z górnoserbšćinu słušatej k kupce serbskeju rěcowu w ramiku pódwjacornosłowjańskich rěcy.', ' ', 'Licba powědajucych dolnoserbski wucynijo něnto wokoło 7000 luźi.']
TEXT_HSB = ['Hornjoserbšćina je zapadosłowjanska rěč, kotraž so w Hornjej Łužicy wokoło městow Budyšin, Kamjenc a Wojerecy rěči.', ' ', 'Wona je přiwuzna z delnjoserbšćinu w susodnej Delnjej Łužicy, čěšćinu, pólšćinu, słowakšćinu a kašubšćinu.', ' ', 'Jako słowjanska rěč hornjoserbšćina k indoeuropskim rěčam słuša.']
TEXT_SPA = ['El español o castellano es una lengua romance procedente del latín hablado, perteneciente a la familia de lenguas indoeuropeas.', ' ', 'Forma parte del grupo ibérico y es originaria de Castilla, reino medieval de la península ibérica.', ' ', 'Se conoce también informalmente como castillan. 1\u200B33\u200B34\u200B', ' ', 'en algunas áreas rurales e indígenas de América,35\u200B pues el español se empezó a enseñar poco después de la incorporación de los nuevos territorios a la Corona de Castilla.36\u200B37\u200B38\u200B39\u200B40\u200B41\u200B']
TEXT_SWE = ['Svenska (svenska (info)) är ett östnordiskt språk som talas av ungefär tio miljoner personer främst i Sverige där språket har en dominant ställning som huvudspråk, men även som det ena nationalspråket i Finland och som enda officiella språk på Åland.', ' ', 'I övriga Finland talas det som modersmål framförallt i de finlandssvenska kustområdena i Österbotten, Åboland och Nyland.', ' ', 'En liten minoritet svenskspråkiga finns även i Estland.', ' ', 'Svenska är nära besläktat och i hög grad ömsesidigt begripligt med danska och norska.', ' ', 'De andra nordiska språken, isländska och färöiska, är mindre ömsesidigt begripliga med svenska.', ' ', 'Liksom de övriga nordiska språken härstammar svenskan från en gren av fornnordiska, vilket var det språk som talades av de germanska folken i Skandinavien.']
TEXT_TAM = ['தமிழ் (Tamil language) தமிழர்களினதும் தமிழ் பேசும் பலரின் தாய்மொழி ஆகும்.', ' ', 'தமிழ், உலகில் உள்ள முதன்மையான மொழிகளில் ஒன்றும் செம்மொழியும் ஆகும்.', ' ', 'இந்தியா, இலங்கை, மலேசியா, சிங்கப்பூர் ஆகிய நாடுகளில் அதிக அளவிலும், ஐக்கிய அரபு அமீரகம், தென்னாப்பிரிக்கா, மொரிசியசு, பிசி, இரீயூனியன், திரினிடாடு போன்ற நாடுகளில் சிறிய அளவிலும் தமிழ் பேசப்படுகிறது.', ' ', '1997-ஆம் ஆண்டுப் புள்ளி விவரப்படி உலகம் முழுவதிலும் 8 கோடி (80 மில்லியன்) மக்களால் பேசப்படும் தமிழ்,[13] ஒரு மொழியைத் தாய்மொழியாகக் கொண்டு பேசும் மக்களின் எண்ணிக்கை அடிப்படையில் பதினெட்டாவது இடத்தில் உள்ளது.[14]', ' ', 'இணையத்தில் அதிகம் பயன்படுத்தப்படும் இந்திய மொழிகளில் தமிழ் முதன்மையாக உள்ளதாக 2017-ஆம் ஆண்டு நடைபெற்ற கூகுள் கணக்கெடுப்பில் தெரிய வந்தது.[15]']
TEXT_TEL = ['తెలుగు అనేది ద్రావిడ భాషల కుటుంబానికి చెందిన భాష.', ' ', 'దీనిని మాట్లాడే ప్రజలు ప్రధానంగా ఆంధ్ర, తెలంగాణాలో ఉన్నారు.', ' ', 'ఇది ఆ రాష్ట్రాలలో అధికార భాష.', ' ', 'భారతదేశంలో ఒకటి కంటే ఎక్కువ రాష్ట్రాల్లో ప్రాథమిక అధికారిక భాషా హోదా కలిగిన కొద్ది భాషలలో హిందీ, బెంగాలీలతో పాటు ఇది కూడా ఉంది.[5][6]', ' ', 'పుదుచ్చేరిలోని యానం జిల్లాలో తెలుగు అధికారిక భాష.', ' ', 'ఒడిశా, కర్ణాటక, తమిళనాడు, కేరళ, పంజాబ్, ఛత్తీస్‌గఢ్, మహారాష్ట్ర, అండమాన్ నికోబార్ దీవులలో గుర్తింపబడిన అల్పసంఖ్యాక భాష.', ' ', 'దేశ ప్రభుత్వం భారతదేశ ప్రాచీన భాషగా గుర్తించిన ఆరు భాషలలో ఇది ఒకటి.[7][8]']
TEXT_THA = ['ภาษาไทย หรือ ภาษาไทยกลาง เป็นภาษาในกลุ่มภาษาไท ซึ่งเป็นกลุ่มย่อยของตระกูลภาษาขร้า-ไท และเป็นภาษาราชการ และภาษาประจำชาติของประเทศไทย[3][4]', ' ', 'มีการสันนิษฐานว่าภาษาในตระกูลนี้มีถิ่นกำเนิดจากทางตอนใต้ของประเทศจีน และนักภาษาศาสตร์บางส่วนเสนอว่า ภาษาไทยน่าจะมีความเชื่อมโยงกับตระกูลภาษาออสโตร-เอเชียติก ตระกูลภาษาออสโตรนีเซียน และตระกูลภาษาจีน-ทิเบต']
TEXT_BOD = ['བོད་ཀྱི་སྐད་ཡིག་ནི་བོད་ཡུལ་དང་ཉེ་འཁོར་གྱི་ས་ཁུལ་བལ་ཡུལ། འབྲུག་དང་འབྲས་ལྗོངས།', ' ', 'ལ་དྭགས་ནས་ལྷོ་མོན་རོང་སོགས་སུ་བེད་སྤྱོད་བྱེད་པའི་སྐད་ཡིག་དེ། ད་ཆར་ཡོངས་གྲགས་སུ་བོད་ཀྱི་ཡུལ་གྲུ་སྟོད་སྨད་བར་གསུམ་ལ་ལྟོས་ཏེ་ནང་གསེས་རིགས་གསུམ་དུ་ཕྱེ་བ་སྟེ།', ' ', 'སྟོད་དབུས་གཙང་གི་སྐད་དང་། བར་ཁམས་པའི་སྐད་དང་། སྨད་ཨ་མདོའི་སྐད་རྣམས་སོ།', ' ', 'བོད་སྐད་ནི་ཧོར་སོག་ལ་སོགས་པ་གྲངས་ཉུང་མི་རིགས་གཞན་པ་ཁག་ཅིག་གིས་བེད་སྤྱོད་གཏོང་བཞིན་ཡོད་པར་མ་ཟད། བལ་ཡུལ་དང་། འབྲས་ལྗོངས། འབྲུག་ཡུལ་།', ' ', 'རྒྱ་གར་ཤར་དང་བྱང་རྒྱུད་མངའ་སྡེ་ཁག་གཅིག་བཅས་ཀྱི་རྒྱལ་ཁབ་རྣམས་སུའང་བེད་སྤྱོད་གཏོང་བཞིན་ཡོད།']
TEXT_TUR = ["Türkçe ya da Türk dili, Güneydoğu Avrupa ve Batı Asya'da konuşulan, Türk dilleri dil ailesine ait sondan eklemeli bir dil.[12]", ' ', 'Türk dilleri ailesinin Oğuz dilleri grubundan bir Batı Oğuz dili olan Osmanlı Türkçesinin devamını oluşturur.', ' ', "Dil, başta Türkiye olmak üzere Balkanlar, Ege Adaları, Kıbrıs ve Orta Doğu'yu kapsayan eski Osmanlı İmparatorluğu coğrafyasında konuşulur.[12]", ' ', "Ethnologue'a göre Türkçe, yaklaşık 83 milyon konuşuru ile dünyada en çok konuşulan 16. dildir.[13]", ' ', "Türkçe Türkiye, Kıbrıs Cumhuriyeti ve Kuzey Kıbrıs'ta ulusal resmî dil statüsüne sahiptir.[12]"]
TEXT_UKR = ['Украї́нська мо́ва (МФА: [ukrɑ̽ˈjɪnʲsʲkɑ̽ ˈmɔwɑ̽], історичні назви — ру́ська[10][11][12][* 1]) — національна мова українців.', ' ', "Належить до східнослов'янської групи слов'янських мов, що входять до індоєвропейської мовної сім'ї, поряд з романськими, германськими, кельтськими, грецькою, албанською, вірменською та найближче спорідненими зі слов'янськими балтійськими мовами[13][14][* 2].", ' ', 'Є державною мовою в Україні[13][15].']
TEXT_URD = ['1837ء میں، اردو برطانوی ایسٹ انڈیا کمپنی کی سرکاری زبان بن گئی، کمپنی کے دور میں پورے شمالی ہندوستان میں فارسی کی جگہ لی گئی۔', ' ', 'فارسی اس وقت تک مختلف ہند-اسلامی سلطنتوں کی درباری زبان کے طور پر کام کرتی تھی۔', ' ', '[11] یورپی نوآبادیاتی دور میں مذہبی، سماجی اور سیاسی عوامل پیدا ہوئے جنھوں نے اردو اور ہندی کے درمیان فرق کیا، جس کی وجہ سے ہندی-اردو تنازعہ شروع ہوا ۔']
TEXT_UIG = ['ئۇيغۇر تىلى ئۇيغۇر جۇڭگو شىنجاڭ ئۇيغۇر ئاپتونوم رايونىنىڭ ئېيتقان بىر تۈركىي تىلى.', ' ', 'ئۇ ئۇزاق ئەسىرلىك تەرەققىيات داۋامىدا قەدىمكى تۈركىي تىللار دەۋرى، ئورخۇن ئۇيغۇر تىلى دەۋرى، ئىدىقۇت-خاقانىيە ئۇيغۇر تىلى دەۋرى، چاغاتاي ئۇيغۇر تىلى دەۋرىنى بېسىپ ئۆتكەن.', ' ', 'بۇ جەرياندا ئۇيغۇر تىلى ئورخۇن-يېنسەي يېزىقى، قەدىمكى ئۇيغۇر يېزىقى، بىراخما يېزىقى، مانى يېزىقى، ، ئەرەب يېزىقى قاتارلىق يېزىقلار بىلەن خاتىرىلەنگەن (بەئزى يېزىقلار ئومۇميۈزلۈك، بەزى يېزىقلار قىسمەن قوللىنىلغان)، شۇنداقلا سانسىكرىتچە، ساكچە، تۇخارچە، سوغدچە، ئەرەبچە، پارسچە، موڭغۇلچە، خىتايچە قاتارلىق نۇرغۇرن تىللار بىلەن ئۇچرىشىپ ھەم ئۆزئارا تەسىر كۆرسىتىپ، ئۈزلۈكسىز مۇكەممەللەشكەن ۋە ھازىرقى زامان ئۇيغۇر تىلى دەۋرىگە كىرگەن.']
TEXT_VIE = ['Tiếng Việt, cũng gọi là tiếng Việt Nam[9] hay Việt ngữ là ngôn ngữ của người Việt và là ngôn ngữ chính thức tại Việt Nam.', ' ', 'Đây là tiếng mẹ đẻ của khoảng 85% dân cư Việt Nam cùng với hơn 4 triệu người Việt kiều.', ' ', 'Tiếng Việt còn là ngôn ngữ thứ hai của các dân tộc thiểu số tại Việt Nam và là ngôn ngữ dân tộc thiểu số được công nhận tại Cộng hòa Séc.']
TEXT_CYM = ['Yng Nghyfrifiad y DU (2011), darganfuwyd bod 19% (562,000) o breswylwyr Cymru (tair blwydd a throsodd) yn gallu siarad Cymraeg.', ' ', "O'r ffigwr hwn, darganfuwyd bod 77% (431,000) yn gallu siarad, darllen, ac ysgrifennu'r iaith; dywedodd 73% o breswylwyr Cymru (2.2 miliwn) fod dim sgiliau yn y Gymraeg ganddynt.[8]", ' ', "Gellir cymharu hwn â Chyfrifiad 2001, a ddarganfu fod 20.8% o'r boblogaeth yn gallu siarad Cymraeg, gyda 57% (315,000) o'r ffigwr hon yn dweud eu bod yn rhugl yn yr iaith.[9]"]
TEXT_WOL = ['Wolof làkk la wu ñuy wax ci Gàmbi (Gàmbi Wolof), Gànnaar (Gànnaar Wolof), ak Senegaal (Senegaal Wolof).', ' ', 'Mi ngi bokk nag moom wolof ci bànqaasub atlas bu làkki Kongóo yu kojug nit ñu ñuul ñi.', ' ', 'Mbokkoo gi mu am ak làkku pël lu yàgg la.', ' ', 'Am na it lumu séq ak yeneen làkk ci gox bi niki séeréer, joolaa ak basari.']
TEXT_OTHER = TEXT_ENG_US

# Sentences
SENTENCE_AFR = TEXT_AFR[0]
SENTENCE_SQI = 'Gjuha shqipe (ose thjesht shqipja) është gjuhë dhe degë e veçantë e familjes indo-evropiane që flitet nga rreth 7-10 milionë njerëz në botë,[1] kryesisht në Shqipëri, Kosovë dhe Maqedoninë e Veriut, por edhe në zona të tjera të Evropës Juglindore ku ka një popullsi shqiptare, duke përfshirë Malin e Zi dhe Luginën e Preshevës.'
SENTENCE_AMH = 'አማርኛ[1] ፡ የኢትዮጵያ ፡ መደበኛ ፡ ቋንቋ ፡ ነው ።'
SENTENCE_ARA = TEXT_ARA[0]
SENTENCE_XCL = TEXT_XCL[0]
SENTENCE_HYE = SENTENCE_HYW = TEXT_HYE[0]
SENTENCE_ASM = 'অসমীয়া ভাষা হৈছে সকলোতকৈ পূৰ্বীয় ভাৰতীয়-আৰ্য ভাষা।'
SENTENCE_AST = "L'asturianu ye una llingua romance propia d'Asturies,[1] perteneciente al subgrupu asturllionés."
SENTENCE_AZE = 'Azərbaycan dili[2][3] (Cənubi Azərbaycanda: Türk dili[4][5]) — Azərbaycan Respublikasının və Rusiya Federasiyası Dağıstan Respublikasının[6] rəsmi dövlət dili.'
SENTENCE_EUS = TEXT_EUS[0]
SENTENCE_BEL = TEXT_BEL[0]
SENTENCE_BEN = 'বাংলা ভাষা (বাঙলা, বাঙ্গলা, তথা বাঙ্গালা নামেও পরিচিত) একটি ইন্দো-আর্য ভাষা, যা দক্ষিণ এশিয়ার বাঙালি জাতির প্রধান কথ্য ও লেখ্য ভাষা।'
SENTENCE_BUL = TEXT_BUL[0]
SENTENCE_MYA = TEXT_MYA[0]
SENTENCE_BXR = TEXT_BXR[0]
SENTENCE_CAT = TEXT_CAT[0]
SENTENCE_LZH = TEXT_LZH[0]
SENTENCE_ZHO_CN = TEXT_ZHO_CN[0]
SENTENCE_ZHO_TW = TEXT_ZHO_TW[0]
SENTENCE_CHU = TEXT_CHU[0]
SENTENCE_COP = TEXT_COP[0]
SENTENCE_HRV = TEXT_HRV[0]
SENTENCE_CES = TEXT_CES[0]
SENTENCE_DAN = TEXT_DAN[0]
SENTENCE_NLD = TEXT_NLD[0]
SENTENCE_ENM = 'Forrþrihht anan se time comm þatt ure Drihhtin wollde ben borenn i þiss middellærd forr all mannkinne nede he chæs himm sone kinnessmenn all swillke summ he wollde and whær he wollde borenn ben he chæs all att hiss wille.'
SENTENCE_ANG = TEXT_ANG[0]
SENTENCE_ENG_GB = SENTENCE_ENG_US = TEXT_ENG_US[0]
SENTENCE_MYV = TEXT_MYV[0]
SENTENCE_EPO = 'Esperanto, origine la Lingvo Internacia,[4] estas la plej disvastiĝinta internacia planlingvo.[5]'
SENTENCE_EST = TEXT_EST[0]
SENTENCE_FAO = TEXT_FAO[0]
SENTENCE_FIN = TEXT_FIN[0]
SENTENCE_FRA = TEXT_FRA[0]
SENTENCE_FRO = TEXT_FRO[0]
SENTENCE_GLG = TEXT_GLG[0]
SENTENCE_GOT = TEXT_GOT[0]
SENTENCE_KAT = 'ქართული ენა — იბერიულ-კავკასიურ ენათა ოჯახის ქართველურ ენათა ჯგუფის ენა.'
SENTENCE_DEU_AT = SENTENCE_DEU_DE = SENTENCE_DEU_CH = TEXT_DEU_AT[0]
SENTENCE_GRC = TEXT_GRC[0]
SENTENCE_ELL = TEXT_ELL[0]
SENTENCE_GUJ = 'ગુજરાતી ‍(/ɡʊdʒəˈrɑːti/[૭], રોમન લિપિમાં: Gujarātī, ઉચ્ચાર: [ɡudʒəˈɾɑːtiː]) ભારત દેશના ગુજરાત રાજ્યની ઇન્ડો-આર્યન ભાષા છે, અને મુખ્યત્વે ગુજરાતી લોકો દ્વારા બોલાય છે.'
SENTENCE_HBO = TEXT_HBO[0]
SENTENCE_HEB = TEXT_HEB[0]
SENTENCE_HIN = TEXT_HIN[0]
SENTENCE_HUN = TEXT_HUN[0]
SENTENCE_ISL = TEXT_ISL[0]
SENTENCE_IND = TEXT_IND[0]
SENTENCE_GLE = TEXT_GLE[0]
SENTENCE_ITA = TEXT_ITA[0]
SENTENCE_JPN = TEXT_JPN[0]
SENTENCE_KAN = 'ದ್ರಾವಿಡ ಭಾಷೆಗಳಲ್ಲಿ ಪ್ರಾಮುಖ್ಯವುಳ್ಳ ಭಾಷೆಯೂ ಭಾರತದ ಪುರಾತನವಾದ ಭಾಷೆಗಳಲ್ಲಿ ಒಂದೂ ಆಗಿರುವ ಕನ್ನಡ ಭಾಷೆಯನ್ನು ಅದರ ವಿವಿಧ ರೂಪಗಳಲ್ಲಿ ಸುಮಾರು ೪೫ ದಶಲಕ್ಷ ಜನರು ಆಡು ನುಡಿಯಾಗಿ ಬಳಸುತ್ತಲಿದ್ದಾರೆ.'
SENTENCE_KAZ = TEXT_KAZ[0]
SENTENCE_KHM = TEXT_KHM[0]
SENTENCE_KOR = TEXT_KOR[0]
SENTENCE_KMR = TEXT_KMR[0]
SENTENCE_KIR = 'Кыргыз тили — Кыргыз Республикасынын мамлекеттик тили, түрк тилдеринин курамына, анын ичинде кыргыз-кыпчак же тоо-алтай тобуна кирет.'
SENTENCE_LAO = TEXT_LAO[0]
SENTENCE_LAT = TEXT_LAT[0]
SENTENCE_LAV = TEXT_LAV[0]
SENTENCE_LIJ = TEXT_LIJ[0]
SENTENCE_LIT = TEXT_LIT[0]
SENTENCE_LUG = 'Luganda/Oluganda lwe lulimi olwogerwa Abaganda e Yuganda.'
SENTENCE_LTZ = "D'Lëtzebuergesch gëtt an der däitscher Dialektologie als ee westgermaneschen, mëtteldäitschen Dialekt aklasséiert, deen zum Muselfränkesche gehéiert."
SENTENCE_MKD = TEXT_MKD[0]
SENTENCE_MSA = 'Bahasa Melayu (Tulisan Jawi: بهاس ملايو; Rencong: ꤷꥁꤼ ꤸꥍꤾꤿꥈ) ialah salah satu daripada bahasa-bahasa Melayu-Polinesia di bawah keluarga bahasa Austronesia, yang merupakan bahasa rasmi di Brunei, Indonesia, Malaysia dan Singapura, serta dituturkan di Timor Leste dan sebahagian wilayah di Kemboja , Filipina dan Thailand.'
SENTENCE_MAL = TEXT_MAL[0]
SENTENCE_MLT = TEXT_MLT[0]
SENTENCE_GLV = TEXT_GLV[0]
SENTENCE_MAR = TEXT_MAR[0]
SENTENCE_MNI_MTEI = 'ꯃꯤꯇꯩꯂꯣꯟ (ꯃꯤꯇꯩꯂꯣꯜ) ꯅꯠꯇ꯭ꯔꯒ ꯃꯩꯇꯩꯂꯣꯟ (ꯃꯩꯇꯩꯂꯣꯜ) ꯅꯠꯇ꯭ꯔꯒ ꯃꯅꯤꯄꯨꯔꯤ ꯂꯣꯟ (ꯃꯅꯤꯄꯨꯔꯤ ꯂꯣꯜ) ꯑꯁꯤ ꯑꯋꯥꯡ-ꯅꯣꯡꯄꯣꯛ ꯏꯟꯗꯤꯌꯥꯒꯤ ꯃꯅꯤꯄꯨꯔꯗ ꯃꯄꯨꯡ ꯑꯣꯢꯅ ꯉꯥꯡꯅꯕ ꯂꯣꯟ ꯑꯃꯅꯤ ꯫'
SENTENCE_MON = 'Монгол хэл нь Монгол улсын албан ёсны хэл юм.'
SENTENCE_NEP = 'नेपाली भाषा (अन्तर्राष्ट्रिय ध्वन्यात्मक वर्णमाला [neˈpali bʱaʂa]) नेपालको सम्पर्क भाषा तथा भारत, भुटान र म्यानमारको केही भागमा मातृभाषाको रूपमा बोलिने भाषा हो।'
SENTENCE_PCM = TEXT_PCM[0]
SENTENCE_NOB = TEXT_NOB[0]
SENTENCE_NNO = TEXT_NNO[0]
SENTENCE_ORI = 'ଓଡ଼ିଆ (ଇଂରାଜୀ ଭାଷାରେ Odia /əˈdiːə/ or Oriya /ɒˈriːə/,) ଏକ ଭାରତୀୟ ଭାଷା ଯାହା ଏକ ଇଣ୍ଡୋ-ଇଉରୋପୀୟ ଭାଷାଗୋଷ୍ଠୀ ଅନ୍ତର୍ଗତ ଇଣ୍ଡୋ-ଆର୍ଯ୍ୟ ଭାଷା ।'
SENTENCE_FAS = TEXT_FAS[0]
SENTENCE_POL = TEXT_POL[0]
SENTENCE_QPM = TEXT_QPM[0]
SENTENCE_POR_BR = SENTENCE_POR_PT = TEXT_POR_BR[0]
SENTENCE_RON = TEXT_RON[0]
SENTENCE_PAN_GURU = 'ਪੰਜਾਬੀ ਭਾਸ਼ਾ (ਸ਼ਾਹਮੁਖੀ: ‎پنجابی, ਪੰਜਾਬੀ) ਪੰਜਾਬ ਦੀ ਭਾਸ਼ਾ ਹੈ, ਜਿਸ ਨੂੰ ਪੰਜਾਬ ਖੇਤਰ ਦੇ ਵਸਨੀਕ ਜਾਂ ਸੰਬੰਧਿਤ ਲੋਕ ਬੋਲਦੇ ਹਨ।[18]'
SENTENCE_RUS = TEXT_RUS[0]
SENTENCE_ORV = TEXT_ORV[0]
SENTENCE_SME = TEXT_SME[0]
SENTENCE_SAN = TEXT_SAN[0]
SENTENCE_GLA = TEXT_GLA[0]
SENTENCE_SRP_CYRL = TEXT_SRP_CYRL[0]
SENTENCE_SRP_LATN = TEXT_SRP_LATN[0]
SENTENCE_SND = TEXT_SND[0]
SENTENCE_SIN = 'ශ්‍රී ලංකාවේ ප්‍රධාන ජාතිය වන සිංහල ජනයාගේ මව් බස සිංහල වෙයි.'
SENTENCE_SLK = TEXT_SLK[0]
SENTENCE_SLV = TEXT_SLV[0]
SENTENCE_DSB = TEXT_DSB[0]
SENTENCE_HSB = TEXT_HSB[0]
SENTENCE_SPA = TEXT_SPA[0]
SENTENCE_SWA = 'Kiswahili ni lugha ya Kibantu yenye misamiati mingi ya Kiarabu (35%[1]), lakini sasa ya Kiingereza pia (10%), inayozungumzwa katika eneo kubwa la Afrika ya Mashariki.'
SENTENCE_SWE = TEXT_SWE[0]
SENTENCE_TGL = 'Ang wikang Tagalog[1] (Baybayin: ᜏᜒᜃᜆᜄᜎᜓ), o ang Tagalog, ay isa sa mga pinakaginagamit na wika ng Pilipinas.'
SENTENCE_TGK = 'Забони тоҷикӣ — забоне, ки дар Эрон: форсӣ, ва дар Афғонистон дарӣ номида мешавад, забони давлатии кишварҳои Тоҷикистон, Эрон ва Афғонистон мебошад.'
SENTENCE_TAM = TEXT_TAM[0]
SENTENCE_TAT = 'Татар теле — татарларның милли теле, Татарстанның дәүләт теле, таралышы буенча Россиядә икенче тел.'
SENTENCE_TEL = 'తెలుగు అనేది ద్రావిడ భాషల కుటుంబానికి చెందిన భాష.'
SENTENCE_TDT = "Tetun (iha portugés: tétum; iha inglés: Tetum) ne'e lian nasionál no ko-ofisiál Timór Lorosa'e nian."
SENTENCE_THA = TEXT_THA[0]
SENTENCE_BOD = TEXT_BOD[0]
SENTENCE_TIR = 'ትግርኛ ኣብ ኤርትራን ኣብ ሰሜናዊ ኢትዮጵያን ኣብ ክልል ትግራይ ዝዝረብ ሴማዊ ቋንቋ እዩ።'
SENTENCE_TSN = 'Setswana ke teme e e buiwang mo mafatsheng a Aforika Borwa, Botswana, Namibia le Zimbabwe.'
SENTENCE_TUR = TEXT_TUR[0]
SENTENCE_UKR = TEXT_UKR[0]
SENTENCE_URD = TEXT_URD[0]
SENTENCE_UIG = TEXT_UIG[0]
SENTENCE_VIE = TEXT_VIE[0]
SENTENCE_CYM = TEXT_CYM[0]
SENTENCE_WOL = TEXT_WOL[0]
SENTENCE_YOR = 'Èdè Yorùbá Ni èdè tí ó ṣàkójọ pọ̀ gbogbo kú oótu o-ò-jíire bí, níapá ìwọ̀ Oòrùn ilẹ̀ Nàìjíríà, tí a bá wo èdè Yorùbá, àwọn onímọ̀ pín èdè náà sábẹ́ ẹ̀yà Kwa nínú ẹbí èdè Niger-Congo.'
SENTENCE_ZUL = 'Zulu /ˈzuːluː/, noma isiZulu wulimi lwabantu base Ningizimu neAfrika abayingxenye yamaNguni.'
SENTENCE_OTHER = SENTENCE_ENG_US

SENTENCE_ZHO_CN_CHAR_TOKENIZER = '英国的全称是United Kingdom of Great Britain,由四个部分组成:England、Scotland、Wales和Northern Ireland。'
SENTENCE_ZHO_TW_CHAR_TOKENIZER = '英國的全稱是United Kingdom of Great Britain,由四個部分組成:England、Scotland、Wales和Northern Ireland。'
SENTENCE_JPN_KANJI_TOKENIZER = '''The sentence "天気がいいから、散歩しましょう。" means: The weather is good so let's take a walk.'''
SENTENCE_BOD_WORD_DETOKENIZER = 'Test this Tibetan string: དུང་དང་འོ་མར་འགྲན་པའི་ལྷག་བསམ་མཐུ། །དམན་ཡང་དཀར་པོའི་བྱས་འབྲས་ཅུང་ཟད་ཅིག །བློ་དང་འདུན་པ་བཟང་བའི་རང་རིགས་ཀུན། །རྒྱལ་ཁའི་འཕྲིན་བཟང་ལས་དོན་འགྲུབ་ཕྱིར་འབད།།. Does detokenization work as expected?'

TOKENS_LONG = [str(i) for i in range(101) for j in range(10)]

def check_lang_examples(main):
    settings_langs = settings_langs = [lang[0] for lang in main.settings_global['langs'].values()]

    for var in globals():
        if var.startswith(('TEXT_', 'SENTENCE_')):
            var_lang = var.split('_', maxsplit = 1)[1].lower()

            if var_lang not in settings_langs:
                print(f'Found unused language example: {var}/{var_lang}!')

if __name__ == '__main__':
    main = wl_test_init.Wl_Test_Main()

    check_lang_examples(main)