BLKSerene/Wordless

View on GitHub
tests/tests_nlp/tests_stanza/test_stanza_fas.py

Summary

Maintainability
A
0 mins
Test Coverage
# ----------------------------------------------------------------------
# Wordless: Tests - NLP - Stanza - Persian
# Copyright (C) 2018-2024  Ye Lei (叶磊)
#
# This program is free software: you can redistribute it and/or modify
# it under the terms of the GNU General Public License as published by
# the Free Software Foundation, either version 3 of the License, or
# (at your option) any later version.
#
# This program is distributed in the hope that it will be useful,
# but WITHOUT ANY WARRANTY; without even the implied warranty of
# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
# GNU General Public License for more details.
#
# You should have received a copy of the GNU General Public License
# along with this program.  If not, see <http://www.gnu.org/licenses/>.
# ----------------------------------------------------------------------

from tests.tests_nlp.tests_stanza import test_stanza

def test_stanza_fas():
    test_stanza.wl_test_stanza(
        lang = 'fas',
        results_sentence_tokenize = ['فارسی یا پارسی یک زبان ایرانی غربی از زیرگروه ایرانی شاخهٔ هندوایرانیِ خانوادهٔ زبان\u200cهای هندواروپایی است که در کشورهای ایران، افغانستان، تاجیکستان، ازبکستان، پاکستان، عراق، ترکمنستان و آذربایجان به آن سخن می\u200cگویند.', 'فارسی یک زبان چندکانونی و زبان رسمی ایران، تاجیکستان و افغانستان به\u200cشمار می\u200cرود.', 'این زبان در ایران و افغانستان به الفبای فارسی، که از خط عربی ریشه گرفته، و در تاجیکستان و ازبکستان به الفبای تاجیکی، که از سیریلیک آمده، نوشته می\u200cشود.', 'زبان فارسی در افغانستان به\u200cطور رسمی دَری (از ۱۳۴۳ خورشیدی) و در تاجیکستان تاجیکی (از دورهٔ شوروی) خوانده می\u200cشود.'],
        results_word_tokenize = ['فارسی', 'یا', 'پارسی', 'یک', 'زبان', 'ایرانی', 'غربی', 'از', 'زیرگروه', 'ایرانی', 'شاخهٔ', 'هندوایرانیِ', 'خانوادهٔ', 'زبان\u200cهای', 'هندواروپایی', 'است', 'که', 'در', 'کشورهای', 'ایران', '،', 'افغانستان', '،', 'تاجیکستان', '،', 'ازبکستان', '،', 'پاکستان', '،', 'عراق', '،', 'ترکمنستان', 'و', 'آذربایجان', 'به', 'آن', 'سخن', 'می\u200cگویند', '.'],
        results_pos_tag = [('فارسی', 'N_IANM'), ('یا', 'CONJ'), ('پارسی', 'N_IANM'), ('یک', 'PRENUM'), ('زبان', 'N_IANM'), ('ایرانی', 'ADJ_AJP'), ('غربی', 'ADJ_AJP'), ('از', 'PREP'), ('زیرگروه', 'N_IANM'), ('ایرانی', 'ADJ_AJP'), ('شاخهٔ', 'N_IANM'), ('هندوایرانیِ', 'ADJ_AJP'), ('خانوادهٔ', 'N_IANM'), ('زبان\u200cهای', 'N_IANM'), ('هندواروپایی', 'ADJ_AJP'), ('است', 'AUX'), ('که', 'SUBR'), ('در', 'PREP'), ('کشورهای', 'N_IANM'), ('ایران', 'N_IANM'), ('،', 'PUNC'), ('افغانستان', 'N_IANM'), ('،', 'PUNC'), ('تاجیکستان', 'N_IANM'), ('،', 'PUNC'), ('ازبکستان', 'N_IANM'), ('،', 'PUNC'), ('پاکستان', 'N_IANM'), ('،', 'PUNC'), ('عراق', 'N_IANM'), ('،', 'PUNC'), ('ترکمنستان', 'N_IANM'), ('و', 'CONJ'), ('آذربایجان', 'N_IANM'), ('به', 'PREP'), ('آن', 'PR_DEMON'), ('سخن', 'N_IANM'), ('می\u200cگویند', 'V_ACT'), ('.', 'PUNC')],
        results_pos_tag_universal = [('فارسی', 'NOUN'), ('یا', 'CCONJ'), ('پارسی', 'NOUN'), ('یک', 'NUM'), ('زبان', 'NOUN'), ('ایرانی', 'ADJ'), ('غربی', 'ADJ'), ('از', 'ADP'), ('زیرگروه', 'NOUN'), ('ایرانی', 'ADJ'), ('شاخهٔ', 'NOUN'), ('هندوایرانیِ', 'ADJ'), ('خانوادهٔ', 'NOUN'), ('زبان\u200cهای', 'NOUN'), ('هندواروپایی', 'ADJ'), ('است', 'AUX'), ('که', 'SCONJ'), ('در', 'ADP'), ('کشورهای', 'NOUN'), ('ایران', 'PROPN'), ('،', 'PUNCT'), ('افغانستان', 'PROPN'), ('،', 'PUNCT'), ('تاجیکستان', 'PROPN'), ('،', 'PUNCT'), ('ازبکستان', 'PROPN'), ('،', 'PUNCT'), ('پاکستان', 'PROPN'), ('،', 'PUNCT'), ('عراق', 'PROPN'), ('،', 'PUNCT'), ('ترکمنستان', 'PROPN'), ('و', 'CCONJ'), ('آذربایجان', 'PROPN'), ('به', 'ADP'), ('آن', 'PRON'), ('سخن', 'NOUN'), ('می\u200cگویند', 'VERB'), ('.', 'PUNCT')],
        results_lemmatize = ['فارسی', 'یا', 'پارسی', 'یک', 'زبان', 'ایرانی', 'غربی', 'از', 'زیرگروه', 'ایرانی', 'شاخه', 'هندوایرانیِ', 'خانواده', 'زبان', 'هندواروپایی', 'است', 'که', 'در', 'کشور', 'ایران', '،', 'افغانستان', '،', 'تاجیکستان', '،', 'ازبکستان', '،', 'پاکستان', '،', 'عراق', '،', 'ترکمنستان', 'و', 'آذربایجان', 'به', 'آن', 'سخن', 'گفت', '.'],
        results_dependency_parse = [('فارسی', 'شاخهٔ', 'nsubj', 10), ('یا', 'پارسی', 'cc', 1), ('پارسی', 'فارسی', 'conj', -2), ('یک', 'زبان', 'nummod', 1), ('زبان', 'شاخهٔ', 'nsubj', 6), ('ایرانی', 'زبان', 'amod', -1), ('غربی', 'زبان', 'amod', -2), ('از', 'زیرگروه', 'case', 1), ('زیرگروه', 'زبان', 'nmod', -4), ('ایرانی', 'زیرگروه', 'amod', -1), ('شاخهٔ', 'شاخهٔ', 'root', 0), ('هندوایرانیِ', 'شاخهٔ', 'amod', -1), ('خانوادهٔ', 'شاخهٔ', 'nmod', -2), ('زبان\u200cهای', 'خانوادهٔ', 'nmod', -1), ('هندواروپایی', 'زبان\u200cهای', 'amod', -1), ('است', 'شاخهٔ', 'cop', -5), ('که', 'می\u200cگویند', 'mark', 21), ('در', 'کشورهای', 'case', 1), ('کشورهای', 'می\u200cگویند', 'obl', 19), ('ایران', 'کشورهای', 'nmod', -1), ('،', 'افغانستان', 'punct', 1), ('افغانستان', 'ایران', 'conj', -2), ('،', 'افغانستان', 'punct', -1), ('تاجیکستان', 'ایران', 'conj', -4), ('،', 'ازبکستان', 'punct', 1), ('ازبکستان', 'ایران', 'conj', -6), ('،', 'ازبکستان', 'punct', -1), ('پاکستان', 'ایران', 'conj', -8), ('،', 'عراق', 'punct', 1), ('عراق', 'ایران', 'conj', -10), ('،', 'عراق', 'punct', -1), ('ترکمنستان', 'ایران', 'conj', -12), ('و', 'آذربایجان', 'cc', 1), ('آذربایجان', 'ایران', 'conj', -14), ('به', 'آن', 'case', 1), ('آن', 'می\u200cگویند', 'obl:arg', 2), ('سخن', 'می\u200cگویند', 'compound:lvc', 1), ('می\u200cگویند', 'شاخهٔ', 'acl', -27), ('.', 'شاخهٔ', 'punct', -28)]
    )

if __name__ == '__main__':
    test_stanza_fas()