lib/treat/config/data/languages/french.rb
{
dependencies: [
'punkt-segmenter',
'tactful_tokenizer',
'stanford-core-nlp'
],
workers: {
processors: {
segmenters: [:scalpel],
tokenizers: [:ptb,:stanford],
parsers: [:stanford]
},
lexicalizers: {
taggers: [:stanford],
categorizers: [:from_tag]
}
},
stop_words:
[
"ailleurs",
"ainsi",
"alors",
"aucun",
"aucune",
"auquel",
"aurai",
"auras",
"aurez",
"aurons",
"auront",
"aussi",
"autre",
"autres",
"aux",
"auxquelles",
"auxquels",
"avaient",
"avais",
"avait",
"avec",
"avez",
"aviez",
"avoir",
"avons",
"celui",
"cependant",
"certaine",
"certaines",
"certains",
"ces",
"cet",
"cette",
"ceux",
"chacun",
"chacune",
"chaque",
"comme",
"constamment",
"davantage",
"depuis",
"des",
"desquelles",
"desquels",
"dessous",
"dessus",
"donc",
"dont",
"duquel",
"egalement",
"elles",
"encore",
"enfin",
"ensuite",
"etaient",
"etais",
"etait",
"etes",
"etiez",
"etions",
"etre",
"eux",
"guere",
"ici",
"ils",
"jamais",
"jusqu",
"laquelle",
"legerement",
"lequel",
"les",
"lesquelles",
"lesquels",
"leur",
"leurs",
"lors",
"lui",
"maintenant",
"mais",
"malgre",
"moi",
"moins",
"notamment",
"parce",
"plupart",
"pourtant",
"presentement",
"presque",
"puis",
"puisque",
"quand",
"quant",
"que",
"quel",
"quelqu",
"quelque",
"quelques",
"qui",
"quoi",
"quoique",
"rien",
"selon",
"serai",
"seras",
"serez",
"serons",
"seront",
"soient",
"soit",
"sommes",
"sont",
"sous",
"suis",
"telle",
"telles",
"tels",
"toi",
"toujours",
"tout",
"toutes",
"tres",
"trop",
"une",
"vos",
"votre",
"vous"
]
}