IBM/pytorchpipe

View on GitHub
configs/default/components/language/sentence_tokenizer.yml

Summary

Maintainability
Test Coverage
# This file defines the default values for Sentence Tokenizer.

####################################################################
# 1. CONFIGURATION PARAMETERS that will be LOADED by the component.
####################################################################

# Operation mode (LOADED)
# False: sentence -> list of strings, True: list of strings -> sentence.
detokenize: False 

# Select applied preprocessing/augmentations (LOADED)
# Use one (or more) of the transformations:
# none | lowercase | remove_punctuation | all
# Accepted formats: a,b,c or [a,b,c]
preprocessing: none

# List of characters to be removed 
remove_characters: ''

streams: 
  ####################################################################
  # 2. Keymappings associated with INPUT and OUTPUT streams.
  ####################################################################

  # Stream containing input (detokenized or tokenized) sentences (INPUT)
  inputs: inputs

  # Stream containing output (tokenized or detokenized) sentences (OUTPUT)
  outputs: outputs

globals:
  ####################################################################
  # 3. Keymappings of variables that will be RETRIEVED from GLOBALS.
  ####################################################################

  ####################################################################
  # 4. Keymappings associated with GLOBAL variables that will be SET.
  ####################################################################

  ####################################################################
  # 5. Keymappings associated with statistics that will be ADDED.
  ####################################################################