StringNormalizer

StringNormalizer - 10

版本

  • **名称**: StringNormalizer (GitHub)

  • **域**: main

  • **自版本**: 10

  • **函数**: False

  • **支持级别**: SupportType.COMMON

  • **形状推断**: True

此版本的算子**自版本 10**起可用。

摘要

StringNormalization 执行字符串操作以进行基本清理。此算子只有一个输入(由 X 表示)和一个输出(由 Y 表示)。此算子首先检查 X 中的元素,并删除“stopwords”属性中指定的元素。删除停用词后,中间结果可以根据“case_change_action”属性进一步转换为小写、大写或仅返回。此算子仅接受 [C]- 和 [1, C]-张量。如果 X 中的所有元素都被删除,则如果输入形状为 [C],则输出将是形状为 [1] 的字符串张量的空值,如果输入形状为 [1, C],则输出形状为 [1, 1]。

属性

  • **case_change_action - STRING**(默认为 'NONE'

    字符串枚举,将输出转换为小写/大写/不变。有效值为“LOWER”、“UPPER”、“NONE”。默认为“NONE”

  • **is_case_sensitive - INT**(默认为 '0'

    布尔值。X 中停用词的识别是否区分大小写。默认为 false

  • locale - STRING :

    环境相关的字符串,表示输出字符串需要根据其进行大小写转换的区域设置。默认为 en_US 或由实现决定平台特定的等效项。

  • stopwords - STRINGS :

    停用词列表。如果未设置,则不会从 X 中删除任何词。

输入

  • **X** (异构) - tensor(string)

    要规范化的 UTF-8 字符串

输出

  • **Y** (异构) - tensor(string)

    UTF-8 规范化的字符串