TfIdfVectorizer

TfIdfVectorizer - 9

版本

  • 名称: TfIdfVectorizer (GitHub)

  • : main

  • 起始版本: 9

  • 函数: False

  • 支持级别: SupportType.COMMON

  • 形状推理: True

此版本算子自版本 9 起可用。

摘要

此转换从输入序列中提取 n-gram 并将其保存为向量。输入可以是 1 维或 2 维张量。对于 1 维输入,输出是该输入的 n-gram 表示。对于 2 维输入,输出也是一个 2 维张量,其第 i 行是第 i 个输入行的 n-gram 表示。更具体地说,如果输入形状是 [C],则相应的输出形状将是 [max(ngram_indexes) + 1]。如果输入形状是 [N, C],则此算子产生一个 [N, max(ngram_indexes) + 1] 张量。

与标准的 n-gram 提取不同,在这里,从原始序列中提取 n-gram 的索引不一定是连续的数字。索引之间的不连续性由跳过次数控制。如果跳过次数为 2,则在扫描原始序列时应跳过两个标记。让我们考虑一个例子。假设输入序列是 [94, 17, 36, 12, 28],跳过次数是 2。相关的 2-gram 是 [94, 12] 和 [17, 28],分别由 [0, 3] 和 [1, 4] 索引。如果跳过次数变为 0,生成的 2-gram 是 [94, 17]、[17, 36]、[36, 12]、[12, 28],分别由 [0, 1]、[1, 2]、[2, 3]、[3, 4] 索引。

输出向量(表示为 Y)存储每个 n-gram 的计数;Y[ngram_indexes[i]] 表示找到第 i 个 n-gram 的次数。属性 ngram_indexes 用于确定索引 i 与相应 n-gram 输出坐标之间的映射。如果 pool_int64s 是 [94, 17, 17, 36],ngram_indexes 是 [1, 0],ngram_counts=[0, 0],则 Y[0](Y 中的第一个元素)和 Y[1](Y 中的第二个元素)分别是 [17, 36] 和 [94, 17] 的计数。在 pool_strings/pool_int64s 中找不到的 n-gram 应该被忽略,并且对输出没有影响。请注意,在生成 n-gram 时,我们可以考虑所有跳过次数小于等于 S 的情况。

上述示例在 mode 为“TF”时成立。如果 mode 为“IDF”,则所有大于 1 的计数将被截断为 1,并且 weights 中的第 i 个元素将用于(通过乘法)缩放 pool 中第 i 个 n-gram 的计数。如果 mode 为“TFIDF”,此算子首先计算所有 n-gram 的计数,然后根据 weights 属性中的相关值对其进行缩放。

pool_strings 和 pool_int64s 中只能设置一个。如果设置了 pool_int64s,输入应该是整数张量。如果设置了 pool_strings,输入必须是字符串张量。

属性

  • max_gram_length - INT (必需)

    最大 n-gram 长度。如果此值为 3,则将使用 3-gram 生成输出。

  • max_skip_count - INT (必需)

    从 X 构建 n-gram 时要跳过的最大项目数(整数/字符串)。如果 max_skip_count=1,min_gram_length=2,max_gram_length=3,则此算子可能会生成 skip_count=0 和 skip_count=1 的 2-gram,以及 skip_count=0 和 skip_count=1 的 3-gram

  • min_gram_length - INT (必需)

    最小 n-gram 长度。如果此值为 2 且 max_gram_length 为 3,输出可能包含 2-gram 和 3-gram 的计数。

  • mode - STRING (必需)

    权重标准。可以是“TF”(词频)、“IDF”(逆文档频率)和“TFIDF”(TF 和 IDF 的组合)之一

  • ngram_counts - INTS (必需)

    pool 中 1-gram、2-gram 等的起始索引。在确定两个连续的 n-gram 集合之间的边界时很有用。例如,如果 ngram_counts 是 [0, 17, 36],则 pool 中 1-gram/2-gram/3-gram 的第一个索引(从零开始)是 0/17/36。这种格式本质上与 CSR(或 CSC)稀疏矩阵格式相同,我们选择使用这种格式是由于其流行性。

  • ngram_indexes - INTS (必需)

    int64 列表(类型:AttributeProto::INTS)。此列表与指定的“pool_*”属性并行。ngram_indexes 中的第 i 个元素表示输出张量中第 i 个 n-gram 的坐标。

  • pool_int64s - INTS :

    从训练集中学到的 int64 n-gram 列表。此属性或 pool_strings 属性必须存在,但不能同时存在。它是一个 1 维张量,以所有 1-gram 集合开始,以 n-gram 集合结束。pool 中的第 i 个元素存储应该映射到输出向量中 ngram_indexes[i] 坐标的 n-gram。

  • pool_strings - STRINGS :

    从训练集中学到的字符串 n-gram 列表。此属性或 pool_int64s 属性必须存在,但不能同时存在。它是一个 1 维张量,以所有 1-gram 集合开始,以 n-gram 集合结束。pool 中的第 i 个元素存储应该映射到输出向量中 ngram_indexes[i] 坐标的 n-gram。

  • weights - FLOATS :

    浮点数列表。此属性存储 pool 中每个 n-gram 的权重。weights 中的第 i 个元素是 pool 中第 i 个 n-gram 的权重。其长度等于 ngram_indexes 的大小。默认情况下,weights 是全一张量。此属性在 mode 为“IDF”或“TFIDF”时用于缩放相关的词计数。

输入

  • X (异构)- T

    用于 n-gram 提取的输入

输出

  • Y (异构)- T1

    N-gram 结果

类型约束

  • T 在 ( tensor(int32), tensor(int64), tensor(string) )

    输入是 UTF-8 字符串或 int32/int64

  • T1 在 ( tensor(float) )

    1 维浮点数张量