Java 类名:com.alibaba.alink.operator.batch.dataproc.VectorToTensorBatchOp
Python 类名:VectorToTensorBatchOp

功能介绍

转换向量类型为张量类型。

参数说明

名称 中文名称 描述 类型 是否必须? 取值范围 默认值
selectedCol 选中的列名 计算列对应的列名 String 所选列类型为 [DENSE_VECTOR, SPARSE_VECTOR, STRING, VECTOR]
handleInvalidMethod 处理无效值的方法 处理无效值的方法,可取 error, skip String “ERROR”, “SKIP” “ERROR”
outputCol 输出结果列 输出结果列列名,可选,默认null String null
reservedCols 算法保留列名 算法保留列 String[] null
tensorDataType 要转换的张量数据类型 要转换的张量数据类型。 String “FLOAT”, “DOUBLE”, “INT”, “LONG”, “BOOLEAN”, “BYTE”, “UBYTE”, “STRING”
tensorShape 张量形状 张量的形状,数组类型。 Long[] null
numThreads 组件多线程线程个数 组件多线程线程个数 Integer 1

代码示例

Python 代码

  1. from pyalink.alink import *
  2. import pandas as pd
  3. useLocalEnv(1)
  4. df_data = pd.DataFrame([
  5. ['0.0 0.1 1.0 1.1 2.0 2.1']
  6. ])
  7. batch_data = BatchOperator.fromDataframe(df_data, schemaStr = 'vec string')
  8. batch_data.link(VectorToTensorBatchOp().setSelectedCol("vec")).print()

Java 代码

  1. import org.apache.flink.types.Row;
  2. import com.alibaba.alink.operator.batch.source.MemSourceBatchOp;
  3. import org.junit.Test;
  4. import java.util.Collections;
  5. import java.util.List;
  6. public class VectorToTensorBatchOpTest {
  7. @Test
  8. public void testVectorToTensorStreamOp() throws Exception {
  9. List <Row> data = Collections.singletonList(Row.of("0.0 0.1 1.0 1.1 2.0 2.1"));
  10. MemSourceBatchOp memSourceBatchOp = new MemSourceBatchOp(data, "vec string");
  11. memSourceBatchOp
  12. .link(
  13. new VectorToTensorBatchOp()
  14. .setSelectedCol("vec")
  15. )
  16. .print();
  17. }
  18. }

运行结果

| vec | | —- |

| DOUBLE#6#0.0 0.1 1.0 1.1 2.0 2.1 |