当前位置: 首页 > news >正文

Spark MLlib 特征工程系列—特征提取Word2Vec

Spark MLlib 特征工程系列—特征提取Word2Vec

Word2Vec 是一种流行的词嵌入方法,用于将词语转换为低维的向量表示,这些向量能够捕捉词语之间的语义关系。Word2Vec 最初由 Google 的研究团队开发,其核心思想是通过训练模型来学习词语的分布式表示,使得语义相似的词语在向量空间中靠得更近。

案例演示

在 Spark 中,Word2Vec 也作为一个工具类存在,可以将文本数据中的词汇转化为低维向量。

import org.apache.spark.ml.feature.Word2Vec
import org.apache.spark.ml.linalg.Vector
import org.apache.spark.sql.Row// Input data: Each row is a bag of words from a sentence or document.
val documentDF = spark.createDataFrame(Seq("Hi I heard about Spark".split(" "),"I wish Java could use case classes".split(" "),"Logistic regression models are neat".split(" ")
).map(Tuple1.apply)).toDF("text")// Learn a mapping from words to Vectors.
val word2Vec = new Word2Vec().setInputCol("text").setOutputCol("result").setVectorSize(3).setMinCount(0

http://www.mrgr.cn/news/2774.html

相关文章:

  • StarRocks 存算分离 Compaction 原理
  • 2024.08.07校招 实习 内推 面经
  • roles以及想项目搭建
  • 数据结构----队列
  • Grafana指标汉化攻略:轻松实现中文可视化
  • 取证工具 ElcomSoft iOS Forensics Toolkit: 在 Windows 中加载 HFS 镜像
  • 第1章-02-Python环境安装与测试
  • 数字虚拟人原理
  • 44 个 React 前端面试问题
  • 自然语言处理实战项目30-基于RoBERTa模型的高精度的评论文本分类实战,详细代码复现可直接运行
  • 合并两个有序链表--力扣
  • 强化安全基线:反射API与最小权限原则
  • 使用docker compose一键部署 Portainer
  • 从密码学角度看网络安全:加密技术的最新进展
  • NGINX
  • 《Techporters架构搭建》-Day06 Springboot国际化
  • 鸿鹄工程项目管理系统 Spring Cloud+Spring Boot+前后端分离构建工程项目管理系统
  • 《深入浅出WPF》读书笔记.4名称空间详解
  • 【闪送-注册安全分析报告】
  • Why Does ChatGPT Fall Short in Providing Truthful Answers?