当前位置: 首页 > news >正文

AI开发-三方库-Hugging Face-Tokenizer

1 需求

需求1:from transformers import AutoTokenizer

需求2:from transformers import BertTokenizer


2 接口

关键参数

  • text
  • padding
  • truncation
  • return_tensors


3 示例

BertTokenizer.from_pretrained()

        PreTrainedTokenizer

                PreTrainedTokenizerBase.from_pretrained()

text = "今天天气不错"# 第一步:数据预处理(Raw text -》Input IDs)
from transformers import BertTokenizertokenizer = BertTokenizer.from_pretrained('./model')# 方法一:convert_tokens_to_ids函数
token = tokenizer.tokenize(text)
print(tokenizer.convert_tokens_to_ids(token))# 方法二:encode函数
print(tokenizer.encode(text))print(tokenizer.encode(text, add_special_tokens=False))# 方法三:encode_plus函数
print(tokenizer.encode_plus(text, padding=True, truncation=True, return_tensors="pt"))# 方法四:tokenizer函数
print(tokenizer(text, padding=True, truncation=True, return_tensors="pt"))


4 参考资料

https://huggingface.co/docs/transformers/main_classes/tokenizer

https://hf-mirror.com/docs/transformers/main_classes/tokenizer


http://www.mrgr.cn/news/49601.html

相关文章:

  • 通信工程学习:什么是SDRAM同步动态随机存取存储器
  • Python Django 查询集的延迟加载特性
  • 【进阶OpenCV】 (12)--人脸检测识别
  • C 语言中的数组操作:移除元素与合并有序数组
  • CMake学习
  • 告别繁琐操作!这款在线音频剪辑工具让创作变得如此简单
  • 【QT进阶】第十五章QCutomplot超级图表的使用,提升曲线绘图性能的三方库
  • EMQX服务器的搭建,实现本地机和虚拟机之间的MQTT通信(详细教程)
  • C语言常见知识点
  • [Linux#66][TCP->IP] 面向字节流 | TCP异常 | filesocket | 网络层IP
  • 【二叉树(链式结构的存储)实现 详解】
  • 基于协同过滤的景区旅游可视化与景区推荐系统(自动爬虫,地点可换)
  • 川字结构布局/国字结构布局
  • MobileViews: A Large-Scale Mobile GUI Dataset论文学习
  • DC-6靶机渗透
  • MyBatis环境配置详细过程
  • 【Qt】窗口关闭提示框
  • C语言有关结构体的知识(后有通讯录的实现)
  • 【国科大】C++程序设计秋季——五子棋
  • 利用编程思维做题之将两个有序的单链表合并成一个新的有序单链表