[5]快速使用hugging预训练模型进行NLP任务 - 图2Huggingface 简介

Hugging face 是一个专注于 NLP 的公司,拥有一个开源的预训练模型库 Transformers ,里面囊括了非常多的模型例如BERT GPT 等。

使用文档

官方文档地址如下:https://huggingface.co/transformers/
其他使用文档补充:transformers-使用教程
文本分类实战:从零开始文本分类 - - - 博客园大佬

模型库

官网的模型库的地址如下:https://huggingface.co/models

image.png

使用模型须知

第一步当然是pip啦

  1. pip install transformers

第二部导包,使用transformers 最主要的是tokenizer和model

  • AutoTokenizerAutoModel 会自动进行model_name的是被,也可以直接调用制定模型的函数如 BertTokenizer
  • 使用AutoTokenizer.from_pretrained 读取预训练模型文件夹 ```python from transformers import AutoTokenizer,AutoModel

text = “请查看bert的分词结果” tokenizer = AutoTokenizer.from_pretrained(‘chinese-bert-base’) print(tokenizer.encode_plus(text))

  1. ![image.png](https://cdn.nlark.com/yuque/0/2021/png/2655886/1616825260652-e1078f1e-3568-424b-bf2e-858d01322d79.png#align=left&display=inline&height=40&margin=%5Bobject%20Object%5D&name=image.png&originHeight=40&originWidth=1470&size=9950&status=done&style=shadow&width=1470)
  2. 提示:运行代码时,会自动检索并下载所需预训练文件,文件的默认路径在 C `~/user/.cache/transformer` 中<br />![image.png](https://cdn.nlark.com/yuque/0/2021/png/2655886/1616824409840-6497d666-fedf-4649-a0be-06f4d6528ed8.png#align=left&display=inline&height=180&margin=%5Bobject%20Object%5D&name=image.png&originHeight=180&originWidth=874&size=25250&status=done&style=shadow&width=874)
  3. 如果遇到网速慢的时候可以去官网直接下载文件,如下图所示,右键另存为下载:<br />![image.png](https://cdn.nlark.com/yuque/0/2021/png/2655886/1616825452551-4b35ff30-aa6f-4448-ac7a-6301108ab383.png#align=left&display=inline&height=695&margin=%5Bobject%20Object%5D&name=image.png&originHeight=695&originWidth=1571&size=77892&status=done&style=shadow&width=1571)
  4. 也可以自定义预训练文件夹路径,如下所示:
  5. ```python
  6. text = "请查看bert的分词结果"
  7. tokenizer = AutoTokenizer.from_pretrained(r'D:\HuProject\python_code\BERT_TEXT_EX\bert-base-chinese')
  8. print(tokenizer.encode_plus(text))

快速使用预训练模型

使用与训练模型大致可以分为四步:读取数据,制作分词,提取模型,训练模型

1.读取数据

2.制作分词

3.提取模型

4.训练模型