Huggingface 简介
Hugging face 是一个专注于 NLP 的公司,拥有一个开源的预训练模型库 Transformers
,里面囊括了非常多的模型例如BERT
GPT
等。
使用文档
官方文档地址如下:https://huggingface.co/transformers/
其他使用文档补充:transformers-使用教程
文本分类实战:从零开始文本分类 - - - 博客园大佬
模型库
官网的模型库的地址如下:https://huggingface.co/models
使用模型须知
第一步当然是pip啦
pip install transformers
第二部导包,使用transformers 最主要的是tokenizer和model
AutoTokenizer
和AutoModel
会自动进行model_name的是被,也可以直接调用制定模型的函数如BertTokenizer
等- 使用
AutoTokenizer.from_pretrained
读取预训练模型文件夹 ```python from transformers import AutoTokenizer,AutoModel
text = “请查看bert的分词结果” tokenizer = AutoTokenizer.from_pretrained(‘chinese-bert-base’) print(tokenizer.encode_plus(text))
![image.png](https://cdn.nlark.com/yuque/0/2021/png/2655886/1616825260652-e1078f1e-3568-424b-bf2e-858d01322d79.png#align=left&display=inline&height=40&margin=%5Bobject%20Object%5D&name=image.png&originHeight=40&originWidth=1470&size=9950&status=done&style=shadow&width=1470)
提示:运行代码时,会自动检索并下载所需预训练文件,文件的默认路径在 C盘 `~/user/.cache/transformer` 中<br />![image.png](https://cdn.nlark.com/yuque/0/2021/png/2655886/1616824409840-6497d666-fedf-4649-a0be-06f4d6528ed8.png#align=left&display=inline&height=180&margin=%5Bobject%20Object%5D&name=image.png&originHeight=180&originWidth=874&size=25250&status=done&style=shadow&width=874)
如果遇到网速慢的时候可以去官网直接下载文件,如下图所示,右键另存为下载:<br />![image.png](https://cdn.nlark.com/yuque/0/2021/png/2655886/1616825452551-4b35ff30-aa6f-4448-ac7a-6301108ab383.png#align=left&display=inline&height=695&margin=%5Bobject%20Object%5D&name=image.png&originHeight=695&originWidth=1571&size=77892&status=done&style=shadow&width=1571)
也可以自定义预训练文件夹路径,如下所示:
```python
text = "请查看bert的分词结果"
tokenizer = AutoTokenizer.from_pretrained(r'D:\HuProject\python_code\BERT_TEXT_EX\bert-base-chinese')
print(tokenizer.encode_plus(text))
快速使用预训练模型
使用与训练模型大致可以分为四步:读取数据,制作分词,提取模型,训练模型