概述
moderations端点是一种工具,可用于检查内容是否符合 OpenAI 的使用政策。因此,开发人员可以识别我们的使用政策禁止的内容并采取行动,例如过滤它。 这些模型将以下类别分类:| 类别 | 描述 |
|---|---|
| hate | 基于种族、性别、民族、宗教、国籍、性取向、残疾状况或种姓表达、煽动或宣扬仇恨的内容。针对不受保护的群体(例如棋手)的仇恨内容不属于此类。 |
| hate/threatening | 仇恨内容还包括对目标群体的暴力或严重伤害。 |
| self-harm | 提倡、鼓励或描述自残行为(例如自杀、割伤和饮食失调)的内容。 |
| sexual | 意在引起性兴奋的内容,例如对性活动的描述,或宣传性服务(不包括性教育和健康)的内容。 |
| sexual/minors | 包含 18 岁以下个人的色情内容。 |
| violence | 宣扬或美化暴力或颂扬他人的痛苦或屈辱的内容。 |
| violence/graphic | 以极端的画面细节描绘死亡、暴力或严重身体伤害的暴力内容。 |
hate我们一直致力于提高分类器的准确性,尤其是致力于改进、self-harm和内容的分类violence/graphic。我们对非英语语言的支持目前有限。
较长文本的准确性可能较低。为了获得更高的准确性,请尝试将长文本拆分为更小的块,每个块少于 2,000 个字符。
快速开始
要获取一段文本的分类,请向审核端点发出请求,如以下代码片段所示:示例:
curl https://api.openai.com/v1/moderations \-X POST \-H "Content-Type: application/json" \-H "Authorization: Bearer $OPENAI_API_KEY" \-d '{"input": "Sample text goes here"}'
下面是端点的示例输出。它返回以下字段:
response = openai.Moderation.create(input="Sample text goes here")output = response["results"][0]
<font style="color:rgb(53, 55, 64);">flagged</font>``<font style="color:rgb(53, 55, 64);">true</font>:如果模型将内容分类为违反 OpenAI 的使用策略,则设置为,<font style="color:rgb(53, 55, 64);">false</font>否则。<font style="color:rgb(53, 55, 64);">categories</font>:包含每个类别的二进制使用策略违规标志的字典。对于每个类别,该值是<font style="color:rgb(53, 55, 64);">true</font>模型是否将相应类别标记为违规,<font style="color:rgb(53, 55, 64);">false</font>否则。<font style="color:rgb(53, 55, 64);">category_scores</font>:包含模型输出的每个类别原始分数的字典,表示模型对输入违反 OpenAI 的类别策略的信心。该值介于 0 和 1 之间,其中较高的值表示较高的置信度。分数不应解释为概率。
{"id": "modr-XXXXX","model": "text-moderation-001","results": [{"categories": {"hate": false,"hate/threatening": false,"self-harm": false,"sexual": false,"sexual/minors": false,"violence": false,"violence/graphic": false},"category_scores": {"hate": 0.18805529177188873,"hate/threatening": 0.0001250059431185946,"self-harm": 0.0003706029092427343,"sexual": 0.0008735615410842001,"sexual/minors": 0.0007470346172340214,"violence": 0.0041268812492489815,"violence/graphic": 0.00023186142789199948},"flagged": false}]}
OpenAI 将不断升级审核端点的底层模型。因此,依赖的自定义策略category_scores可能需要随着时间的推移重新校准。
