OpenAI推出了网络爬虫GPTBot,并提供了如何屏蔽它的说明

OpenAI发布了GPTBot网络爬虫,并提供了屏蔽指南

OpenAI推出了一个网络爬虫,以改进类似GPT-4的人工智能模型。

名为GPTBot的系统通过搜索互联网来训练和增强人工智能的能力。根据OpenAI的一篇博文,使用GPTBot有潜力改进现有的人工智能模型在准确性和安全性等方面。

博文中写道:“使用GPTBot用户代理爬取的网页可能被用于改进未来的模型,并且会经过过滤,以删除需要付费墙、已知收集个人身份信息(PII)或违反我们政策的来源。”

网站可以选择限制对网络爬虫的访问,并阻止GPTBot访问他们的网站,部分或完全地选择退出。OpenAI表示,网站运营商可以通过阻止其IP地址或在网站的Robots.txt文件中禁止爬虫。

之前,OpenAI因其数据收集方式以及侵犯版权和隐私等问题而引发争议。今年6月,该人工智能平台因“窃取”个人数据来训练ChatGPT而被起诉。

最近才实施了其退出功能,像禁用聊天记录这样的功能使用户对可以访问的个人数据有更多的控制权。

ChatGPT 3.5和4是通过在线数据和截至2021年9月的文本进行训练的。目前没有办法从该数据集中删除内容。

如何防止GPTBot使用您网站的内容

根据OpenAI的说法,您可以通过将其添加到网站的Robots.txt文件中,来禁止GPTBot访问您的网站。Robots.txt文件是一个文本文件,指示网络爬虫可以或不可以从网站访问什么。

您还可以自定义网络爬虫可以使用的部分内容,允许访问某些页面并禁止访问其他页面。