网站可以阻挠OpenAI网络爬虫 避免数据用于练习 GPT 模型

 江南综合体育app下载安装    |       2024-02-25

  1. OpenAI 现答应网站屏蔽其网络爬虫,以避免其抓取网站内容练习 GPT 模型的。

  2. GPTBot 可能是 OpenAI 答应互联网用户挑选不让其数据用于练习其大型言语模型的第一步。

  3. 在获取用于练习 AI 的数据方面存在争议,一些网站和作者提出约束 AI 公司运用其内容的要求。

  站长之家(8月8日 音讯:OpenAI 现在答应网站屏蔽其网络爬虫,以协助网站运营商避免其内容被用于练习 GPT 模型。

  具体来说,网站可以终究靠在其 Robots.txt 文件中清晰制止 GPTBot 爬虫程序的呈现,或许阻挠其 IP 地址来完成屏蔽。

  OpenAI 表明,运用 GPTBot 抓取的网页可能会用于改善未来的模型,但也会进行过滤以删去需求付费拜访、包含个人身份信息或违背方针的内容来历。

  阻挠 GPTBot 可能是 OpenAI 答应互联网用户挑选不让其数据用于练习大型言语模型的第一步。之前有一些测验创立符号来扫除练习内容的行动,例如上一年 DeviantArt 提出的 NoAI 标签。但是,阻挠 GPTBot 并不会从 ChatGPT 的练习数据中删去之前从网站上抓取的内容。

  获取用于 AI 练习的数据已成为一个越来越具有争议的问题。一些网站,包含 Reddit 和 Twitter,一直在尽力约束 AI 公司对用户发布内容的免费运用,一起一些作者和创作人也因涉嫌没有经过授权运用其著作而提起诉讼。议员们在上个月的几回 AI 监管听证会上也重视了数据隐私和赞同问题。

  在获取数据方面,OpenAI 并未承认是否经过社会化媒体帖子、受版权维护的著作或许互联网的哪些部分来获取数据。

  据Axios报导,一些公司,如 Adobe,提出了经过反假充法令来符号数据为不行用于练习的主意。包含 OpenAI在与白宫签署的协议中赞同开发一种水印体系,以让人们理解某个内容是否由 AI 生成,但并未合计不再运用互联网数据来进行练习。