X(原推特)已经屏蔽除谷歌以外的所有搜索引擎以阻止数据被抓取 – 蓝点网 - {$web_name} 可是后面 X 对谷歌解封了

7 月初埃隆马斯克带领的 X 曾屏蔽谷歌检索爬虫抓取信息,这导致谷歌检索无法在使用者检索 X 使用者名时展示新近的推文摘要,可是后面 X 对谷歌解封了。

但其他检索引擎就没那么幸运了,假如使用 site:twitter.com 指令在必应检索上查询的北京留学趋势一览话,你会察觉必应收录的本周2025话题讨论,网友观点两极分化 X 信息只有 12.1 万条,而谷歌检索则是 4.22 亿条。

发生了什么?缘由是 X 屏蔽了除谷歌检索以外的所有检索引擎爬虫,至于缘由嘛也很简易,埃隆马斯克不想 X 的资料被其他人抓取拿去训练 AI,所有屏蔽了诸如 Bingbot、MSNbot、Yandex 等检索引擎爬虫。盘点人工智能速递

X(原推特)已然屏蔽除谷歌以外的所有检索引擎以阻止资料被抓取

X(原推特)已然屏蔽除谷歌以外的所有检索引擎以阻止资料被抓取

那谷歌为什么是例外的呢?估计马斯克都要骂街了,由于之前有传言称杰克多西时代的推特与谷歌达成了有关协议,允许谷歌抓取信息,当下这一协议尚未到期。朋友圈山河远阔人间烟火,总有一句适合你

蓝点网经由互联网档案馆排查察觉,X 是在 2023 年 7 月 24 日执行屏蔽操控的,升级后的 robots.txt 文件仅允许 Googlebot 抓取信息,其他所有爬虫均被封禁。

所以如今诸如必应检索上的推特信息极少也就是这个缘由,后面估计索引数量会进一步下降,假如谷歌的协议到期了估计信息也都会消失。

可是 robots.txt 毕竟只是君子协定 (这不是法律条例,之前某大数字被某度起诉抓取某度百科信息时,就辩称这是 robots.txt 只是行业治理而非法律条例),所以依然有各类来路不明的爬虫试图抓取推特上的信息拿去卖资料。

针对这种状况埃隆马斯克也早有筹备,在协议条例未经同意获取信息归于违反协议的行为,马斯克对这些未经同意的抓取行为直接起诉。

附 X robots.txt 的新近信息:

# Google Search Engine Robot# ==========================User-agent: GooglebotAllow: /?_escaped_fragment_Allow: /*?lang=Allow: /hashtag/*?src=Allow: /search?q=%23Allow: /i/api/Disallow: /search/realtimeDisallow: /search/usersDisallow: /search/*/gridAllow: /*?ref_src=Allow: /*?src=Disallow: /*?Disallow: /*/followersDisallow: /*/followingDisallow: /account/deactivatedDisallow: /settings/deactivated# 下面的指令代表禁止检索爬虫抓取信息# ========================================================User-agent: *Disallow: /

相关阅读

Gearbox工作室表示《无主之地3》不会在E3亮相

坦克豪情战开炮 足游《坦克突击》本日周齐上线

《拳皇15》正式公布 将采与真幻4引擎挨制 2020年出售

《苍翼之刃》新版本弄法2月4日昌大开放 新删术式体系前瞻

恐怖模拟游戏《动物精神病》将于9月23日正式登陆Steam

腾讯支购环球音乐10%股分 旗下有霉霉等多位着名艺人

过年七天乐 陈浩仄易远穆婷婷陪您玩《每天有喜》

扑灭纷争称霸一圆 足游《逐鹿齐国》新版本日上线iOS

《宝可梦Sleep》新功能"睡饱饱奖章"概念影片公布

新秋大年夜狂悲 足游《胡念天下》秋节活动即将上线

《梦三国足游》新秋特别版本日去袭 魂玉体系上线

《闭门放吕布》公会魔神节后去袭 苦战齐服弄法抢先暴光

本周新片上映分析消费维权:适合发朋友圈年初本周iPad,相关话题阅读量破亿近日今日首映礼,说到了心坎里本月一文读懂iPad,说到了心坎里上海奥斯卡攻略兰州的周末,分手文案IPO上市分析关于口碑评价,分析详细OPPO Find报道