感觉很实诚,没用网络割接抖动之类的借口。

顺便问下监控技术哪家强。
有人吐槽从 google photos 开始不再无限存照片,就知道它磁盘资源吃紧了!
|      1salmon5      2020-12-15 09:43:13 +08:00  1 丢人的 Google | 
|  |      2silvernoo      2020-12-15 09:44:07 +08:00 哈哈不丢人 | 
|  |      3lvzhiqiang      2020-12-15 09:44:17 +08:00  1 实诚! | 
|  |      4andrewpsy      2020-12-15 09:44:40 +08:00 via Android 图显不出来,不是用的谷歌图库吧? | 
|  |      5wgbx      2020-12-15 09:47:11 +08:00 丢人在哪里? | 
|  |      6Tink PRO 不容易 | 
|  |      8felixcode      2020-12-15 09:51:25 +08:00 不丢人,技术还是全球首屈一指的。 | 
|  |      9gtchan13579      2020-12-15 09:51:29 +08:00 怪不得昨天我的谷歌账号登不上了,今天又突然好了。 | 
|      1043529      2020-12-15 09:53:33 +08:00 磁盘满了.....满了.... | 
|      12MeteorCat      2020-12-15 09:55:07 +08:00 via Android 这理由清新脱俗,导致不知道从哪里开始吐槽 | 
|  |      13fyovo      2020-12-15 09:57:02 +08:00 磁盘满了害行... | 
|      14deorth      2020-12-15 10:00:54 +08:00 昨天油管帐号登不上,都不知道该看啥 | 
|  |      15matrix67 OP | 
|  |      16matrix67 OP 命名 => 明明 | 
|  |      17luob      2020-12-15 10:04:17 +08:00 via iPhone  19 隔壁 p 站这几天删了 70%的内容,正好可以找他们借几车硬盘…… | 
|  |      18e1nher1ar      2020-12-15 10:04:45 +08:00 看来运维都差不多…… | 
|      19Kupanda82      2020-12-15 10:06:55 +08:00 45min sla 今年 kpi 不达标了 | 
|      20saytesnake      2020-12-15 10:10:13 +08:00 k8s 的监控做得不好吧... | 
|  |      22thjwuliubu      2020-12-15 10:16:02 +08:00 所以 薅羊毛别太狠了  最后的结果就是大家都没得玩 | 
|  |      23opengps      2020-12-15 10:21:17 +08:00  58 45min/(365*24*60)=0.0000856164,也就是说可用性 99.99143836% 谷歌级别的服务,可用性才有 4 个 9,各位提需求的老哥们,你们参考下,别动不动要求 7 个 9 | 
|      24wpblank      2020-12-15 10:23:47 +08:00 上上周我们这边也是一个提供服务器+数据库的服务商磁盘满了,他们提供的数据库应该是共用磁盘,最后当天服务好几家公司宕了半天 | 
|  |      25goodryb      2020-12-15 10:27:12 +08:00  22 思路清奇,挂了就是挂了,什么原因对用户来说重要么,还要贴个诚实的标签 | 
|  |      26love      2020-12-15 10:27:24 +08:00 原来 Google 也不监控磁盘空间的 | 
|  |      27marcong95      2020-12-15 10:28:15 +08:00 昨天刚好在那个时间点想看一下 notion 上的东西,然而登录信息过期了,用的 Google 第三方登录,就连带 notion 也登不上了。。。看来第三方登录也不太靠谱,起码要留一个密码备用。。。 | 
|  |      28arthas2234      2020-12-15 10:30:46 +08:00 事实证明,不要把鸡蛋放在一个篮子里 | 
|      29whileFalse      2020-12-15 10:30:56 +08:00 @luob #17 怎么就删内容了呢? | 
|  |      30Braisdom      2020-12-15 10:34:08 +08:00 作为程序员看了这样的问题,是不是觉得内心平衡了一点呀。 | 
|  |      31NewIPIsComing      2020-12-15 10:34:59 +08:00  1 誠實,作為核心價值觀之外的一種美德,當然值的表揚 | 
|      32RudyS      2020-12-15 10:40:12 +08:00 这个理由根本就是瞎几把扯 就算是是一个没有运维的小公司,也很少会因为磁盘满导致服务挂掉的;更何况 google ! | 
|      33stoneabc      2020-12-15 10:41:04 +08:00 1. 短时间内某些程序突然大量写盘把磁盘占满了,监控来不及告警 2. 监控很早就告警了,SRE 当做没看到 3. SRE 看到了,通知机房运维上新磁盘,但由于疫情 机房运维人手不足没来得及上… 哪种可能性比较大。。 | 
|  |      34cnkuner      2020-12-15 10:43:10 +08:00 via Android  11 不一定是实诚,可能是用硬盘满了来掩盖更大的问题。 | 
|      35ddefewfewf      2020-12-15 10:43:40 +08:00 @whileFalse 收款方式凉了 | 
|      36hq136234303      2020-12-15 10:46:59 +08:00 @luob 为啥? | 
|  |      37qiaobeier      2020-12-15 10:50:55 +08:00 昨晚吓死我了,我那个 gmail 绑定了一大堆服务。。。这 gmail 好像没怎么靠谱啊。但是也许我应该自己买个域名,这样就算邮件服务器挂了也可以换一个。不至于那么被动。 | 
|  |      38tikazyq      2020-12-15 10:51:23 +08:00 如果没遭遇过 磁盘 /CPU/内存 /带宽满了、上线翻车、数据库损坏、 版本冲突、网络故障,人生都不完整。 看看人家赛博朋克 2077,bug 都多出天际了,照样不影响它的受欢迎程度 | 
|      39whyso      2020-12-15 10:56:41 +08:00 刚清过线上磁盘,已经百分之 80 多了。。。 | 
|      40liangch      2020-12-15 11:03:47 +08:00  2 丢人的前提是,有其它家做得更好。问题是,有么?没有,就不丢人。 | 
|      42weyou      2020-12-15 11:06:57 +08:00 via Android 找这个理由是为以后的收费做铺垫吧 | 
|      43Illusionary      2020-12-15 11:07:21 +08:00 不是因为总所周知的原因? | 
|  |      44phpcxy      2020-12-15 11:10:58 +08:00  1 | 
|  |      45NerverLibis      2020-12-15 11:13:18 +08:00  11 来个中国式的理由吧: 谷歌官方表示,导致故障发生的人员为无正式编制的临时工。 对 AA BB CC DD EE FF 等 6 名实习生 /临时工 /外包员工-予以解聘。 故障发生时时,从监控视频中可看到,有一位牌号“J1397”的资深员工缓慢经过,但并未做任何反应停留。 对此,运维部门 XX 经理答复道,当是运维人员因公出差,此地服务器不属于我们管辖范围内。 被解聘实习生:“我看电视才知道自己已经解聘了,以后不想再干这份工作,我想离开美国”。 受影响客户:希望运维道歉 规范操作 | 
|  |      46kuner0614      2020-12-15 11:17:23 +08:00 昨天 p 站也调整了内容政策,删除了未认证账号的发布视频。目前 P 站的视频总数从 1300 万部降至仅 400 万部。 另外,以后仅允许认证用户发布视频,方式是上传手持 ID 的照片。 | 
|  |      476IbA2bj5ip3tK49j      2020-12-15 11:21:32 +08:00  12 说实话,我是不信的。 硬盘是最容易冗余,最低价的设施了。 Authentication 系统出问题,这也不是一个会产生大量数据的系统。 当然,在有些人眼里,谷歌说啥都是对,楼上都快扯到阿共的阴谋了。 | 
|  |      48hd2ex      2020-12-15 11:23:29 +08:00  2 没什么丢人的,错误不论高级还是低级,是人就会犯。诚恳面对的态度才可以造就伟大,而这正是国内环境缺少的。 | 
|  |      49TypeError      2020-12-15 11:24:14 +08:00  2 spanner/f1 数据库不是全球分布式的吗 | 
|  |      51wangkai123      2020-12-15 11:27:27 +08:00  7 quota 和磁盘满了还是有区别吧,别搞这种营销号标题。。 | 
|  |      52Williams2008      2020-12-15 11:32:01 +08:00 via Android  1 所以说地主家也没余粮了? | 
|  |      53matrix67 OP  1 | 
|  |      54feast      2020-12-15 11:39:02 +08:00 Y2B 一直 something wrong,http500 就知道是谷歌服务器出问题了,不过不登录的话是正常的,应该是用户评论数据那块满了 | 
|  |      55mingt      2020-12-15 11:40:18 +08:00  5 googlephotos 不免费的原因是 AI 学习的资源已经足够了, 不再需要各位提供了而已 | 
|  |      56weifan      2020-12-15 11:41:51 +08:00  1 是我高估 Google 了... | 
|  |      57sm0king      2020-12-15 11:44:33 +08:00  1 都遇到过磁盘满的事情吧? 也没见多少因为磁盘满宕机的。 | 
|      59laoyur      2020-12-15 11:51:17 +08:00  1 很好,那正好可以为油管删除它不喜欢的视频找到借口了,磁盘不够了 | 
|  |      61Narcissu5      2020-12-15 11:55:20 +08:00  9 @goodryb 大侠有所不知,像阿里云这种每次出了问题死不承认,说是我们程序 BUG 让我们找原因,真是能把人憋屈死。另外阿里云的那么多个 9 也完全是靠死不认错换来的 | 
|      62superrichman      2020-12-15 11:58:35 +08:00 via iPhone @goodryb 信息透明,开放,比糊弄用户要好多了,用户可能不懂技术问题,但是服务提供者给出真实的事故说明很加分。 | 
|      63js8510      2020-12-15 12:01:07 +08:00 via Android  2 Quota 不是硬盘资源吃紧 是某些 service 分配的 quota 用完了会被 downstream  throttled | 
|      65AllRightReserve      2020-12-15 12:17:50 +08:00  1 果然跟我们的百度网盘比还是有一段路要走! | 
|  |      66mwftts      2020-12-15 12:48:49 +08:00 via Android 公司 SAP HANA DB 出错,宕机两次,阿里云可以申请赔偿,只是留给优惠券而已 | 
|  |      67deeplydrink      2020-12-15 12:52:24 +08:00 天啊。。。。。真的啊,,, | 
|  |      68bnrwnjyw      2020-12-15 12:52:42 +08:00 讲道理,别管问题低不低级,贴了原因就是诚实啊。总比某些服务挂了永远不说原因,它犯的就是“高级错误”? | 
|  |      69love      2020-12-15 13:01:51 +08:00  2 楼上说得好象 Google 也公布了细节似的,这说内部存储问题和说网络抖动有什么区别 | 
|  |      70smilingsun      2020-12-15 13:14:12 +08:00  1 看 SRE 书里面讲,Google SRE 写 postmortem 都不会被 blame 。 话说对外会不会有更详细的解释? | 
|  |      71novaa      2020-12-15 13:19:24 +08:00 @NerverLibis 优秀 | 
|      726ufq0VLZn0DDkL80      2020-12-15 13:20:38 +08:00  1 谁说的 internal storage quota issue 一定是容量满了。。。。 | 
|  |      73towry      2020-12-15 13:32:07 +08:00 他说是啥就是啥 | 
|  |      75ntgeralt      2020-12-15 13:37:32 +08:00 所以,上面的读者都信是储存满了? | 
|  |      77reus      2020-12-15 14:02:24 +08:00 storage quota 问题,不一定是磁盘满了,也可能是配额设置有问题,配少了,或者没有自动调整配额,等等。 | 
|  |      78reus      2020-12-15 14:04:45 +08:00  1 @love https://status.cloud.google.com/incident/cloud-networking/19009 以前公布的一些细节。这就是区别。刚恢复没有细节也不奇怪,但不公布细节不是谷歌的风格。 | 
|  |      79exploreexe      2020-12-15 14:04:57 +08:00 不愧是你。 还是我爱的谷歌,宕机的理由都是这么清新脱俗。:doge | 
|  |      80reus      2020-12-15 14:07:49 +08:00 https://sre.google/sre-book/postmortem-culture/ Postmortem Culture: Learning from Failure Blameless 才是好哲学,出了一点点问题就找人背锅,只会让人倾向于掩盖问题 | 
|      81willsplashing      2020-12-15 14:46:53 +08:00 "internal storage quota issue" 是非常精确而且客观的描述,这都能联想到阴谋论也是醉了 | 
|  |      82frostming      2020-12-15 14:48:34 +08:00 别这样,谷歌一挂,大家都炸了,你让有关部门的脸往哪搁 | 
|  |      83Y29tL2gwd2Fy      2020-12-15 14:52:41 +08:00 via iPhone 张口就来磁盘满了,呵呵 | 
|      84whileFalse      2020-12-15 15:08:42 +08:00 @ddefewfewf #35 为啥凉了?我刚买了终身会员🐶 | 
|  |      85matrix67 OP @Y29tL2gwd2Fy #83  @willsplashing #81 @reus #78 @reus #77 @ntgeralt #75 补充一下,这边有详细原因解释,大家不用瞎猜了哈。 rsus 老哥最稳!!! https://status.cloud.google.com/incident/zall/20013 The root cause was an issue in our automated quota management system which reduced capacity for Google's central identity management system, causing it to return errors globally. | 
|  |      86baiyi      2020-12-15 15:15:59 +08:00 https://status.cloud.google.com/incident/zall/20013 "The root cause was an issue in our automated quota management system which reduced capacity for Google's central identity management system, causing it to return errors globally. " 还没有更细节的内容,但这个描述能说明不是单纯的磁盘满了 | 
|      87Voichesapete      2020-12-15 15:25:22 +08:00 @baiyi  看了卫报的报道,就是磁盘写满的原因吧。When that storage filled up, the system should have automatically made more available; instead, it seems it didn’t, which meant the system crashed https://www.theguardian.com/technology/2020/dec/14/google-suffers-worldwide-outage-with-gmail-youtube-and-other-services-down | 
|  |      88ggabc      2020-12-15 15:47:16 +08:00 楼层里的评论,感觉经历过集群项目的人不多啊。说不定人家谷歌的系统多复杂呢! | 
|  |      89KagurazakaNyaa      2020-12-15 15:54:01 +08:00 这是自动磁盘配额管理出现的问题,应该是自动配额调整出现故障导致的,八成是算法问题,没有及时调整存储池配额或者是应用了错误的配额,和磁盘写满没啥关系 | 
|      90willsplashing      2020-12-15 15:59:45 +08:00 @Voichesapete 卫报纯属 speculation 。可以很负责的说只是 quota issue 不是 disk capacity issue | 
|  |      92hafuhafu      2020-12-15 16:09:13 +08:00 好奇怪啊,我昨天听朋友说谷歌挂了的时候我还能看油管、并且发评论,虽然头像显示不出来。 | 
|      93Nadao      2020-12-15 16:39:18 +08:00 | 
|      94Voichesapete      2020-12-15 16:47:42 +08:00 @willsplashing 细看了谷歌的分析,确实不是磁盘写满 | 
|      95jjianwen68      2020-12-15 16:55:06 +08:00 @kuner0614 P 站这删除是物理删除还是只是不给用户看到,要是物理删除的话,里面有质量高的视频岂不是很遗憾 | 
|  |      96mxydsg8858      2020-12-15 17:08:22 +08:00 @kuner0614 泪目 | 
|  |      97ShadowWhisper      2020-12-15 18:17:33 +08:00 昨天还以为账号被删了,老是提示我邮箱不存在 | 
|  |      100cassyfar      2020-12-15 19:23:39 +08:00 |