如何看待 10 月 1 日日本东京证券交易所因系统故障,停止所有股票交易?这对市场有哪些影响?
我去看了下详细报道,这有点意思。简单讲就是主SAN坏了,没切到备份。
システム障害の経緯について東証は、午前7時4分ごろ、「arrowhead」(アローヘッド)と呼ばれる株式売買システムの内部に2台あるストレージシステム「共有ディスク装置」の1号機に異常が発生したと説明する。異常の原因は装置のメモリ故障という。
上午七点零四分的时候,arrowhead系统的共有硬盘储存系统坏了。是系统的内存坏了。什么叫共有硬盘储存?家用电脑的硬盘就是一块硬盘,装在机箱里面,链接到主板上用的。但是服务器不太这么搞,现在的服务器大多是虚拟化的,所以用一台专门的储存服务器,给所有其他虚拟机提供实际物理存储。这是服务器常见的infrastructure。所以这台专门的存储服务器本身也是台服务器,有cpu有内存,还有超大超多的硬盘,当然他是为了存储特化的,所以他的系统也好,硬件也好都是单一功能的。这么个储存服务器内存坏了,当然储存服务器就不工作了。
通常であれば1号機に異常が発生しても2号機に自動的に切り替わる設定になっているはずだったが、何らかの理由で切り替わらなかったとしている。この結果として、arrowheadの情報配信処理や売買監視システムに異常が発生したことから、午前8時54分にネットワークを遮断し、取引を停止したとしている。
他说按照设计1号服务器坏了自动切换到2号服务器,考虑到服务器切换,这应该是热备份,当然我们不明白为什么如此重要的系统是用热备份而不是双活,考虑到小日本一贯稀烂的架构水平,这是很有可能的设计。所以这个硬盘坏了,又没有切到备份,导致了他的信息分发和买卖监视系统发生异常,停止了网络服务。这一句同时可以知道这套系统没有做数据中台,他的分发和处理是放在一起的,作为上线一年的系统,仍然采用上古设计,这也是另外一个小日本企业级软件架构稀烂的证据。
富士通这套arrowhead的文件在网上能找到,其中保证了系统可用性是五个9,也就是五年内10分钟意外宕机。这下宕机一天,把整个未来的宕机时间都搞掉了。。。
这套系统是典型的企业级软件,他的规模一般程序员是接触不到的主中心服务器100台,secondary 70台,每台两个node,交换机用了300+200,主中心所有内存加在一起10TB每分钟处理40万单,你注意下这里最后一行的disk后面有一个SAN,这个就是前面讲的坏了的地方。SAN是企业级当中常见的集中化储存,Storagearea network。
本站所有文章、数据、图片均来自互联网,一切版权均归源网站或源作者所有。
如果侵犯了你的权益请来信告知我们删除。邮箱:dacesmiling@qq.com