Merge pull request 'update on major outage' (#341) from jan_outage into master

Reviewed-on: Disroot/Website#341
Reviewed-by: Fede.- <fede@no-reply@disroot.org>
This commit is contained in:
antilopa 2022-01-31 13:59:47 +00:00
commit 2190cb7788
3 changed files with 39 additions and 0 deletions

View File

@ -0,0 +1,20 @@
---
title: 'Major outage - Mail, Nextcloud, XMPP'
date: '31-01-2022'
media_order: sorry.jpg
taxonomy:
category: news
tag: [disroot, news, maintenance, downtime, issues]
body_classes: 'single single-post'
---
Yesterday, on the 30th of January, we had performed some maintenance work in the datacenter. Main task was replacement of a faulty raid controller cache battery which broke few days before. Although the procedure went as planned, during the reboot process of the server, which was needed in order to perform part replacement, the file system got corrupt. This means that in order to bring the server back online we had to repair the filesystem. This operation took in total over 12 hours, and during that time, email, XMPP chat and Nextcloud were not accessible. Additionally some dataloss has occurred, meaning you might have lost a file or email you uploaded shortly before the server reboot.
We would like to send you our deepest apologies and we hope we did not disturb your day with the outage. Although this was inevitable (looks like), we are going to work on better communication during the time of outage. We hope to minimize such long outages in the future with new hardware we are preparing to purchase, which will enable us to rebuild the current infrastructure adding some redundancy (as much as we can afford of course).
Although operational now, we still see few corrupt inodes on the data partition where we store emails and cloud files. This means we will need to run another check on that disk partition, so we will have to put the service down again for few hours. This also means we will continue maintenance work on Saturday 5th Feb 2021 starting at 0:00 CET. We think it won't take much time but it is wise to be ready for few hours of downtime. Saturday night (European timezone) seems to be moment where traffic on the server is the lowest so we hope to impact as little people possible.
**Once again. Sorry for the outage and thank you for understanding and support during this time.**

View File

@ -0,0 +1,19 @@
---
title: 'Interrupción importante - Correo, Nextcloud, XMPP'
date: '31-01-2022'
media_order: sorry.jpg
taxonomy:
category: news
tag: [disroot, novedades, mantenimiento, caida, issues]
body_classes: 'single single-post'
---
Ayer, 30 de enero, realizamos algunos trabajos de mantenimiento en el centro de datos. La tarea principal fue el remplazo de una batería de caché defectuosa del controlador raid que se había roto unos días antes. Aunque el procedimiento transcurrió según lo planeado, durante el proceso de reinicio del servidor (necesario para realizar la sustitución de la pieza), el sistema de archivos se corrompió. Esto quiere decir que para volver a poner el servidor en línea tuvimos que reparar el sistema de archivos. Esta operación demoró 12 horas en total, período durante el cual el correo, el chat XMPP y Nextcloud no estuvieron accesibles. Adicionalmente, hubo alguna pérdida de datos, lo que significa que pueden haber perdido algún archivo o correo que hayan subido justo antes del reinicio del servidor.
Queremos darles nuestras más sinceras disculpas y esperamos no haber complicado demasiado su día con la interrupción. Aunque esto fue (aparentemente) inevitable, vamos a trabajar en una mejor comunicación durante los tiempos de interrupción. Esperamos también minimizar estos largos cortes en el futuro con el nuevo hardware que estamos por comprar, y que nos permitirá reconstruir la infraestructura actual añadiendo algo de redundancia (tanto como podamos permitirnos, por supuesto).
Aunque ahora está operativo, todavía vemos algunos [inodos](https://es.wikipedia.org/wiki/Inodo) corruptos en la partición de datos donde almacenamos los correos electrónicos y los archivos de la nube. Esto significa que tendremos que ejecutar otra comprobación en esa partición del disco, lo que implica a su vez que tendremos que poner el servicio fuera de línea durante unas horas. Es decir que continuaremos el trabajo de mantenimiento el sábado 5 de febrero de 2021 a partir de las 0:00 CET. Pensamos que no llevará mucho tiempo, pero es aconsejable estar preparados para unas horas de inactividad. El sábado por la noche (horario de Europa) parece ser el momento en el que el tráfico en el servidor es más bajo, por lo que esperamos afectar al menor número de personas posible.
**De nuevo, les pedimos disculpas por la caída y les agradecemos por su comprensión y apoyo durante este momento.**

Binary file not shown.

After

Width:  |  Height:  |  Size: 39 KiB