Merge pull request 'outage_post_fixes' (#345) from outage_post_fixes into master

Reviewed-on: #345
Reviewed-by: Fede.- <fede@no-reply@disroot.org>
This commit is contained in:
Fede.- 2022-02-01 13:41:54 +00:00
commit 1c37e7ddeb
4 changed files with 8 additions and 8 deletions

View File

@ -9,12 +9,12 @@ body_classes: 'single single-post'
---
Yesterday, on the 30th of January, we had performed some maintenance work in the datacenter. Main task was replacement of a faulty raid controller cache battery which broke few days before. Although the procedure went as planned, during the reboot process of the server, which was needed in order to perform part replacement, the file system got corrupt. This means that in order to bring the server back online we had to repair the filesystem. This operation took in total over 12 hours, and during that time, email, XMPP chat and Nextcloud were not accessible. Additionally some dataloss has occurred, meaning you might have lost a file or email you uploaded shortly before the server reboot.
Yesterday, on the 30th of January, we had performed some maintenance work in the datacenter. Main task was replacement of a faulty raid controller cache battery which broke few days before. Although the procedure went as planned, during the reboot process of the server, which was needed in order to perform part replacement, the file system got corrupt. This means that in order to bring the server back online we had to repair the filesystem. This operation took in total over 12 hours, and during that time, email, XMPP chat and Nextcloud were not accessible. Additionally some dataloss has occured, meaning you might have lost a file or email you uploaded shortly before the server reboot.
We would like to send you our deepest apologies and we hope we did not disturb your day with the outage. Although this was inevitable (looks like), we are going to work on better communication during the time of outage. We hope to minimize such long outages in the future with new hardware we are preparing to purchase, which will enable us to rebuild the current infrastructure adding some redundancy (as much as we can afford of course).
We would like to send you our deepest appologies and we hope we did not disturb your day with the outage. Although this was inavitable (looks like), we are going to work on better communication during the time of outage. We hope to minimize such long outages in the future with new hardware we are preparing to purchase, which will enable us to rebuild the current infrastructure adding some redundancy (as much as we can afford of course).
Although operational now, we still see few corrupt inodes on the data partition where we store emails and cloud files. This means we will need to run another check on that disk partition, so we will have to put the service down again for few hours. This also means we will continue maintenance work on Saturday 5th Feb 2021 starting at 0:00 CET. We think it won't take much time but it is wise to be ready for few hours of downtime. Saturday night (European timezone) seems to be moment where traffic on the server is the lowest so we hope to impact as little people possible.
Although operational now, we still see few corrupt inodes on the data partition where we store emails and cloud files. This means we will need to run another check on that disk partition, so we will have to put the service down again for few hours. This also means we will continue maintenance work on Saturday 5th Feb 2022 starting at 0:00 CET. We think it won't take much time but it is wise to be ready for few hours of downtime. Saturday night (European timezone) seems to be moment where traffic on the server is the lowest so we hope to impact as little people possible.
**Once again. Sorry for the outage and thank you for understanding and support during this time.**

View File

@ -13,7 +13,7 @@ Ayer, 30 de enero, realizamos algunos trabajos de mantenimiento en el centro de
Queremos darles nuestras más sinceras disculpas y esperamos no haber complicado demasiado su día con la interrupción. Aunque esto fue (aparentemente) inevitable, vamos a trabajar en una mejor comunicación durante los tiempos de interrupción. Esperamos también minimizar estos largos cortes en el futuro con el nuevo hardware que estamos por comprar, y que nos permitirá reconstruir la infraestructura actual añadiendo algo de redundancia (tanto como podamos permitirnos, por supuesto).
Aunque ahora está operativo, todavía vemos algunos [inodos](https://es.wikipedia.org/wiki/Inodo) corruptos en la partición de datos donde almacenamos los correos electrónicos y los archivos de la nube. Esto significa que tendremos que ejecutar otra comprobación en esa partición del disco, lo que implica a su vez que tendremos que poner el servicio fuera de línea durante unas horas. Es decir que continuaremos el trabajo de mantenimiento el sábado 5 de febrero de 2021 a partir de las 0:00 CET. Pensamos que no llevará mucho tiempo, pero es aconsejable estar preparados para unas horas de inactividad. El sábado por la noche (horario de Europa) parece ser el momento en el que el tráfico en el servidor es más bajo, por lo que esperamos afectar al menor número de personas posible.
Aunque ahora está operativo, todavía vemos algunos [inodos](https://es.wikipedia.org/wiki/Inodo) corruptos en la partición de datos donde almacenamos los correos electrónicos y los archivos de la nube. Esto significa que tendremos que ejecutar otra comprobación en esa partición del disco, lo que implica a su vez que tendremos que poner el servicio fuera de línea durante unas horas. Es decir que continuaremos el trabajo de mantenimiento el sábado 5 de febrero de 2022 a partir de las 0:00 CET. Pensamos que no llevará mucho tiempo, pero es aconsejable estar preparados para unas horas de inactividad. El sábado por la noche (horario de Europa) parece ser el momento en el que el tráfico en el servidor es más bajo, por lo que esperamos afectar al menor número de personas posible.
**De nuevo, les pedimos disculpas por la caída y les agradecemos por su comprensión y apoyo durante este momento.**

View File

@ -9,10 +9,10 @@ body_classes: 'single single-post'
---
Ieri, 30 gennaio, abbiamo eseguito dei lavori di manutenzione al datacenter. L'attività principale è stata la sostituzione di una batteria della cache del controller raid difettosa che si era rotta pochi giorni prima. Sebbene la procedura sia andata come previsto, durante il processo di riavvio del server, necessario per eseguire la sostituzione delle parti, il file system si è danneggiato. Per riportare il server online abbiamo naturalmente dovuto riparare il filesystem. Questa operazione ha richiesto più di 12 ore, durante le quali i servizi di e-mail, chat XMPP e Nextcloud sono risultati inaccessibili. Durante questo periodo si è pure verificata una perdita di dati. Significa che potresti aver perso un file o un'e-mail che hai caricato poco prima del nostro riavvio del server.
Ieri, 30 gennaio, abbiamo eseguito dei lavori di manutenzione al datacenter. L'attività principale è stata la sostituzione di una batteria della cache del controller raid difettosa che si era rotta pochi giorni prima. Sebbene la procedura sia andata come previsto, durante il processo di riavvio del server, necessario per eseguire la sostituzione delle parti, il file system si è danneggiato. Per riportare il server online abbiamo naturalmente dovuto riparare il filesystem. Questa operazione ha richiesto più di 12 ore, durante le quali i servizi di e-mail, chat XMPP e Nextcloud sono risultati inaccessibili. Durante questo periodo si è pure verificata una perdita di dati. Significa che potresti aver perso un file o un'e-mail che hai caricato poco prima del nostro riavvio del server.
Ci scusiamo per il disservizio e per il futuro cercheremo di migliorare la comunicazione durante i periodi di manutenzione. Speriamo di ridurre al minimo interruzioni così lunghe grazie al nuovo hardware che ci stiamo accingendo ad acquistare. Ciò ci consentirà di ricostruire l'attuale infrastruttura aggiungendo un po' di ridondanza (per quanto possiamo permetterci ovviamente).
Ci scusiamo per il disservizio e per il futuro cercheremo di migliorare la comunicazione durante i periodi di manutenzione. Speriamo di ridurre al minimo interruzioni così lunghe grazie al nuovo hardware che ci stiamo accingendo ad acquistare. Ciò ci consentirà di ricostruire l'attuale infrastruttura aggiungendo un po' di ridondanza (per quanto possiamo permetterci ovviamente).
Sebbene ora siamo di nuovo operativi, vediamo ancora alcuni _inode_ corrotti nella partizione dati in cui archiviamo e-mail e file cloud. Ciò significa che dovremo eseguire altri controlli su quella partizione del disco. Dovremo quindi disattivare nuovamente il servizio per alcune ore. Questi lavori di manutenzione sono previsti per sabato 5 febbraio 2021 a partire dalle 0:00 CET. Pensiamo che non ci vorrà molto tempo, ma è saggio essere pronti per qualche ora di fermo macchina. Il sabato sera (fuso orario europeo) sembra essere il momento con il traffico sul server più basso, quindi speriamo di avere un impatto sul minor numero di persone possibile.
Sebbene ora siamo di nuovo operativi, vediamo ancora alcuni _inode_ corrotti nella partizione dati in cui archiviamo e-mail e file cloud. Ciò significa che dovremo eseguire altri controlli su quella partizione del disco. Dovremo quindi disattivare nuovamente il servizio per alcune ore. Questi lavori di manutenzione sono previsti per sabato 5 febbraio 2022 a partire dalle 0:00 CET. Pensiamo che non ci vorrà molto tempo, ma è saggio essere pronti per qualche ora di fermo macchina. Il sabato sera (fuso orario europeo) sembra essere il momento con il traffico sul server più basso, quindi speriamo di avere un impatto sul minor numero di persone possibile.
**Ci scusiamo nuovamente per l'interruzione e vi ringraziamo per la comprensione e il supporto.**
**Ci scusiamo nuovamente per l'interruzione e vi ringraziamo per la comprensione e il supporto.**

Binary file not shown.

Before

Width:  |  Height:  |  Size: 39 KiB

After

Width:  |  Height:  |  Size: 54 KiB