Swifi fault injector for heterogeneous many-core processors

  • Vanessa Vargas Universidad de las Fuerzas Armadas ESPE, DEEE, Sangolquí, Ecuador
  • Pablo Ramos Universidad de las Fuerzas Armadas ESPE, DEEE, Sangolquí, Ecuador
  • Jean-François Méhaut Université Grenoble-Alpes, LIG Labs, Grenoble, Francia
  • Raoul Velazco Université Grenoble-Alpes, TIMA Labs, Grenoble, Francia

Resumen

Este trabajo presenta un enfoque de inyección de fallas para evaluar el impacto de soft errors en aplicaciones que se ejecutan en un procesador heterogé- neo de muchos núcleos. Esta evaluación es significativa para caracterizar el comportamiento de la aplicación implementada en dispositivos avanzados en términos de confiabilidad. El enfoque se basa en los principios de un modelo mono-procesador de inyección de fallas llamado Code Emulating Upset (CEU), el mismo que ha demostrado ser muy eficiente para predecir la tasa de soft errors. Los principios CEU fueron adaptados a un procesador heterogéneo de muchos núcleos a pesar de la complejidad de su arquitectura, relacionada principalmente con la gestión de memoria y comunicación entre núcleos. El dispositivo de prueba seleccionado es el procesador de múltiples núcleos KALRAY MPPA256 fabricado en tecnología CMOS de 28nm y que posee una arquitectura tipo cluster. Teniendo en cuenta la variedad de configuraciones de sistema que se pueden implementar en un procesador de muchos núcleos, el presente trabajo propone tres escenarios diferentes para ilustrar el uso del enfoque. En el primero, una versión paralela de una aplicación de tipo memory-bound se implementa en un modelo bare-board y se configura en modo de multiprocesamiento asimétrico. El segundo evalúa una versión distribuida de una aplicación de tipo memory-bound que se ejecuta en un modelo POSIX. El último evalúa una aplicación distribuida de tipo CPU-bound que se ejecuta en un modelo POSIX. Los resultados del primer escenario se han utilizado para predecir la tasa de soft errors de una aplicación bare-board y se han comparado con experimentos de radiación realizados en un trabajo previo, mostrando una buena concordancia entre ambas técnicas. Este hecho ha motivado la extensión del enfoque hacia modelos de programación más útiles como POSIX. El trabajo actual utiliza los resultados ya presentados en trabajos anteriores por los autores con el fin de compararlos con los nuevos resultados y así proporcionar mayores conclusiones del enfoque propuesto.

Citas

Applegate, D. L., Bixby, R.E., Chvatal,V. and Cook, W.J.(2007) The Traveling Salesman Problem: A Computational Study, pages 49-53. Princeton University Press, Princeton, USA, September.

Arlat, J.et al. (1990) “Fault Injection for Dependability Validation: A methodology and Some Applications,” IEEE Trans. On Soft. Eng. Vol. 16, No 2, pp. 166-182

De Dinechin, B. D., De Massas, P. G., Lager, G., Léger, C., Orgogozo, B. Reybert, J., and Strudel, T., (2013).“A distributed run-time environment for the kalray MPPA-256 integrated manycore processor,” Procedia Computer Science, vol. 18, pp. 1654 – 1663, 2013 International Conference on Computational Science.

De Dinechin, B.D., Ayrignac, R., Beaucamps, P.E., Couvert, P. Ganne, B., De Massas, P.G., Jacquet, F. Jones, S., Chaisemartin, N.M., Riss, F., and Strudel, T.(2013) “A clustered manycore processor architecture for embedded and accelerated applications,” in 2013 IEEE High Performance Extreme Computing Conference (HPEC), Sept. , pp. 1–6.

Baumann, R. (2005) “Soft Errors in Advanced Computer Systems”, IEEE Design and Test of Computers, vol 22, n° 3, pp. 258-266.

Benso, A. and Prinetto, P. (2003) Fault Injection techniques and tools for embedded systems reliability evaluation, USA: Kluwer Academic

Dongarra, J. (2016) Report on the Sunway TaihuLight System, June.

Ferrel, T. and Ferrel, D. (2014) “RTCA DO178B/EUROCAE ED12B.” Digital Avionics Handbook, Third Edition, 195206.

Girbal, S., Pérez, D. G., Le Rhun, J., Faugère, M., Pagetti, C. and Durrieu, G. (2015) “A complete toolchain for an interference-free deployment of avionic applications on multicore systems,” 2015. IEEE/AIAA 34th Digital Avionics Systems Conference (DASC), Prague, pp. 7A2-1- 7A2-14.

Johnston, A. H. (2000)“Scaling and Technology Issues for Soft Error Rates”, Proceedings of 4th Annual Research Conference on Reliability, Stanford University, October.

Kalray (2015) “MPPA ACCESSCORE V1.4 Introductory Manual,”. V. Vargas, P. Ramos, V. Ray, C. Jalier, R. Stevens, B. Dupont de Dinechin, M. Baylac, F. Villa, S. Rey, N. E. Zergainoh, J. F. Méhaut, and R. Velazco, “Radi- 409 REVISTA PUCE. ISSN: 2528-8156. NÚM.106. 3 DE MAYO DE 2018 - 3 DE NOV. DE 2018, VARGAS, RAMOS, MÉHAUT, VELAZCO, PP. 379-410 ation Experiments on a 28nm Single-Chip Many-core Processor and SEU error-rate prediction,,” IEEE Trans. Nucl. Sci., vol. 99, pp. 1 – 8, Dec. 2016.

Kalray(2016) “MPPA-256 Bostan Cluster and I/O Subsystem Architecture”.

Lanzaro, A., Pecchia, A., Cinque, M.,.Cotroneo, D.,Barbosa, R. and Silva, N. A. (2012) Preliminary Fault Injection Framework for Evaluating Multicore Systems, pages 106-116. Springer Berlin Heidelberg, Berlin, Heidelberg, September

Mansour, W., Ramos, P., Ayoubi, R. and Velazco R. (2014) “SEU fault-injection at system level: method, tools and preliminary results”. 15th Latin American Test Workshop – LATW, pp. 1-5.

Nicolaidis, M.(2010) “Soft Errors in modern electronic systems”, SPRINGER Ed., ISBN 978-1-4419-6992-7

Ramos, P.(2017) “Evaluation of the SEE sensitivity and methodology for error rate prediction of applications implemented in Multi-core and Many-core processors.” [Online]. Available: http://tima.univgrenoble-alpes.fr/tima/en/mediatheque/ PhDthesisresult_id452. html, France, ISBN: 978-2-11- 129226-0, April.

Ramos, P., Vargas, V., Baylac, M., Villa, F., Rey, S., Clemente, J.A., Zergainoh, N.E. Méhaut, J.F., and Velazco, R.(2016) “Evaluating the SEE sensitivity of a 45nm SOI Multi-core Processor due to 14 MeV Neutrons,” IEEE Trans. Nucl. Sci., vol. 63, pp. 2193 – 2200, Aug.

Peronnard, P., Ecoffet, R., Pignol, M., Bellin, D. and Velazco, R. (2008) “Predicting the SEU Error Rate through Fault Injection for a Complex Microprocessor,” in Proc. 2008 IEEE International Symposium on Industrial Electronics, September, pp. 2288–2292.

Velazco, R., Foucard, G. and Peronnard, P.(2010) “Combining Results of Accelerated Radiation Tests and Fault Injections to Predict the Error Rate of an Application Implemented in SRAM-Based FPGAs,” IEEE Trans. Nucl. Sci., vol. 57, pp. 3500–3505, December.

Velazco, R., Rezgui, S. and Ecoffet, R.(2000) “Predicting Error Rate for Microprocessor-Based Digital Architectures through C.E.U. (Code Emulating Upsets) Injection,”, IEEE Trans. Nucl. Sci., vol. 47, pp. 2405– 2411, December.

Rezgui, S., Velazco, R., Ecoffet, R., Rodriguez, S. and Mingo,J.(2001) “Estimating Error Rates in Processor-Based Architectures,” IEEE Trans. Nucl. Sci., vol. 48, pp. 1680– 1687, December.

Shye, A., Blomstedt, J., Moseley, T., Janapa Reddi, V., and Connors, D. A. (2009). PLR: A Software Approach to Transient Fault Tolerance for Multicore Architectures. IEEE Trans. On Dependable And Secure Computing, 6(2):135-148, April.

Vajda, A.(2011) Multi-core and many-core processor architectures. In Programming Many-Core Chips, pages 9-43. Springer.

Vargas, V.(2017) “Software approach to improve the reliability of parallel applications implemented on multi-core and many-core processors” [Online]. http://tima. univ-grenoble-alpes.fr/tima/ fr/mediatheque/PhDthesisresult_id453.html Available: France, ISBN: 978-2-11-129227-7, April.

Vargas, V., Ramos, P., Ray, V., Jalier, C., Stevens, R, Dinechin, B. D. D., Baylac, M., Villa, F., Rey, S., Zergainoh, N. E., Méhaut, J.F., and Velazco, R.(2017) “Radiation experiments on a 28 nm single-chip many-core processor and seu error-rate prediction,” IEEE Trans. Nucl. Sci., vol. 64, pp. 483–490, January.

V. Vargas, P. Ramos, W. Mansour, R. Velazco, N. Zergainoh, and J. Mehaut,(2014) “Preliminary results of SEU fault injection on multicore processors in AMP mode,” in Proc. IEEE 20th International On-Line Testing Symposium (IOLTS), pp. 194–197, September.

Ziade, H., Ayobi, R. and Velazco, R. (2004) “A Survey on Fault Injection Techniques”, The International Arab Journal of Information Technology, Vol 1, no 2, July, pp. 1-6.

Publicado
2018-04-21
Sección
Ingeniería Electrónica