{"product_id":"an-architecture-for-fast-and-general-data-processing-on-large-clusters-hardcover","title":"Une architecture pour le traitement rapide et général des données sur de grands clusters - Relié","description":"\u003cdiv\u003e\u003cp style=\"text-align: right;\"\u003e\u003ca href=\"https:\/\/reportcopyrightinfringement.com\/\" target=\"_blank\" rel=\"nofollow\"\u003e\u003cb\u003eSignaler une violation du droit d'auteur\u003c\/b\u003e\u003c\/a\u003e\u003c\/p\u003e\u003c\/div\u003e\u003cp\u003epar \u003cb\u003eMatei Zaharia\u003c\/b\u003e (Auteur)\u003c\/p\u003e\u003cp\u003e\u003c\/p\u003e\u003cp\u003eCes dernières années ont été le théâtre d'un changement majeur dans les systèmes informatiques, car l'augmentation des volumes de données et le ralentissement de la vitesse des processeurs exigent de plus en plus d'applications qu'elles s'étendent à des clusters. Aujourd'hui, une myriade de sources de données, de l'Internet aux opérations commerciales en passant par les instruments scientifiques, produisent des flux de données importants et précieux. Cependant, les capacités de traitement des machines individuelles n'ont pas suivi la taille des données. En conséquence, les organisations ont de plus en plus besoin d'étendre leurs calculs sur des clusters.\u003c\/p\u003e\u003cp\u003e Dans le même temps, la vitesse et la sophistication requises pour le traitement des données ont augmenté. En plus des requêtes simples, des algorithmes complexes comme l'apprentissage automatique et l'analyse de graphes deviennent courants. Et en plus du traitement par lots, l'analyse en continu des données en temps réel est nécessaire pour permettre aux organisations de prendre des mesures opportunes. Les futures plateformes informatiques devront non seulement étendre les charges de travail traditionnelles, mais aussi prendre en charge ces nouvelles applications.\u003c\/p\u003e\u003cp\u003e Ce livre, une version révisée de la thèse lauréate du prix ACM Dissertation Award 2014, propose une architecture pour les systèmes de calcul en cluster qui peuvent gérer les charges de travail émergantes de traitement de données à grande échelle. Alors que les premiers systèmes de calcul en cluster, comme MapReduce, géraient le traitement par lots, notre architecture permet également des requêtes en continu et interactives, tout en conservant l'évolutivité et la tolérance aux pannes de MapReduce. Et alors que la plupart des systèmes déployés ne prennent en charge que des calculs simples en une seule passe (par exemple, des requêtes SQL), le nôtre s'étend également aux algorithmes à plusieurs passes requis pour des analyses complexes comme l'apprentissage automatique. Enfin, contrairement aux systèmes spécialisés proposés pour certaines de ces charges de travail, notre architecture permet de combiner ces calculs, ce qui permet de nouvelles applications riches qui mélangent, par exemple, le traitement en continu et le traitement par lots.\u003c\/p\u003e\u003cp\u003e Nous obtenons ces résultats grâce à une simple extension de MapReduce qui ajoute des primitives de partage de données, appelées Resilient Distributed Datasets (RDD). Nous montrons que cela suffit pour capturer un large éventail de charges de travail. Nous implémentons les RDD dans le système open source Spark, que nous évaluons à l'aide de charges de travail synthétiques et réelles. Spark égale ou dépasse les performances des systèmes spécialisés dans de nombreux domaines, tout en offrant des propriétés de tolérance aux pannes plus solides et en permettant de combiner ces charges de travail. Enfin, nous examinons la généralité des RDD du point de vue de la modélisation théorique et des systèmes.\u003c\/p\u003e\u003cp\u003e Cette version de la thèse apporte des corrections tout au long du texte et ajoute une nouvelle section sur l'évolution d'Apache Spark dans l'industrie depuis 2014. De plus, des modifications, des formatages et des liens pour les références ont été ajoutés.\u003c\/p\u003e\u003cp\u003e\u003c\/p\u003e\n            \u003cdiv\u003e\n\n\u003cstrong\u003eNombre de pages :\u003c\/strong\u003e 141\u003c\/div\u003e\n            \u003cdiv\u003e\n\n\u003cstrong\u003eDimensions :\u003c\/strong\u003e 0,38 x 9,25 x 7,5 po\u003c\/div\u003e\n            \u003cdiv\u003e\n\n\u003cstrong\u003eDate de publication :\u003c\/strong\u003e 1er mai 2016\u003c\/div\u003e\n            ","brand":"BooksCloud","offers":[{"title":"Default Title","offer_id":47018045276335,"sku":"9781970001594","price":114.36,"currency_code":"USD","in_stock":true}],"thumbnail_url":"\/\/cdn.shopify.com\/s\/files\/1\/0723\/7314\/1679\/files\/jOLQR6ThPb9781970001594.webp?v=1781172011","url":"https:\/\/valuevaultclub.myshopify.com\/fr\/products\/an-architecture-for-fast-and-general-data-processing-on-large-clusters-hardcover","provider":"Value Vault Club","version":"1.0","type":"link"}