Facebook passe en open source avec un moteur de requête pour les grandes données

0

Facebook va open source avec un moteur de requête pour les grandes données

Augmentant potentiellement la barre sur l’évolutivité SQL, Facebook a publié en open source un moteur de requête SQL développé et appelé Presto qui a été conçu pour fonctionner avec pétaoctets de la taille des entrepôts de données .

Actuellement , plus de 1.000 employés de Facebook utilisent Presto quotidiennement pour exécuter 30.000 requêtes interactives , impliquant plus d’un pétaoctet de traitement , selon un message écrit par Facebook software engineer Martin Traverso . La société a réduit le logiciel de fonction sur un cluster de nœuds 1000.

Maintenant, Facebook veut d’autres organisations axées sur les données à utiliser, et il espère , affiner Presto . La société a publié le code source du logiciel et encourage les contributions des autres parties. Le logiciel est déjà testée par un certain nombre d’ autres services Internet , à savoir les grandes Airbnb et Dropbox.

Les entrepôts de données standard seraient mal à offrir la réactivité de Presto compte tenu de la quantité de données Facebook recueille, selon les ingénieurs de l’entreprise. L’ entrepôt de données de Facebook a plus de 300 pétaoctets de dollars de matériel de ses utilisateurs , stockées sur des clusters Hadoop . Interagit avec Presto ces données par l’analyse interactive , ainsi que grâce à des algorithmes d’apprentissage automatique et le traitement par lots standard.

Pour analyser ces données , Facebook Hadoop MapReduce initialement utilisé avec Hive . Mais comme l’entrepôt de données a augmenté , cette approche s’est avérée beaucoup trop lent .

Le groupe d’infrastructure de données Facebook a d’bord examiné d’autres logiciels pour exécuter des requêtes plus rapides, mais n’a rien trouvé qui était à la fois suffisamment mature et capable de s’adapter aux niveaux requis . Au lieu de cela , le groupe a construit son propre moteur de requête SQL distribuée, utilisant Java.

Presto peut faire beaucoup de tâches que les moteurs SQL standard peuvent, y compris les requêtes complexes , agrégations , extérieur gauche / droite rejoint , sous-requêtes, et la plupart des fonctions scalaires globale commune et . Il n’a pas la capacité d’écrire les résultats aux tableaux de données et ne peut pas créer des jointures de tables au-delà d’une certaine taille .

Contrairement à la ruche , Presto ne pas utiliser MapReduce , ce qui implique résultats d’écriture sur le disque . Au lieu de cela , compile Presto parties de la requête à la volée et fait tout son traitement dans la mémoire. En conséquence, Facebook affirme Presto est 10 fois mieux en termes d’efficacité du processeur et de la latence que la ruche et combo MapReduce .

Presto est un des un certain nombre de moteurs de requête SQL émergents qui abordent le problème de l’ offre des résultats rapides pour les requêtes exécutées sur de grands ensembles de données Hadoop . Hadoop distributeur Pivotal a développé Hawq à cette fin , et son compatriote Hadoop Cloudera distributeur travaille sur son propre logiciel appelé Impala .

Un autre avantage Facebook intégré dans Presto est la capacité à travailler avec des sources de données autres que Hadoop . Facebook gère un magasin de données personnalisé pour son fil de nouvelles , par exemple, qui Presto peut également exploiter. Facebook a également construit des connecteurs pour HBase et Scribe . Le logiciel est extensible à d’autres sources aussi bien, selon Traverso .

Source : computerworld.com

Share.

About Author

Comments are closed.