Debat du jour : vous en pensez quoi du big data ?

raphael · Octobre 14, 2013, 6:09

Je viens de commenter l’article Rapport Lauvergeon : la France, bientôt pilier du big data ? et j’en profite donc pour élargir le débat ici même.

Mon avis

Je m’intéresse particulièrement aux nouveaux métiers, en particulier ceux générés par le web.
Le profil de data scientific m’intéresse donc particulièrement depuis quelques mois.
C’est un profil assez peu connu en Europe et en France mais qui dans la Silicon Valley est plus que recherché par les géants du net. La raison en est très simple. Ce spécialiste récupère des donnés, les croisent et fait ressortir ce qu’il y à savoir sur un produit pour l’améliorer. Il ne s’agit donc plus de créer suivant le feeling mais de s’appuyer sur des données tangibles pour rapidement améliorer les résultats.

Sur le papier, c’est donc une excellente chose et c’est bien pour cette raison que ce type de profil intéresse de nombreuses sociétés de premier rang (comme Monsanto).

Maintenant, il y a clairement un problème de formation (pas assez nombreuses). Cela devrait changer dans les prochaines années. Maintenant, je pense que le niveau requis est tellement élevé qu’il y a finalement peu de personne aptes tenir un tel poste. Pour ma part, je pense qu’il y aura dans les prochains mois d’avantages d’outils qui simplifierons la collecte, l’analyse et les visualisation des données assorti à des profils plus spécialisé (machine to machine, interactions humains, quali etc…)

Et vous qu’en pensez vous ? quand verrons nous des data scientifics dans toutes les entrerprises ? quels sont les opportunités et risques que cela peut amener ?

Pour voir tous les débats du jour [/url]| Toutes les [url=http://www.clubic.com/r/big-data/actu/]actus sur le Big data
Edité le 14/10/2013 à 18:23

floflo92du63 · Octobre 14, 2013, 10:57

Moi j’ai même pas compris ce que c’est le big data :ane:

Ah, quoique… c’est pas par hasard une nouvelle invention pour surveiller notre vie privée ?

Jaidee · Octobre 15, 2013, 9:14

« Big Data » c’est un concept mal délimité. A partir de quelle quantité de données fait-on du big data ? Avec mes 350 Mo journaliers de données statistiques horaires d’un réseau de téléphonie mobile, est-ce que je fais du Big Data ? Ou bien est-ce que je fais autre chose mais avec des activités qui sont comparables au BD ? Création de requêtes SQL, optimisation des requêtes, définition de nouveaux index dans la BDD voire création de vues ou de tables dénormalisées ? collecte des données dans des fichiers plats ? archivage des fichiers plats pour besoin spécifique ultérieur ? post-traitement des fichiers plats avec un langage de script, que ce soit du Perl, grep, PHP, ou autre. Chargement de données extraites dans une BDD locale ou dans un tableur… connaissances métier pour concevoir des formules qui combinent des données atomiques en des données intelligibles. Design de tableaux de bord. Macro permettant d’automatiser une analyse, de mettre en valeur des données pertinentes nécessitant une attention prompte ou d’envoyer des alertes ou des rapports automatiquement par email ou par Dropbox…

Dans mon industrie (téléphonie mobile), ce que tu appelles un « data scientific » (pour peu que mon paragraphe précédent corresponde à ton idée de la chose) est une personne rare. Ca pose quelques problèmes :

En cas d’indisponibilité (vacances ou emploi du temps qui explose à cause des demandes), il faut établir des priorités sur les besoins. Dans la téléphonie, on a des opérations qui ont lieu la nuit. Si on se borne à utiliser l’équipement de monitoring en temps réel (ou presque), on n’a actuellement que des données atomiques. Et si on garde le data-scientific à bosser le vendredi jusque 1h du matin et qu’on lui demande de revenir bosser le samedi, il devient irascible quand le project leader refuse de récupérer les rapports Excel dans Dropbox et insiste pour les recevoir par email.
En cas de départ (fin de projet ou démission), y’a plein de gens qui pleurent le départ du data scientific et continuent de lui demander des choses pendant 2 mois
Le fait qu’il y a besoin de « peu » de data scientifics crée une difficulté à les incorporer aux équipes et à les faire reconnaitre comme équipiers par leurs collègues. En tout cas c’est mon expérience personnelle.
La solitude de l’activité de DS crée un autre problème vis-à-vis du management, mais c’est peut-être un problème auquel sont confrontés les autres domaines : l’avis du spécialiste technique (le DS) est rarement pris en compte par le management. Et lorsqu’il y a conflit/concurrence entre les demandes du DS et le manque de réactivité de l’OSS (les administrateurs de BDD et autres systèmes), les managers ne poussent pas assez fort pour résoudre rapidement les problématiques soulevées.
autre conséquence de la solitude du DS : certaines activités ont pour but de transmettre l’information. Quand on transmet trop d’emails automatiques aux collègues, ceux-ci se mettent à implémenter des règles dans Outlook pour envoyer vos messages dans la poubelle. Trop d’information tue l’information. Et c’est le DS qui est blâmé ou pris en dérision par les collègues alors que les décisions sont prises par les chefs d’équipes.

Je m’arrête là pour l’instant sinon ça va tourner à la consultation de psy et on va me demander de payer à la fin. :icon_biggrin:

carinae · Octobre 15, 2013, 9:31

Jaidee:

« Big Data » c’est un concept mal délimité. A partir de quelle quantité de données fait-on du big data ? Avec mes 350 Mo journaliers de données statistiques horaires d’un réseau de téléphonie mobile, est-ce que je fais du Big Data ? Ou bien est-ce que je fais autre chose mais avec des activités qui sont comparables au BD ? Création de requêtes SQL, optimisation des requêtes, définition de nouveaux index dans la BDD voire création de vues ou de tables dénormalisées ? collecte des données dans des fichiers plats ? archivage des fichiers plats pour besoin spécifique ultérieur ? post-traitement des fichiers plats avec un langage de script, que ce soit du Perl, grep, PHP, ou autre. Chargement de données extraites dans une BDD locale ou dans un tableur… connaissances métier pour concevoir des formules qui combinent des données atomiques en des données intelligibles. Design de tableaux de bord. Macro permettant d’automatiser une analyse, de mettre en valeur des données pertinentes nécessitant une attention prompte ou d’envoyer des alertes ou des rapports automatiquement par email ou par Dropbox…

raphael:

Et vous qu’en pensez vous ? quand verrons nous des data scientifics dans toutes les entrerprises ? quels sont les opportunités et risques que cela peut amener ?

Dans mon industrie (téléphonie mobile), ce que tu appelles un « data scientific » (pour peu que mon paragraphe précédent corresponde à ton idée de la chose) est une personne rare. Ca pose quelques problèmes :

En cas d’indisponibilité (vacances ou emploi du temps qui explose à cause des demandes), il faut établir des priorités sur les besoins. Dans la téléphonie, on a des opérations qui ont lieu la nuit. Si on se borne à utiliser l’équipement de monitoring en temps réel (ou presque), on n’a actuellement que des données atomiques. Et si on garde le data-scientific à bosser le vendredi jusque 1h du matin et qu’on lui demande de revenir bosser le samedi, il devient irascible quand le project leader refuse de récupérer les rapports Excel dans Dropbox et insiste pour les recevoir par email.

En cas de départ (fin de projet ou démission), y’a plein de gens qui pleurent le départ du data scientific et continuent de lui demander des choses pendant 2 mois

Le fait qu’il y a besoin de « peu » de data scientifics crée une difficulté à les incorporer aux équipes et à les faire reconnaitre comme équipiers par leurs collègues. En tout cas c’est mon expérience personnelle.

La solitude de l’activité de DS crée un autre problème vis-à-vis du management, mais c’est peut-être un problème auquel sont confrontés les autres domaines : l’avis du spécialiste technique (le DS) est rarement pris en compte par le management. Et lorsqu’il y a conflit/concurrence entre les demandes du DS et le manque de réactivité de l’OSS (les administrateurs de BDD et autres systèmes), les managers ne poussent pas assez fort pour résoudre rapidement les problématiques soulevées.

autre conséquence de la solitude du DS : certaines activités ont pour but de transmettre l’information. Quand on transmet trop d’emails automatiques aux collègues, ceux-ci se mettent à implémenter des règles dans Outlook pour envoyer vos messages dans la poubelle. Trop d’information tue l’information. Et c’est le DS qui est blâmé ou pris en dérision par les collègues alors que les décisions sont prises par les chefs d’équipes.

Je m’arrête là pour l’instant sinon ça va tourner à la consultation de psy et on va me demander de payer à la fin. :icon_biggrin:

c’est marrant … j’ai l’impression de lire ce je repete souvent !! Cà sens le vecu a plein nez …
outre les problematqiue que tu souleves et qui sont souvent des problémes de communication sous toutes ses formes (que ce soit d(ordre technique ou autre) il est clair que la notion de big data est une notion très ambigue y compris pour les gens qui travaillent dans le domaine informatique.
Moi le premier etant dans le domaine et ayant travaillé pour un certain nombre de clients (y compris chez des operateurs telephoniques) j’ai du mal a voir ce que cette notion regroupe vraiment (cloud, data centers ???):heink:
Edité le 15/10/2013 à 09:32

raphael · Octobre 15, 2013, 10:02

@Jaidee
Merci pour ton commentaire qui détaille de nombreux aspects intéressants :

a partir de quelle quantité de données peut on parlé de big data ?
=> il n’y clairement pas de réponses ferme à cette question mais on parle de giga, tera ou peta octé plutot que de mega
Quid en cas d’absence ou de départ du DS ?
=> Cela pose effectivement un problème de taille. Maintenant je ne vois pas trop les DS faire des missions operationnel et répondre dans la minute à une demande. Personnellement, je les vois plus en amont, sur l’aspect aide à la décision.
Intégration du DS
=> Je pense qu’au delà des compétences nécessaire à son activité, un bon DS doit savoir s’intégrer à une équipe et qu’il est primordial que le top management le soutienne.

Je tiens à ajouter quelques éléments.
Je pense que les français ont une culture particulièrement bien approprié à l’émergence de DS de premier plan. Notre capacité de synthèse, de remise en question et de créativité sont des atouts. Nous sommes moins pragmatiques que nos amis anglos saxons mais paradoxalement nous adorons comprendre et expliquer le pourquoi du comment. Or ce qui différenciera un bon d’un excellent DS sera justement cette capacité à récupère des donner, les formater, les analyser et à ressortir les principales concussions/recommandations pour des personnes non spécialiste. Il y a donc forcément une capacité à vulgariser (en partie visuellement) pour faire comprendre aux non initiés les implications et les leviers de croissance qui ressortent des recherches.

Jaidee · Octobre 15, 2013, 10:36

Bien entendu, il faut parler au moins de Giga.

Dans ce que je mentionnais ci-dessus où je relatais une expérience personnelle, je parlais de 350 Mo par jour. Mais il faut considérer que les données s’accumulent pendant de longs mois. A partir de données par heure et par équipement terminal (une cellule de réseau cellulaire), le travail normal s’opère soit dans une exploitation très rapide des données cellulaires horaires, soit dans une exploitation différée de données agrégées (données journalières, hebdomadaires, etc. et par cellule, site, BSC ou RNC, etc.). MAIS… de temps en temps un décideur pénible veut qu’on retourne piocher de la donnée cellulaire horaire pour voir ce qu’il s’est passé il y a 6, 12 ou même 24 mois alors on est obligé de créer des BDD locales pour accomoder ces décideurs et de garder d’énormes quantités de données avec des tables qui individuellement atteignent plusieurs giga-octets (ce qui est une mauvaise idée en MySQL).

Je repars de mon cas personnel qui n’est donc pas forcément représentatif. Le reporting décisionnel (car on parle de reporting) n’est qu’une part du boulot. Il y a aussi du reporting de production (ou d’exploitation), du reporting contractuel (qui peut être lié à la prise de décision) et dans quelques cas, il y a aussi du flicage.

Exemple de reporting de production : remonter les statistiques du réseau de téléphonie en matière de coupures d’appel (en nombre et pourcentage), initiation d’appel réussie (en nombre et pourcentage), capacité utilisée, taux de blocage d’appels par manque de capacité, prédiction de blocage d’appel selon hypothèse d’une capacité augmentée (capacité de la cellule avec +1 TRX), etc.

Exemple de flicage : les plaintes de clients sont listées avec un système de ticketing qui est similaire à un logiciel de bugtracking. C’est ensuite traité par les ingénieurs pour confronter les problèmes décrits aux données techniques disponibles et offrir une solution (ex: changer un paramètre de la cellule) ou au moins une réponse (ex: dire au client que son problème n’est pas possible à solutionner avant 6 mois). Comme c’est une BDD on peut extraire des données par requêtes SQL ou par système de Business Intelligence (ex: Business Objects) et évaluer la quantité de tickets traités dans l’absolu ou traités en retard par login et ensuite pointer du doigt les mauvais élèves.

Reporting contractuel : depuis 2005, la mode est à l’outsourcing et les opérateurs télécoms ont tendance à se débarasser de leurs équipes techniques pour les transférer chez une entreprise tierce (souvent un fabriquant d’équipement réseau : NSN, Ericsson, Huawei, Alcatel…). On fixe alors des objectifs contractuels et des pénalités financières en cas d’objectifs non atteints. A la mauvaise foi des opérateurs qui veulent presser le citron et envoient parfois des évaluations mensongères des objectifs (choquant mais véridique!) il faut répondre par la ruse. En analysant la construction technique des requêtes qui évaluent les objectifs contractuels, on peut (avec l’aide des copains du département « méthodes ») mettre en place des process pour échapper au couperet alors qu’on aurait peut-être mérité de se le prendre. Si l’opérateur s’inquiète de nous voir remplir nos objectifs et de ne plus pouvoir nous faire payer des pénalités, ça entrainera alors une discussion où les spécialistes techniques (DS par exemple) de l’opérateur et du prestataires seront réunis avec les managers de chaque entité et pourront travailler à une solution technique qui sera plus simple et évaluera plus justement les objectifs.

Je ne sais pas… il y a sans doute une frange de la population française qui correspond aux qualités citées mais ce n’est pas non plus représentatif de la population française. A mon départ d’un poste occupé en Belgique, mon chef m’avait fait la remarque particulière que ma rigueur dans l’exécution des tâches de reporting tranchait avec la vision que les Belges ont de nous autres Français. Ces qualités sont donc probablement plus liées aux geeks informaticiens qu’aux français. Enfin, ce n’est que mon opinion.

Addendum : Pour le reste de la conversation, on va conserver le terme « data scientific » mais je relève qu’en anglais le nom commun « scientifique » se traduit par « scientist ».
Edité le 15/10/2013 à 10:44

dontbugme · Octobre 15, 2013, 11:19

Bonjour,

Le BigData consisterait à analyser en temps réel un volume de données publiques.
C’est déjà ce que fait Google depuis plus d’une décénie.
Le gouvernement prévoit-il de faire son propre moteur de recherche ? ou de concurrencer les plus gros ?
Alors effectivement, il peut déjà faire ça à l’echelle de la France, en allant chercher l’information directement chez les fournisseurs d’accès. Mais il faudrait pour celà ouvrir l’accès à ces données et il n’y aurait rien de plus intrusif.
Ils le font sans doute déjà…
Mais quel serait le but au final ? Internet est trop bordélique pour eux ? ils veulent y mettre de l’ordre ? Sans doute. Ce gouvernement m’inquiète de plus en plus, il est de plus en plus mégalo et totalitaire.
La collecte de données est simple, je possède déjà plus de 3 millions de profils Google (j’ai aretté la collecte) et 1 millions de Facebook (toujours en fonction) et celà se fait avec un simple script bash qui contient une ligne de code. Il suffit juste de savoir ou chercher et comment récupérer l’info publique. (zero hacking, zero détournement, tout le monde peut le faire)
Ensuite il faut ranger ces données en base, et il n’y a plus qu’à taper la requête souhaitée.
Je ne vois pas ce qu’on peut faire de plus, la vitesse est convenable. A mon avis ils préparent l’avenir et possèdent quelques craintes :
Les réseaux deviennent de plus en plus rapide, si tout le monde est fibré, comment pourront-ils tout contrôler en temps réel ?
Elle est là leur peur. Et c’est à mon avis une des raisons principale : ils ont reussi à freiner les déploiement de la fibre optique en faisant monter son prix mais ils n’arrivent pas à freiner la 4G qui, à peine sortie, prévoit déjà la 5G.
Comment pourront-ils alors tout surveiller ?
C’est tout simplement impossible, il y aura toujours une latence entre l’information et la « justice » de l’information.
Prenons le système de reconnaissance faciale :
Le rêve de cette société de contrôle serait de nous identifier à la moindre caméra filmante.
Pour celà, nous avons actuellement les photos de profils d’au moins 50% d’internautes. Ce qui doit faire plus de 100 millions. Il n’existe pas de logiciel capable de reconnaitre un visage dans ce flot d’information. Nous avons trop de personnes qui nous ressemblent.
L’idée etait donc de géolocaliser les personnes pour réduire les champs de recherche. Ca marche, mais les données de géolocalisation sont parfois imprécises ou trompeuses.
Pourquoi ne nous implantent-t-ils pas directement une puce ? Parce que tout ceci est inacceptable pour nous, même pour la sécurité.
L’insécurité est un droit, le droit pour tout citoyen de pouvoir se battre contre ceux qui l’opressent.
Mais le gouvernement semble oublier ce droit fondamental et veut agir par la répression, qu’il soit de droite ou de gauche.
Personnellement si je collecte ces données c’est pour ma liberté de diffusion d’information.
Actuellement il faut s’identifier partout pour communiquer, il est difficile de faire le lien entre les differents comptes, et les renseignements ont du mal à s’en sortir. C’est eux qui veulent du bigdata car FB n’a pas reussi sa mission de tous nous identifier et etre le web à lui seul. C’est en cours… mais ce sera difficile sans la biométrie et des capteurs sur nos 5 sens, sur nos articulation, sur notre parole. C’est une pure uthopie. On est pas des robots et on est plus malins qu’ils ne le pensent.
Ce qu’ils gagneront c’est qu’on utilisera de moins en moins Internet car celà nous répugnera. Et ils pourront alors à nouveau nous contrôler avec la télévision avec laquelle l’information est monodirectionnelle et donc contrôlable.

Mais pas d’inquietude, le Web P2P en wifi arrive Et là, plus de fournisseur d’accès, plus de serveurs centralisés. De l’information éphémère et volatile. Ce sera à nous de juger. Pas à eux de juger à notre place.

Qu’ils se préoccupent du pourquoi de l’insécurité plutôt que du Bigdata !

Jaidee · Octobre 15, 2013, 11:32

Petite confusion avec « Open Data » ? Et pourquoi « temps réel » ?

Je vais aussi faire une remarque dès le début : tu devrais découper ce que tu dis en paragraphes. Ce serait plus lisible et susciterait une réaction plus positive des gens qui vont dépenser des efforts à te lire et à essayer de comprendre ce que tu dis.

Non. Le sujet du jour qui a fait naître ce topic, c’est l’intérêt à sponsoriser des filières (publiques ou privées) de formation ou des industries privées afin d’accroître l’activité industrielle française en matière de Big Data et à faire rentrer des sous dans notre pays… soit en vendant notre expertise auprès de clients étrangers soit en apportant notre expertise à des entreprises françaises qui grâce à l’expertise en analyse de données pourraient prendre de meilleures décisions ou bien pourraient réduire leurs coûts de fonctionnement et donc être plus rentables, plus compétitives, et réinvestir. Les retombées économiques pour notre pays seraient donc des emplois créés et une perception d’impôts supplémentaires.

Là tu pars en hors-sujet complet.

bd_gb · Octobre 15, 2013, 11:50

En fait, pour préciser la définition de BigData, la valeur ajoutée de ce domaine est de mettre en relation des données issues de sources différentes pour en faire sortir de la connaissance.

Par exemple :

déclanchement d’antennes relais téléphonique ET données épidémiologiques,
données météo ET chiffre d’affaire du rayon charcuterie,

(Ce sont de vrais exemples, je vous laisse deviner les liens.)

dontbugme · Octobre 15, 2013, 11:56

C’est parce que vous voyez dans le BigData, des solutions pour par exemple, un site comme Cdiscount, de pouvoir faire des statistiques d’achat.
Mais la caisse enregistreuse elle fait ça depuis longtemps !
Remarquez que même les commerces physiques nous connaissent déjà. Que veut-on de plus ?

Le bigdata, c’est surtout du renseignement pour la sécurité. Ce n’est pas du hors sujet !

raphael · Octobre 15, 2013, 11:57

@bd_gb
Merci pour cette précision qui résume bien le BigData

raphael · Octobre 15, 2013, 1:53

Et un article en anglais sur le sujet Big Data Success: 3 Companies Share Secrets
Le point le plus intéressant est dans l’accroche qui en substance dit :