<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Database Modelling &#8211; Smals Research</title>
	<atom:link href="https://www.smalsresearch.be/tag/database-modelling/feed/" rel="self" type="application/rss+xml" />
	<link>https://www.smalsresearch.be</link>
	<description></description>
	<lastBuildDate>Thu, 09 Apr 2026 12:19:23 +0000</lastBuildDate>
	<language>en-GB</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.9.4</generator>

<image>
	<url>https://www.smalsresearch.be/wp-content/uploads/2026/01/cropped-cropped-Smals_Research-32x32.png</url>
	<title>Database Modelling &#8211; Smals Research</title>
	<link>https://www.smalsresearch.be</link>
	<width>32</width>
	<height>32</height>
</image> 
	<item>
		<title>Data simplification and abstraction (Part II)&#160;: pistes opérationnelles &#038; ROI</title>
		<link>https://www.smalsresearch.be/data-simplification-and-abstraction-part-ii-pistes-operationnelles-roi/</link>
		
		<dc:creator><![CDATA[Isabelle Boydens]]></dc:creator>
		<pubDate>Wed, 28 Oct 2015 06:51:07 +0000</pubDate>
				<category><![CDATA[Blog post]]></category>
		<category><![CDATA[data governance]]></category>
		<category><![CDATA[data quality]]></category>
		<category><![CDATA[Data Quality Tools]]></category>
		<category><![CDATA[Database Modelling]]></category>
		<category><![CDATA[egov]]></category>
		<category><![CDATA[Information management]]></category>
		<category><![CDATA[Master Data Management]]></category>
		<guid isPermaLink="false">/?p=9000</guid>

					<description><![CDATA[Dans son rapport publié le 27 août 2015, l&#8217;ASA (Agence pour la Simplification Administrative) &#8211; DAV (Dienst Administratieve Vereenvouding) indique que les &#8220;les charges administratives ont connu une diminution globale en 2014 d&#8217;environ 400 millions d&#8217;euros&#8221; en Belgique, notamment via l&#8217;adoption de nouvelles réglementations et l&#8217;utilisation croissante de la facturation électronique. Nous proposons d&#8217;aborder ici un [&#8230;]]]></description>
										<content:encoded><![CDATA[<p style="text-align: justify;">Dans son rapport publié le 27 août 2015,<a href="https://www.simplification.be/actualites/les-charges-administratives-ont-baisse-d%E2%80%99environ-400-million-d%E2%80%99euros-en-2014" target="_blank"> l&#8217;ASA (<em>Agence pour la Simplification Administrative</em>) &#8211; DAV (Dienst Administratieve Vereenvouding</a>) indique que les &#8220;<strong>les charges administratives ont connu une diminution globale en 2014 d&#8217;environ 400 millions d&#8217;euros</strong>&#8221; en Belgique, notamment via l&#8217;adoption de <strong>nouvelles réglementations</strong> et l&#8217;utilisation croissante <strong>de la facturation électronique</strong>. Nous proposons d&#8217;aborder ici un ensemble de &#8220;bonnes pratiques&#8221; concrètes en vue de simplifier dans ce sens la gestion des données administratives. A cet égard, des <strong>systèmes de mesure du ROI</strong>, tels que le <a href="https://www.simplification.be/content/modele-de-mesure-kafka" target="_blank">modèle Kafka</a> et le modèle AIR (évoqué plus bas) développés par l&#8217;ASA-DAV sont des préalables indispensables.</p>
<p style="text-align: justify;"><a href="/wp-content/uploads/2015/09/RiverMap.png"><img fetchpriority="high" decoding="async" class="alignleft wp-image-9003" src="/wp-content/uploads/2015/09/RiverMap.png" alt="RiverMap" width="336" height="258" srcset="https://www.smalsresearch.be/wp-content/uploads/2015/09/RiverMap.png 676w, https://www.smalsresearch.be/wp-content/uploads/2015/09/RiverMap-300x230.png 300w" sizes="(max-width: 336px) 100vw, 336px" /></a>Comme nous l&#8217;avons vu dans <a href="/data-simplification-and-abstraction-part-i/" target="_blank">la première partie de ce post</a>, il n’y a jamais de projection biunivoque nécessaire entre un domaine d’application empirique et le système d&#8217;information correspondant. La métaphore de la carte et du territoire proposée par l&#8217;informaticien William Kent en fournit une illustration imagée dans son excellent ouvrage &#8220;<em>Data and reality. Basic Assumption in Data Processing Reconsidered</em>&#8221; :</p>
<p style="text-align: justify;"><em>“A message to mapmakers&nbsp;: h</em><em>ighways are not painted red. </em><em>Rivers don’t have county lines running down the middle a</em><em>nd you can’t see contour lines on a mountain.” </em>(I) <em> </em></p>
<p style="text-align: justify;">Comme Kent l&#8217;indique, le processus de généralisation et d&#8217;abstraction d&#8217;une réalité est toutefois indispensable en vue de conférer un pouvoir opérationnel aux données dans le contexte informatique. Nous avons observé de ce fait, à travers la notion de &#8220;temporalités étagée&#8221;, qu&#8217;il y a, dans le domaine de l&#8217;administration publique, des interactions permanentes entre l&#8217;évolution asynchrone des trois ordres de réalité suivants&nbsp;:</p>
<ul style="text-align: justify;">
<li>les textes légaux;</li>
<li>les systèmes d&#8217;information administratifs censés les représenter et en assurer la mise en oeuvre opérationnelle</li>
<li>et, enfin, de la réalité correspondante, le monde de la population assujetie à la législation.</li>
</ul>
<p style="text-align: justify;">La prise en compte de ces trois niveaux de réalité hétérogènes et de leurs interactions permet d&#8217;avoir une vue d&#8217;ensemble sur les données, préalable indispensable en vue d&#8217;en envisager la simplification. Nous en avons présenté, sur la base d&#8217;exemples dans la partie I de ce post, une schématisation originale référencée ci-dessous. Ce modèle,  que nous avons proposé pour la première fois dans (Boydens I., &#8220;<em>Informatique, normes et temps&#8221;</em>, &#8230; voir II) est cité et développé par David Bade, de l&#8217;Université de Chicago, dans sa recension parue en 2011 (III)  et fut récemment appliqué à grande échelle et cité lors de la  &#8220;<a href="https://www.springer.com/gp/book/9783319136738" target="_blank">Metadata and Semantics Research &#8211; 8th Research Conference, MTSR 2014</a>&#8220;, qui s&#8217;est tenue à Karlsruhe (VII).<span class="Apple-converted-space"><span style="font-family: Arial;"> </span></span>Celle-ci permet de formuler des recommandations opérationnelles afin de simplifier et faciliter la gestion des données que nous allons présenter ici.</p>
<p style="text-align: justify;"><a href="/wp-content/uploads/2015/06/tempoeta.png"><img decoding="async" class=" wp-image-8587 aligncenter" src="/wp-content/uploads/2015/06/tempoeta.png" alt="tempoeta" width="602" height="319" /></a></p>
<p style="text-align: center;"><strong><em>Transformation mechanisms to interpret administrative data</em></strong><span style="font-family: Arial;"><span class="Apple-converted-space"> </span></span></p>
<p style="text-align: center;"><span style="font-family: Arial;">(source</span><em><span style="font-family: Arial;"><span class="Apple-converted-space"> </span>:</span><span class="Apple-converted-space"><span style="font-family: Arial;"> </span></span></em>I. Boydens, &#8220;Strategic Issues Relating to Data Quality for E-government: Learning from an Approach Adopted in Belgium<em>&#8220;.<span class="Apple-converted-space"><span style="font-family: Arial;"> </span></span></em>In Assar S., Boughazala I. et Boydens I., éds.<em>, &#8220;Practical Studies in E-Government&nbsp;: Best Practices from Around the World&#8221;,<span class="Apple-converted-space"><span style="font-family: Arial;"> </span></span></em>New York, Springer, 2011, p. 120.)<span class="Apple-converted-space"> </span></p>
<p style="text-align: justify;"><strong>I. Approche pragmatique&nbsp;: synergies et collaborations</strong></p>
<p style="text-align: justify;">Théoriquement, afin de faciliter et de simplifier la gestion d&#8217;un tel ensemble,<strong> deux positions extrêmes</strong> et caricaturales pourraient être formulées &nbsp;:</p>
<ul style="text-align: justify;">
<li>L&#8217;informatique, au service du législateur, peut tout faire, quelle que soit la complexité des lois, leur enchevêtrement au fil des ans et la quantité d&#8217;exceptions (point de vue juridique extrême)</li>
<li>Si la loi était formulée de manière logique et univoque, sous une forme statique, déterministe et algébrique, aucun problème de qualité et d&#8217;interprétation de données ne se poserait sur le plan opérationnel (point de vue informatique extrême).</li>
</ul>
<p style="text-align: justify;">Face à ces deux assertions, il est possible de répondre que, d&#8217;une part, l&#8217;informatique ne peut pas tout modéliser à n&#8217;importe quel coût et que l&#8217;abondance d&#8217;exceptions et de définitions hétérogènes est ingérable pratiquement. Et d&#8217;autre part, nous pouvons affirmer que la loi doit nécessairement traiter une réalité complexe et évolutive, avec l&#8217;évolution parfois imprévisible des moeurs et des droits sociaux, au fil des négociations entre partenaires, réalité qui ne peut répondre a priori a un formalisme purement logique.</p>
<p style="text-align: justify;"><a href="/wp-content/uploads/2015/06/datapuzzle.jpg"><img decoding="async" class="alignleft wp-image-8581" src="/wp-content/uploads/2015/06/datapuzzle.jpg" alt="datapuzzle" width="369" height="246" srcset="https://www.smalsresearch.be/wp-content/uploads/2015/06/datapuzzle.jpg 640w, https://www.smalsresearch.be/wp-content/uploads/2015/06/datapuzzle-300x200.jpg 300w" sizes="(max-width: 369px) 100vw, 369px" /></a>Aussi, nous efforcerons-nous, dans l&#8217;esprit des initiatives menées par l&#8217;ASA, d&#8217;avoir un <strong>point de vue réaliste</strong>, entre ces deux points de vues extrêmes. Nous insisterons sur les <strong>synergies </strong>nécessaires et les <strong>bonnes pratiques</strong> à adopter idéalement, tant sur le plan juridique, que sur le plan opérationnel de la gestion d&#8217;un système d&#8217;information. Une <strong>collaboration</strong> entre les différents intervenants étant la seule piste envisageable. A cette fin, nous nous inspirons d&#8217;initiatives récentes menées en 2015 tant en <strong>Belgique</strong> qu&#8217;à l&#8217;<strong>étranger</strong> (<a href="https://ec.europa.eu/isa/news/2015/semic-2015-5th-semantic-interoperability-conference_en.htm" target="_blank">Union Européenne</a>, <a href="https://www.oecd.org/gov/public-innovation/open-government-data.htm" target="_blank">OCDE</a>, <a href="https://workspace.unpan.org/sites/Internet/Documents/UNPAN95253.pdf" target="_blank">United Nations</a>, &#8230;) et ce, tant dans les secteurs <strong>publics</strong> que <strong><a href="https://www.itworks.be/INTOD6-Integratie-Oplossingen-1" target="_blank">privés</a>.</strong></p>
<p style="text-align: justify;"><strong>2. Initiatives de simplification sur le plan juridique</strong></p>
<p style="text-align: justify;">Dans l&#8217;esprit pragmatique d&#8217;une synergie, plusieurs initiatives concernent tendantiellement davantage l&#8217;environnement juridique.</p>
<p style="text-align: justify;">Une <strong>analyse d&#8217;impact</strong> de la réglementation, tel que le <a href="https://www.simplification.be/content/analyse-d-impact-air" target="_blank">modèle AIR</a> de l&#8217;ASA-DAV, permet potentiellement d&#8217;évaluer les conséquences transversales de certaines modifications sur l&#8217;environnement concerné.</p>
<p>A propos de la simplification des lois ou de la réglementation<strong>, </strong>il existe un<strong> arbitrage</strong> entre <strong>deux approches </strong>:</p>
<ul>
<li style="text-align: justify;">l&#8217;élaboration de <strong>spécifications très détaillées</strong> qui peut demander un temps important de négociation et est moins résistante au changement;</li>
<li style="text-align: justify;">l&#8217;élaboration de spécifications <strong>plus génériques</strong>, éventuellement plus clairement négociées, plus résistantes au changement mais laissant la place à un certain flou dans la mise en oeuvre pratique.</li>
</ul>
<p>La <strong>seconde piste</strong> peut être recommandée, quand la teneur des réalités à réglementer le permet, pour sa <strong>résistance au temps</strong>, sa généricité et sa <strong>simplicité</strong>, elle demande toutefois lors de sa <strong>traduction pratique et opérationnelle</strong> les précautions suivantes&nbsp;:</p>
<ul>
<li style="text-align: justify;">une grande <strong>rigueur </strong>de mise en oeuvre pratique au niveau des <strong>business rules</strong> au sein des bases de données;</li>
<li style="text-align: justify;">une <strong>collaboration continue</strong> entre les intervenants concernés en vue de maintenir une <strong>interprétation cohérente et homogène;</strong></li>
<li style="text-align: justify;">une prise en compte de la <strong>hiérarchie des normes</strong>, des conventions collectives particulières et sectorielles pouvant toujours spécifier un arrêté royal, par exemple.</li>
</ul>
<p><strong>3. Initiatives de simplification sur le plan des systèmes d&#8217;information administratifs et IT</strong></p>
<p>Plusieurs recommandations concernent en particulier le niveau IT&nbsp;:</p>
<ul>
<li style="text-align: justify;">une bonne <strong>gouvernance</strong>, afin <strong>d&#8217;éviter</strong> l&#8217;émergence de silos d&#8217;information hétérogènes (on parle de risque de &#8220;<strong><em>death by silos</em></strong>&#8220;) en établissant des liens entre équipes, la société privée Colruyt Group mais aussi le dernier rapport des Nations Unies en matière d&#8217;egovernment (année 2014) appellent le principe du <strong>&#8220;(wo)man in the middle&#8221; </strong>via des<strong> &#8220;overlapping teams&#8221;.</strong></li>
<li style="text-align: justify;">la mise en oeuvre continue des bonnes pratiques en matière de <strong>data quality</strong> (voir notre post : &#8220;<a href="/dix-bonnes-pratiques-pour-ameliorer-et-maintenir-la-qualite-des-donnees/" target="_blank">Dix bonnes pratiques en vue d&#8217;améliorer et de maintenir la qualité des données</a>&#8220;, juin 2014) à haut potentiel en terme de <strong>ROI</strong> et de <strong>simplification structurelle</strong> de la gestion de l&#8217;information.</li>
<li style="text-align: justify;">la mise en oeuvre de certaines technologies qui en facilitent l&#8217;application, telles que l&#8217;harmonisation des systèmes d&#8217;accès à l&#8217;information (&#8220;<strong>electronic identity management</strong>&#8220;) pour le monitoring des services online.</li>
</ul>
<p><strong>4. En conclusion : nécessité d&#8217;un <span style="font-family: Arial;"><span style="color: #373737;">partenariat</span><span style="font-family: Arial;"><span style="color: #373737;"> entre les</span></span></span> <span style="color: #373737;">niveaux législatif<span style="color: #333333;">, </span></span><span style="color: #373737;">administratif et IT </span></strong></p>
<p><span style="color: #373737;"><span style="font-family: Arial;">Afin d&#8217;assurer</span> <span style="font-family: Arial;">le lien entre les initiatives préconisées ci-dessus</span><strong><span style="font-family: Arial;">,</span></strong><span style="font-family: Arial;"> il</span> est fondamental&nbsp;:</span></p>
<ul>
<li style="text-align: justify;">d&#8217;établir un <strong>contact permanent </strong>entre les <strong>juristes en charge de la réglementation</strong> et les <strong>analystes</strong> et spécialistes <strong>IT</strong> en charge des <strong>bases de données opérationnelles</strong> correspondantes afin de maintenir la<span style="font-family: Arial;"> cohérence entre l&#8217;évolution des lois et des systèmes d&#8217;information administratifs. A cet égard, l&#8217;ASA-DAV préconise la désignation, par service public fédéral et organisme public d&#8217;un &#8220;<strong>agent de simplicitation</strong>&#8221; en charge de la coordination de telles initiatives. </span></li>
<li style="text-align: justify;">qu&#8217;une<span style="font-family: Arial;"> collaboration étroite</span><span style="font-family: Arial;"> existe entre les initiatives de</span><span style="font-family: Arial;"> <strong><em>synergie </em>IT</strong> (Gcloud, mutualisations technologiques)</span><span style="font-family: Arial;"> et les</span> projets <strong>d&#8217;harmonisation administratifs</strong> comme la Loi &#8220;<a href="https://www.simplification.be/content/only-once-loi-2014" target="_blank">O<em>nly Once</em></a>&#8221; du 5 mai 2014 relative à la collecte unique des données.</li>
</ul>
<p style="text-align: center;">***</p>
<p style="text-align: center;"><strong>Références bibliographiques</strong></p>
<p style="text-align: justify;">I. Kent W., <em>Data and reality. Basic Assumption in Data Processing Reconsidered. </em>New York&nbsp;: Elsevier North-Holland Inc<em>., </em>1981.p. I.</p>
<p style="text-align: justify;">II.  Boydens I.,<span class="Apple-converted-space"><span style="font-family: Arial;"> </span></span><em>Informatique, normes et temps</em>. Bruxelles&nbsp;: Bruylant, 1999, 570 p.  (Cet ouvrage s’est vu décerner le prix de la Fondation L. Davin, conféré par l&#8217;Académie Royale des sciences, des lettres et des beaux-arts de Belgique, 1999).</p>
<p style="text-align: justify;">III. Bade, D.:<span class="Apple-converted-space"><span style="font-family: Arial;"> </span></span><em>It’s about Time!: Temporal Aspects of Metadata Management in the Work of Isabelle Boydens&#8221;</em>. Cataloging &amp; Classification Quarterly 49(4), 2011, pp. 328–338.</p>
<p style="text-align: justify;">IV. Boydens I., &#8220;Strategic Issues Relating to Data Quality for E-government: Learning from an Approach Adopted in Belgium<em>&#8220;. </em>In Assar S., Boughazala I. et Boydens I., éds.<em>, &#8220;Practical Studies in E-Government&nbsp;: Best Practices from Around the World&#8221;, </em>New York, Springer, 2011</p>
<p>&nbsp;</p>
]]></content:encoded>
					
		
		
			</item>
		<item>
		<title>&#8220;Mapping the World of Data Problems&#8221;&#160;: la qualité des données vue par la communauté IT</title>
		<link>https://www.smalsresearch.be/mapping-the-world-of-data-problems-la-qualite-des-donnees-vue-par-la-communaute-it-geek/</link>
		
		<dc:creator><![CDATA[Isabelle Boydens]]></dc:creator>
		<pubDate>Wed, 03 Apr 2013 15:08:50 +0000</pubDate>
				<category><![CDATA[Blog post]]></category>
		<category><![CDATA[big data]]></category>
		<category><![CDATA[data quality]]></category>
		<category><![CDATA[Data Quality Tools]]></category>
		<category><![CDATA[Database Modelling]]></category>
		<category><![CDATA[Information management]]></category>
		<category><![CDATA[Long Data]]></category>
		<category><![CDATA[Predictive Analytics]]></category>
		<guid isPermaLink="false">/?p=5398</guid>

					<description><![CDATA[ En novembre 2012, O’Reilly Media a édité un “livre-événement” en matière de &#8220;data quality&#8221;&#160;: Q. E. McCallum, Bad Data Handbook, Mapping the World of Data Problems, O’Reilly Media, 2012, 246 p. Cet ouvrage collectif  sur la qualité des données est inédit car il émane exclusivement de la communauté des web software developpers (Python, Perl script,  Parallel [&#8230;]]]></description>
										<content:encoded><![CDATA[<p><img loading="lazy" decoding="async" class="size-medium wp-image-5399 alignleft" style="width: 323px; height: 158px;" alt="baddata" src="/wp-content/uploads/2013/04/baddata-300x109.jpg" width="310" height="144" /> En novembre 2012, O’Reilly Media a édité un “livre-événement” en matière de &#8220;data quality&#8221;&nbsp;:<a href="https://cdn.oreillystatic.com/oreilly/booksamplers/9781449321888_sampler.pdf" target="_blank"> Q. E. McCallum, Bad Data Handbook, Mapping the World of Data Problems</a>, O’Reilly Media, 2012, 246 p.</p>
<p>Cet ouvrage collectif  sur la qualité des données est inédit car il émane exclusivement de la communauté des <em>web software developpers</em> (Python, Perl script,  Parallel R, NLP, cloud computing,  …), <em>web predictive analytics et architectes IT</em> … Il compte même un  <em>hacker</em> parmi ses co-auteurs. Ces auteurs n’avaient a priori aucune prédilection pour l&#8217;étude des données : « <em>In fact, I dare say that I don’t quite care for data</em> » (p. 1). Mais, quotidiennement affectés par les problèmes de data quality dans leur job, ils ont programmé une pause entre deux lignes de code pour partager leur longue et douloureuse expérience dans les domaines d’application les plus variés :  &#8220;<em>Bad Data …. include data that eats up your time, causes you to stay late at the office, drives you to tear out your hair in frustration. It’s data that you can’t access, data that you had and then lost, data that’s not the same today as it was yesterday</em>…” (p. 1).</p>
<p>En soi, les principaux apports pratiques de cet ouvrage, en ce qui concerne le thème &#8220;Database Quality&#8221;, sont déjà connus par certains (&#8220;<em>The ideas presented here are born from (often painful) experience and are likely not new to anyone who has spent any extended time looking at data</em>&#8220;, p. 226). Ils sont par exemple plus largement intégrés dans l&#8217;approche opérationnelle  du <a href="https://www.smalsresearch.be/tag/data-quality/" target="_blank">Data Quality Competence Center de Smals </a>(voir le <a href="/?p=4269" target="_blank">data tracking</a>, <a href="https://www.smals.be/fr/content/data-quality-best-practices" target="_blank">la gestion intégrée des anomalies, le recours aux &#8220;Data Quality Tools&#8221;, la documentation du système ou encore, la mise en place d&#8217;une organisation</a>). S&#8217;agissant de l&#8217;egovernment, nos travaux sont synthétisés dans un <a title="BOYDENS I., &quot;Strategic Issues Relating to Data Quality for E-government: Learning from an Approach Adopted in Belgium&quot;. In ASSAR S., BOUGHZALA I. et BOYDENS I., éds., &quot;Practical Studies in E-Government&nbsp;: Best Practices from Around the World&quot;, Springer, 2011, p. 113-130" href="https://books.google.be/books?id=DzZk-Riel_MC&amp;pg=PA113&amp;lpg=PA113&amp;dq=Isabelle+Boydens&amp;source=bl&amp;ots=tvh3D5fX6_&amp;sig=RBEI35wYjdFzYi13LpEIQc63OGY&amp;hl=fr&amp;ei=QQP4TOiXA4uShAeUmbHnAg&amp;sa=X&amp;oi=book_result&amp;ct=result&amp;resnum=1&amp;ved=0CBYQ6AEwADgo#v=onepage&amp;q&amp;f=false" target="_blank">ouvrage coédité à New York chez Springer en 2011</a> et dans un article paru aux <a title="BOYDENS I., L&#039;océan des données et le canal des normes. In CARRIEU-COSTA M.-J., BRYDEN A. et COUVEINHES P. éds, Les Annales des Mines, Série &quot;Responsabilité et Environnement&quot; (numéro thématique&nbsp;: &quot;La normalisation&nbsp;: principes, histoire, évolutions et perspectives&quot;), Paris, n° 67, juillet 2012, pp. 22-29" href="https://www.ulb.ac.be/cours/iboydens/annales.pdf" target="_blank">Annales des Mines à Paris en 2012</a> : ils placent la question de <a href="https://catalogingandclassificationquarterly.com/ccq49nr4.html#intobs" target="_blank">l&#8217;évolution de l&#8217;information dans le temps</a> au coeur <a title="BOYDENS I. et VAN HOOLAND S., Hermeneutics applied to the quality of empirical databases. In Journal of documentation, volume 67, issue 2, 2011, pp. 279-289" href="https://www.emeraldinsight.com/journals.htm?articleid=1911713&amp;show=abstract" target="_blank">de la réflexion conceptuelle</a>,  appliquant la critique historique aux sources informatiques à des fins opérationnelles en termes de coûts-bénéfices et de gestion.</p>
<p>Nous présentons toutefois ici un aperçu de ce <a href="https://cdn.oreillystatic.com/oreilly/booksamplers/9781449321888_sampler.pdf" target="_blank">&#8220;Bad Data Handbook&#8221;</a> et des catégories de questions qu&#8217;il aborde car il comporte au moins<strong> quatre aspects très intéressants et, en soi, particulièrement innovants</strong> &nbsp;:</p>
<ul>
<li>les très nombreux <strong>cases studies</strong> présentés sont extraordinairement riches, inédits et variés dans des domaines d&#8217;applications stratégiques (police criminelle, marchés financiers internationaux, chimie urologique, egov, &#8230;);</li>
<li>c&#8217;est la <strong>première fois que la communauté &#8220;geek&#8221;</strong> des développeurs &amp; architectes IT aborde la question &#8220;data quality&#8221;, sujet sur lequel elle ne publie en général jamais, se concentrant essentiellement sur la complexité technique, algorithmique et mathématique;</li>
<li>on y trouve une<strong> reconnaissance des impacts financiers énormes</strong> que suscite l’inadéquation des données aux usages (&#8220;non qualité&#8221;) &nbsp;: &#8220;<em>For large entreprises, this could be a multi-million dollar problem&#8221;</em> (p. 163);</li>
<li>sans aucune référence bibliographique explicite, plusieurs auteurs font preuve <strong>d&#8217;une finesse d&#8217;analyse et d&#8217;une acuité assez impressionnantes sur le plan épistémologique</strong> (certains d&#8217;entre eux ont fait leur thèse de doctorat en physique théorique, ce qui explique sans doute que <a href="https://en.wikipedia.org/wiki/Karl_Popper" target="_blank">K. Popper</a> ne leur soit pas étranger).</li>
</ul>
<p>Les apports de l&#8217;ouvrage retenus sont ici structurés en deux catégories logiquement liées et utiles non seulement pour les développeurs IT et les architectes mais aussi, la communauté des bases de données, les décideurs et utilisateurs finaux</p>
<p><strong>A. “Data format, storage &amp; infrastructure&#8221;&nbsp;: 5 pistes pour faciliter l’accès aux données</strong></p>
<p><img loading="lazy" decoding="async" class="size-medium wp-image-5410 alignleft" alt="accès" src="/wp-content/uploads/2013/04/accès-300x300.jpg" width="261" height="232" />Avant d’aborder la qualité de l’information, … il s’agit d’abord d’accéder physiquement et logiquement aux données.  Or, notre longue expérience en &#8220;data profiling&#8221; le confirme, c’est souvent l’étape la plus fastidieuse.</p>
<p>Ceci est encore plus vrai dans le cadre du Web, espace ouvert, dynamique et non contrôlé&nbsp;: “<i>in some (regrettably rare) cases, all the information about the data is provided</i>” (K. Fink, p. 9); “<em>the first, and sometimes, hardest part of doing any data analysis is acquiring the data from which you hope to extract information</em>” (A. Laiacano, p. 69). Ceci amène les auteurs à s’interroger sur l’opacité des Media sociaux dont l&#8217;étude soulève de nombreux défis (<a href="https://cdn.oreillystatic.com/oreilly/booksamplers/9781449321888_sampler.pdf" target="_blank">P. Warden, How to Feed and Care for Your Machine-Learning Experts, ch. 16</a>), qu&#8217;il s&#8217;agisse d&#8217;effectuer une “root cause analysis” des Web sites (<a href="https://cdn.oreillystatic.com/oreilly/booksamplers/9781449321888_sampler.pdf" target="_blank">R. Draper, Data Traceability, ch. 17</a>) ou encore, de vérifier l’impact des données effacées, de liens en liens, sur les réseaux sociaux (<a href="https://cdn.oreillystatic.com/oreilly/booksamplers/9781449321888_sampler.pdf" target="_blank">J. Valeski, Social Media: Erasable Ink?, ch. 18</a>). Cela étant dit, voici 5 pistes concrètes en vue de faciliter l&#8217;accès aux données.</p>
<ol>
<li><strong>Eviter, à la source, la production non organisée de volumineux ensembles de données stratégiques dans un format peu lisible par la machine, comme les spreadsheets</strong>. Il est très fréquent que les utilisateurs &#8220;business&#8221; utilisent de tels formats qui conviennent bien à la lecture humaine mais génèrent des &#8220;silos de données&#8221; redondants dont le traitement automatisé ultérieur est ardu. S’appuyant sur son expérience en matière de statistiques dans le domaine scolaire en Nouvelle Zélande, P. Murell propose des conseils de développement en R pour coder des données issues de tableurs dans un format réutilisable (<a href="https://cdn.oreillystatic.com/oreilly/booksamplers/9781449321888_sampler.pdf" target="_blank">P. Murrell, Data Intended for Human Consumption, Not Machine Consumption, ch. 3</a>). Dans un autre chapitre appliqué au domaine de la chimie, R. Cotton plaide en faveur de processus de codage organisés, incluant contrôles et gestion des versions  (<a href="https://cdn.oreillystatic.com/oreilly/booksamplers/9781449321888_sampler.pdf" target="_blank">R. Cotton, Blood,Sweat, and Urine, ch. 8</a>), proposant une cure de “<em>Rehab for Chemists (and Other Spreadsheet Abusers</em>)” (p. 115) et s’exclamant au passage&nbsp;: &#8220;<em>Live Fast, Die Young and Leave a Good-Looking Corpse Code Repository</em>” (p. 114).</li>
<li><strong>Prendre en considération la variété des systèmes d’encodage hétérogènes sur le web</strong> (ASCII, différentes normes ISO, UTF, …).  J. Levy propose des conseils de programmation (&#8220;text processing &#8220;) en Python à cette fin offrant même au lecteur intéressé une série d’exercices (<a href="https://cdn.oreillystatic.com/oreilly/booksamplers/9781449321888_sampler.pdf" target="_blank">J. Levy, Bad Data Lurking in Plain Text, ch. 4</a>).</li>
<li><strong>Identifier le pattern d’organisation des sites web analysés et en conserver l’historique des versions off line en vue d’un parsing ultérieur</strong>. En raison du caractère imprévisible et dynamique de la mise à jour des sites web, cette démarche est indispensable. A. Laiacano propose plusieurs exemples de parsing et de reengineering du pattern de sites web en Python, Ajax et MATLAB scripts (<a href="https://cdn.oreillystatic.com/oreilly/booksamplers/9781449321888_sampler.pdf" target="_blank">A. Laiacano, (Re)Organizing the Web’s Data, ch. 5</a>).</li>
<li><strong>Evaluer les avantages et inconvénients des différents modèles logiques de bases de données, en fonction des usages et des modèles de coûts</strong>. Deux chapitres discutent cette question essentielle pour le stockage et l&#8217;analyse des données issues du Web. S’inspirant d’une étude des &#8220;social media&#8221;, l’un plaide en faveur d’un format simple de type &#8220;plain text&#8221; avec des flat files, lorsque les données sont volumineuses et statiques.  Ceci en facilite la préservation à long terme, la rapidité de traitement et la sauvegarde, contrairement à certaines bases de données NoSql reposant sur le MapReduce paradigm (<a href="https://cdn.oreillystatic.com/oreilly/booksamplers/9781449321888_sampler.pdf" target="_blank">T. McNamara, When Databases Attack: A Guide for When to Stick to Files, ch. 12</a>).  L’autre évalue les coûts de gestion en terme de performance des différents modèles, reconnaissant la précision du modèle relationnel qui peut cependant être coûteux en terme de performance, évoquant &#8220;<em>the Delicate Sound of a Combinatorial Explosion…”</em> (p. 167). Il conseille un modèle en graphe qui constitue une abstraction simplifiée mais utile quand il s’agit de gérer à la fois la complexité des interactions entre données et la performance de leur gestion (<a href="https://cdn.oreillystatic.com/oreilly/booksamplers/9781449321888_sampler.pdf" target="_blank">B. Norton, Crouching Table, Hidden Network, ch. 13</a>).</li>
<li><strong>Utiliser le “cloud computing” avec prudence, en fonction du domaine d’application</strong>. Sur la base d’un exemple réaliste, les risques de perte de performance, de coûts élevés et de pertes de données, lorsque le « cloud computing » est appliqué sans précaution sont évoqués (<a href="https://cdn.oreillystatic.com/oreilly/booksamplers/9781449321888_sampler.pdf" target="_blank">S. Francia, Myths of Cloud Computing, ch. 14</a>).</li>
</ol>
<p><strong>B. From “big data” to “long data”&nbsp;: 5 pistes pour faciliter l’interprétation des données</strong></p>
<p><img loading="lazy" decoding="async" class="size-medium wp-image-5411 alignleft" alt="magritte" src="/wp-content/uploads/2013/04/magritte-300x207.jpg" width="300" height="207" srcset="https://www.smalsresearch.be/wp-content/uploads/2013/04/magritte-300x207.jpg 300w, https://www.smalsresearch.be/wp-content/uploads/2013/04/magritte-768x531.jpg 768w, https://www.smalsresearch.be/wp-content/uploads/2013/04/magritte-1024x707.jpg 1024w, https://www.smalsresearch.be/wp-content/uploads/2013/04/magritte.jpg 1300w" sizes="auto, (max-width: 300px) 100vw, 300px" />Une fois les données accédées, il s’agit de les interpréter pour les exploiter. Il est impensable d’étudier le phénomène <strong>“big data”</strong> sur le web sans prendre en considération la <strong>question historique du temps</strong>. Dans un <a href="https://internetactu.blog.lemonde.fr/2013/02/15/sortir-de-la-tyrannie-du-present/" target="_blank">blog publié en février 2013 par le journal Le Monde</a>, la notion de <strong> &#8220;long data&#8221;</strong> est préconisée pour envisager la prise en compte de l’évolution des phénomènes dans le temps. Certains changements &#8220;brutaux&#8221; et récents (étude de la surpêche, de la déforestation, du climat, …) prennent par exemple leur source dans des évolutions datant de plusieurs siècles. Mais cette étude est complexe car elle demande l’examen de l’évolution du sens des données et des mots dans le temps et dans l’espace. Dans cet esprit, citons par exemple l’application <a href="https://books.google.com/ngrams" target="_blank">Google Ngrams</a>, &#8220;<em>qui vise à tracer l&#8217;historique de l&#8217;usage d&#8217;un mot depuis l&#8217;an 1500, grâce à une analyse des livres numérisés par Google Books. Évidemment, cela ne commence qu&#8217;à l’invention de l&#8217;imprimerie et le fonds n&#8217;est pas exhaustif. Mais c&#8217;est un début qui a lancé un nouveau champ d&#8217;études, la culturomique, reposant sur une analyse quantitative des termes étudiés</em>.&#8221;</p>
<p>Associant le concept de « big data » à celui de « long data », voici 5 conseils relevés dans l’ouvrage en vue de faciliter l’interprétation des données.</p>
<ol>
<li style="text-align: left;"><strong>Prendre en considération le caractère interdisciplinaire d’une approche « data quality », à travers des échanges permanents entre « connaissance métier » et « culture technique ». </strong> Dans son chapitre déjà cité, <a href="https://cdn.oreillystatic.com/oreilly/booksamplers/9781449321888_sampler.pdf" target="_blank">&#8220;Blood, Sweat, and Urine” (Ch 8), R. Cotton</a> présente une expérience  dans ce sens dans le domaine de la chimie urologique. Pendant une semaine, en tant que développeur IT, il a échangé son poste avec celui d’un chimiste en vue d&#8217;un apprentissage réciproque. Dans un paragraphe éloquent,« <em>How Chemists Make Up Numbers</em>” (p. 108),  <strong>il relate sa stupeur devant l’exigence de précision de l’approche scientifique face à la complexité du réel observable et l’importance des enjeux humains et médicaux associés</strong>. Il en tire avec humour les conclusions hypothétiques pour son propre métier d’informaticien&nbsp;: “<em>They have an endless list of documents and rules on good laboratory practice, how to conduct experiments, how to maintain the instruments … The formal adherence to all these rules was a huge culture shock to me. All the chemists are required to carry a lab book around, in which they have to record the details of how they conducted each experiment. And if they forget to write it down&nbsp;? Oops, the experiment is invalid. Run it again. I sometimes wonder what would happen if the same principles were applied to data scientists. You didn’t document this function. Delete. I can’t determine the origin of this dataset. Delete. There is no reference for this algorithm. Delete, delete, delete. The outcry would be enormous, but I’m sure standards would improve</em>.” (p. 108). <strong>A l’inverse, cet échange permet à son collègue chimiste, spécialiste du domaine d’application, de tirer des &#8220;best practices&#8221; quant au traitement des données</strong> (éviter l’encodage intensif et non contrôlé sur des tableurs (cfr supra), à la source de redondance et de &#8220;data silos&#8221;, remplacer le double encodage humain et les phases de réencodage (à la source d’erreurs et coûteuses en terme de manpower) par un workflow structuré organisant tâches humaines de validation et contrôles automatisés ou encore, associer d’emblée aux données un modèle de base de données auquel correspondent des business rules, des règles de validation et une gestion des versions. L’auteur conclut&nbsp;: « <em>Sometimes, technology just works…”</em> (p. 116).</li>
<li><strong>Adopter une approche statistique itérative face à la complexité du domaine d’application incluant des facteurs exogènes imprévus sur le Web</strong>. Dans un chapitre à propos des<strong> taux de consultation des données et du trafic sur le Web</strong>, qu’il s’agisse du <strong>“Pay per click”</strong> ou de la consultation de<strong> Wikipedia</strong>, <a href="https://cdn.oreillystatic.com/oreilly/booksamplers/9781449321888_sampler.pdf" target="_blank">F. Fink (It Just Me, or Does This Data Smell Funny ?, ch. 2)</a>  montre comment aux effets saisonniers qui diminuent structurellement le taux de consultation («<em>Superbowl Sunday</em>” aux USA, congés scolaires, week-ends) se mêlent malicieusement des bugs dans les logs de Wikipedia qui complexifient l’interprétation des séries temporelles . On trouve un phénomène analogue dans un chapitre (<a href="https://cdn.oreillystatic.com/oreilly/booksamplers/9781449321888_sampler.pdf" target="_blank">J. Perkins,  “Detecting Liars and the Confused in Contradictory Online Reviews”, ch.6</a>) consacré à <strong>l’analyse des sentiments sur le web</strong> (à propos des restaurants, par exemple) où l’auteur découvre des contradictions (apparemment intentionnelles) entre les scores (ratings) attribués et les commentaires associés qui incluent parfois des doubles négations, sources de confusion en langage naturel. Dans l’approche, l’auteur  montre comment construire un &#8220;<em>sentiment classifier&#8221; </em>en Python Natural Language sur la base d’un training set et d’une étude itérative en vue de détecter ces &#8220;mensonges volontaires&#8221;.</li>
<li><strong>Face à certaines anomalies non élucidées par le modèle d’observation, ne pas hésiter à retourner sur le terrain pour réinspecter le domaine d’application (quand c&#8217;est matériellement possible). </strong>Le chapitre correspondant (<a href="https://cdn.oreillystatic.com/oreilly/booksamplers/9781449321888_sampler.pdf" target="_blank">P. K. Janert, Will the Bad Data Please Stand Up, ch. 7</a>) est introduit en ces termes&nbsp;: &#8220;<em>there is no such thing as bad weather – only inappropriate clothing  ; there is no such thing as bad data – only inappropriate approaches&#8221;</em> (p. 95). L’auteur relate  plusieurs expériences d’analyse des données en industrie visant à évaluer, sous contrainte de coût, le nombre d’appels en entreprise ou encore, les critères de production des produits défectueux. <strong>Les modèles statistiques employés (courbe de Gauss, modèle de Poisson), ont chaque fois permis de détecter des exceptions qui ont requis une nouvelle inspection du domaine d’application</strong> (par exemple, au sein de la chaîne de production, des sources de destruction accidentelles n’avaient pas été intégrées dans la structure de l’échantillon). L’auteur plaide pour une approche empirique scientifique invitant à un réexamen régulier du modèle d’observation et des hypothèses associées&nbsp;: “<em>It was not the data that was the problem. The problem was de discrepancy between the data and our ideas (assumptions) about what the data should be like </em> …  <em>this discrepancy can lead to a form of “creative tension, which brings with it the opportunity for additional</em> insights” (p. 104).</li>
<li><strong>Prendre en considération le fait que des données non valides peuvent avoir, à l’insu de l’observateur, un impact (financier, par exemple) sur le réel empirique étudié. </strong>Dans certains cas, l’inadéquation des données au modèle d’observation a un impact direct sur les réalités observées (<em>S. Burns, When Data and Reality Don’t Match, ch. 9</em>).  Ainsi, <strong>les données sur l’état des marchés financiers diffusées sur Internet (Google Finance – Yahoo! Finance</strong>) peuvent faire, en quelques minutes, partie intégrante du marché étudié où l’on observe &#8220;<em>a tight feedback loop where data about the state of the market affects the market (e.g. rising prices may cause people to push prices up further)</em>” (p. 119). Même si un algorithme de « data cleansing » permet a posteriori de détecter facilement les anomalies, celles-ci ont eu, entre temps, un impact concret sur le marché. Ainsi, le cas s’est-il présenté le 6 septembre 2008, lorsque le spider de Google News a diffusé par défaut à la date du jour des données plus anciennes non datées (et en fait obsolètes) concernant la banqueroute d’une valeur cotée sur le marché.  En quelques minutes, cette information a donné lieu à des mouvements de vente massifs de la part des traders, avant que l’on ne se rende compte de l’erreur (p. 125). De tels phénomènes se sont souvent produits dans le secteur financier. Comment considérer le statut de ces données formellement erronées ex post, lorsqu’elles ont agi sur le marché réel&nbsp;? D’importantes questions d’interprétation doivent être en effet abordées, lorsqu’on étudie un domaine d’application empirique critique, au sein duquel le système d’information est un instrument d’action sur les réalités qu’il représente.</li>
<li><strong>Accepter les compromis, dans le cadre d’un double arbitrage “fitness for use” &amp; &#8220;coût-bénéfice&#8221;. </strong>On déduira facilement des recommandations qui précèdent que la &#8220;qualité parfaite&#8221; n’existe pas (<a href="https://cdn.oreillystatic.com/oreilly/booksamplers/9781449321888_sampler.pdf" target="_blank">Vaisman M., The Dark Side of Data Science, ch. 15</a>) . <strong>Dans le domaine de la police criminelle</strong>, par exemple, au sein du <strong>Chicago Police Department’s Predictive Analytics Group </strong>(<a href="https://cdn.oreillystatic.com/oreilly/booksamplers/9781449321888_sampler.pdf" target="_blank">B. J.  Goldstein,  Don’t Let the Perfect Be the Enemy of the Good: Is Bad Data Really Bad?, ch. 11</a>),  les séries statistiques temporelles relatives aux appels d’urgence (&#8220;<em>Reported Crime Information</em>&#8220;, &#8220;<em>Sale of Narcotics</em>&#8220;, …) sont exploitées en vue de prévoir l’émergence de crimes par secteur géographique. Naturellement, dans la pratique, certains appels ne donnent pas lieu à la détection d’un délit (parce que les auteurs ont été prévenus entre-temps, par exemple). Ces informations sont toutefois utiles, pragmatiquement. Ainsi, le responsable du département conclut en ces termes &nbsp;:  &#8220;<em>In order to make informed strategic and tactical decisions in an environment with imperfect data, one must make compromises. … Still, I have repeatedly noted that it is better to have an informed decision built on imperfect data than to have decision built on no data at all. When one accepts that imperfection, it opens up the ability to integrate data into all supports of projects and policies</em>” (p. 148). On trouve le même type d’analyse dans le domaine du recensement aux USA et des enquêtes réalisées par le<strong> Congressional Budget Office</strong> ou la <strong>U. S. Social Security Administration</strong> (<a href="https://cdn.oreillystatic.com/oreilly/booksamplers/9781449321888_sampler.pdf" target="_blank">J. A. Schwabish, Subtle Sources of Bias and Error, ch. 10</a>).   C’est sur cette sage relativité que l’ouvrage se termine, privilégiant le pragmatisme et l’expérience à toute velléité stérile d’une représentation idéale du réel (<a href="https://cdn.oreillystatic.com/oreilly/booksamplers/9781449321888_sampler.pdf" target="_blank">Q. E. McCallum &amp; K. Gleason, Data Quality Analysis Demystified: Knowing When Your Data Is Good Enough, ch. 19</a>)&nbsp;:</li>
</ol>
<p style="text-align: center;"><em>“Things change (and break)</em></p>
<p style="text-align: center;"><em> … </em></p>
<p style="text-align: center;"><em>Indeed”.</em></p>
<p> <img loading="lazy" decoding="async" class="size-full wp-image-5412 aligncenter" alt="StrangeLoopLogo_tc" src="/wp-content/uploads/2013/04/StrangeLoopLogo_tc.png" width="222" height="158" /></p>
]]></content:encoded>
					
		
		
			</item>
	</channel>
</rss>
