les databases et plus

Versioner sa base avec LiquiBase

2012-05-25T06:19:00.001-07:00

LiquiBase est un sytème de gestion de version permettant de gérer les changements à appliquer à une base de données. Il est écrit en Java et fonctionne avec des SGBDs hétérogènes tels qu'Oracle, MySQL et PostgreSQL.
Ce système propose un grand nombre de fonctions pour effectuer certains tâches comme supprimer une table, ajouter un index, une colonne, une contrainte ... Il est possible d'ajouter des tests et traitements en fonction des résultats obtenus, d'inclure des fichiers externes, d'ajouter des actions qui seront faites à chaque exécution etc...
Voici un exemple de fichier de changement qu'il est possible d'utiliser :

<?xml version="1.0" encoding="UTF-8" standalone="no"?>

<databaseChangeLog xmlns="http://www.liquibase.org/xml/ns/dbchangelog"

xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

xsi:schemaLocation="http://www.liquibase.org/xml/ns/dbchangelog http://www.liquibase.org/xml/ns/dbchangelog/dbchangelog-2.0.xsd">

<preConditions onFail="HALT"

onFailMessage="You're trying to apply changes on database qal or prd !!">

<sqlCheck expectedResult="1"> SELECT substring(database(),11) NOT IN ('qal','prd') </sqlCheck>

</preConditions>

</changeSet>

<comment>Whole bd1_data_tst database regenerated </comment>

<sql>SELECT sleep(1)</sql>

<sql>SELECT sleep(1)</sql>

<sql>SELECT sleep(1)</sql>

<sqlFile path="routinesTriggersEvents/util-debug.sql"

splitStatements="false" />

<sqlFile path="routinesTriggersEvents/companyDictionarySearchWithSoundexInTempTable.sql"

splitStatements="false" />

<sqlFile path="routinesTriggersEvents/companyDictionarySoundexSearchWithWhereClause.sql"

splitStatements="false" />

<sqlFile path="routinesTriggersEvents/validatedCompanyDictionarySearchWithSoundex.sql"

splitStatements="false" />

<sql>

DROP procedure IF EXISTS clean_all_tables_from_current_db;

</sql>

<sqlFile path="routinesTriggersEvents/clean-test-tables.sql"

splitStatements="false" />

<sql>

TRUNCATE tx10;

</sql>

</changeSet>

<include file="./bd1-changelog.xml"

relativeToChangelogFile="true" />

</databaseChangeLog>

Dans ce fichier de changement, on peut voir qu'il y a 2 changements à appliquer (changeSet id="X") dont un qui sera appliqué à chaque fois (runAlways="true") , et que le premier changement effectue un test qui sera fatal à l'application des changements suivants s'il échoue (onFail="HALT").
On remarque aussi que chaque changement est associé à un utilisateur bien défini (author="cyril"). En plus des deux changements présents dans le fichier, les changements inclus dans le fichier ./bd1-changeog.xml seront aussi appliqués, ce qui permet par exemple d'observer un certain découpage et de ne pas avoir un fichier de changement qui pèse plusieurs Mo.

Concernant l'utilisation, il existe un plugin Maven afin de pouvoir piloter le système. Il est aussi possible d'écrire une petite application en Java pour appliquer un fichier de changement ou utiliser une commande en ligne si vous ne disposez pas de Maven.

Paralléliser une commande shell

2012-05-25T06:15:00.001-07:00

Je conseille fortement l'utilisation ou au moins de jeter un coup d'oeil sur un outil très intéressant "made by GNU“ qui se nomme Parallel.
En effet, il permet après avoir rapidement parcouru la documentation en ligne de paralléliser l'exécution d'une commande Shell même si elle est un peu complexe.
Une petite démonstration vous permettra de rapidement vous en rendre compte :)

Voici donc la commande shell que je désirais paralléliser :

for id in $(seq 1 4) do for cf in t1 x34 j25 r32 r77 do cat /data/d${id}/res/${cf}.csv | encb64 > /data/d${id}/res/${cf}-bs64.csv done done

A priori ça semble un peu compliqué mais en fait Parallel supporte l'initialisation de listes pour justement mimer les boucles for. Ainsi la commande devient la suivante :

parallel cat /data/pns{1}/results/{2}.csv '|' encb64 '>' /data/pns{1}/results/{2}-bs64.csv ::: 1 2 3 4 ::: t1 x34 j25 r32 r77

Vous noterez qu'il est nécessaire de mettre entre quotes les caractères pouvant être interprétés par le shell comme dans mon exemple le caractère pipe.

Par défaut Parallel lancera autant de processus que de coeurs disponibles sur la machine. il est aussi possible de paralléliser des tâches sur plusieurs machines.

Concernant l'installation de l'outil, vous pouvez la faire très simplement avec le Homebrew de Mac ou en téléchargeant le paquet disponible pour votre distribution. Par exemple, pour ubuntu 10.04 vous pouvez le récupérer ici.

Doit-on utiliser le singulier ou le pluriel pour nommer ses tables ?

2011-11-02T07:10:00.001-07:00

C'est une question qui revient souvent quand on décide de créer une nouvelle base de données. En effet, on peut avoir oublié la raison pour laquelle on a fait tel choix lors du design d'une ancienne base.Il se peut par exemple que vous utilisiez un ORM et que celui-ci ne supporte par exemple que le singulier sur le nom des tables. Mais dans le cas, où vous vous interrogez simplement sur la bonne marche à suivre je ne connais pas de règle ISO sur le sujet . Sachez cependant qu'Oracle utilise par exemple le pluriel pour les noms des tables et le singulier pour les noms des colonnes. MySQL en fait tout autant dans sa base de données information_schema. Cependant, j'ai trouvé une réponse assez argumentée que j'ai voulu partager.

Pour en savoir plus, allez lire la réponse sur stackoverflow. N'oubliez quand même pas qu'au final vous avez toujours le choix, mais mieux vaut considérer les avantages/inconvénients que peuvent vous apportez d'utiliser ou non le pluriel/singulier et je rajouterais aussi que peuvent vous apporter l'utilisations du CamelCase (passage de Windows à Unix par ex), des minuscules ou majuscules.

Indexation et booléens

2011-10-17T09:33:00.001-07:00

Voilà encore une raison pour laquelle il faut toujours tester vos requêtes!
En effet, il s'avère que l'optimiseur de MySQL 5.5 (vérifié aussi en 5.1.60) ne fait pas le même choix selon qu'un filtre sur la valeur d'un booléen indexé utilise l'opérateur = ou IS. Voici un exemple extrait du rapport de Bug que j'ai posté sur bugs.mysql.com :

mysql> CREATE TABLE t(id INT, b BOOLEAN DEFAULT FALSE);
Query OK, 0 rows affected (0.01 sec)
mysql> INSERT INTO t(id) SELECT 1;
Query OK, 1 row affected (0.01 sec)
Records: 1 Duplicates: 0 Warnings: 0
mysql> INSERT INTO t(id) SELECT id FROM t;
Query OK, 1 row affected (0.00 sec)
Records: 1 Duplicates: 0 Warnings: 0
mysql> INSERT INTO t(id) SELECT id FROM t;
Query OK, 2 rows affected (0.00 sec)
Records: 2 Duplicates: 0 Warnings: 0
mysql> INSERT INTO t(id) SELECT id FROM t;
Query OK, 4 rows affected (0.00 sec)
Records: 4 Duplicates: 0 Warnings: 0
mysql> INSERT INTO t(id) SELECT id FROM t;
Query OK, 8 rows affected (0.00 sec)
Records: 8 Duplicates: 0 Warnings: 0
mysql> INSERT INTO t(id) SELECT id FROM t;
Query OK, 16 rows affected (0.00 sec)
Records: 16 Duplicates: 0 Warnings: 0
mysql> INSERT INTO t(id) SELECT id FROM t;
Query OK, 32 rows affected (0.00 sec)
Records: 32 Duplicates: 0 Warnings: 0
mysql> INSERT INTO t(id) SELECT id FROM t;
Query OK, 64 rows affected (0.00 sec)
Records: 64 Duplicates: 0 Warnings: 0
mysql> INSERT INTO t(id) SELECT id FROM t UNION ALL SELECT id FROM t UNION ALL SELECT id FROM t;
Query OK, 387 rows affected (0.00 sec)
Records: 387 Duplicates: 0 Warnings: 0
mysql> INSERT INTO t(id) SELECT id FROM t UNION ALL SELECT id FROM t UNION ALL SELECT id FROM t;
Query OK, 1548 rows affected (0.02 sec)
Records: 1548 Duplicates: 0 Warnings: 0
mysql> INSERT INTO t(id) SELECT id FROM t UNION ALL SELECT id FROM t UNION ALL SELECT id FROM t;
Query OK, 6192 rows affected (0.03 sec)
Records: 6192 Duplicates: 0 Warnings: 0
mysql> INSERT INTO t(id) SELECT id FROM t UNION ALL SELECT id FROM t UNION ALL SELECT id FROM t;
Query OK, 24768 rows affected (0.18 sec)
Records: 24768 Duplicates: 0 Warnings: 0
mysql> INSERT INTO t(id) SELECT id FROM t UNION ALL SELECT id FROM t UNION ALL SELECT id FROM t;
Query OK, 99072 rows affected (0.43 sec)
Records: 99072 Duplicates: 0 Warnings: 0
mysql> alter table t add index(b);
Query OK, 0 rows affected (0.22 sec)
Records: 0 Duplicates: 0 Warnings: 0
mysql> INSERT INTO t values(10,TRUE);
Query OK, 1 row affected (0.00 sec)

mysql> EXPLAIN SELECT COUNT(*) FROM t WHERE b IS TRUE\G
******** 1. row ********
id: 1
select_type: SIMPLE
table: t
type: index
possible_keys: NULL
key: b
key_len: 2
ref: NULL
rows: 131783
Extra: Using where; Using index
1 row in set (0.00 sec)

mysql> EXPLAIN SELECT COUNT(*) FROM t WHERE b = TRUE\G
******** 1. row ********
id: 1
select_type: SIMPLE
table: t
type: ref
possible_keys: b
key: b
key_len: 2
ref: const
rows: 1
Extra: Using where; Using index
1 row in set (0.00 sec)

Comme vous pouvez le voir, lorsque l'on utilise l'opérateur "=" , MySQL effectue un accès unique dans l'index b, alors qu'avec l'opérateur "IS" il effectue un parcours total de l'index... Il est donc très important pour l'instant de privilégier l'opérateur d'égalité en attendant la correction du bug.

Sauvegarder physiquement certaines tables InnoDB

2011-10-12T09:11:00.001-07:00

Avec les tables MyISAM, il est possible de sauvegarder directement les fichiers MYD et MYI lorsque le serveur MySQL tourne, en supposant bien sûr que vous avez verrouillé les tables concernées avec la commande LOCK TABLES ou qu'il n'y a aucune requête en cours. Cependant, il n'en est pas de même avec le moteur InnoDB. En effet, à la différence de MyISAM, il y a des threads qui continue à s'exécuter après que les modifications aient été faites et qui modifient les fichiers de données. Seules les journaux de transactions (iblogfiles) sont réellement écrits à chaque fin de transaction (je considère que vous ne jouez pas avec le paramètre innodb_flush_log_at_trx_commit). De plus, il y a un fichier spécial, nommé par défaut ibdata1, qui contient le dictionnaire de données et toutes les tables (et index) InnoDB ayant été créées avec le paramètre innodb_file_per_table désactivé).
C'est la raison pour laquelle il n'est pas possible de copier un fichier innodb d'un serveur à un autre. Il est par contre tout a fait possible de sauvegarder un fichier innodb et de le restaurer plus tard sur le même serveur ou sur un serveur hébergeant une sauvegarde physique, sans avoir à restaurer la base dans son ensemble.
Il faut savoir qu'InnoDB associe un identifiant à chaque fichier innoDB nommé tablespace (oui cela n'a rien à voir avec les tablespaces d'Oracle). Cet id est stocké dans le catalogue InnoDB ainsi que dans le fichier concerné. C'est ce qui empêche de restaurer le fichier sur un autre serveur sur lequel le même tablespace n'existe pas ou a un identifiant différent, ou sur le même serveur sur lequel on aurait fait un TRUNCATE de la table, et donc généré implicitement un nouvel identifiant !

La méthode à suivre est la suivante, détaillée dans la document MySQL :

mysql> USE test
Reading table information for completion of table and column names
You can turn off this feature to get a quicker startup with -A
Database changed
mysql> CREATE TABLE t1(id int);
Query OK, 0 rows affected (0.03 sec)
mysql> SELECT @i:=0;
+-------+
| @id:=0 |
+-------+
| 0 |
+-------+
1 row in set (0.00 sec
mysql> INSERT INTO t1 SELECT @id:=@id+1 FROM information_schema.TABLES;
Query OK, 198 rows affected (0.03 sec)
Records: 198 Duplicates: 0 Warnings: 0
mysql> INSERT INTO t1 SELECT @id:=@id+1 FROM information_schema.TABLES;
Query OK, 198 rows affected (0.00 sec)
Records: 198 Duplicates: 0 Warnings: 0
mysql> INSERT INTO t1 SELECT @id:=@id+1 FROM information_schema.TABLES;
Query OK, 198 rows affected (0.00 sec)
Records: 198 Duplicates: 0 Warnings: 0
mysql> SELECT COUNT(*) FROM t1;
+----------+
| COUNT(*) |
+----------+
| 594 |
+----------+
1 row in set (0.00 sec)
mysql> SHOW ENGINE INNODB STATUS\G ... Main thread process no. 5109, id 140547993949952, state: waiting for server activity
Number of rows inserted 594, updated 0, deleted 0, read 1193
0.00 inserts/s, 0.00 updates/s, 0.00 deletes/s, 12.91 reads/s
----------------------------
END OF INNODB MONITOR OUTPUT
============================
1 row in set (0.00 sec)

Une fois que le statut du moteur InnoDB est bien à "waiting for server activity", On sauvegarde le fichier InnoDB

cp -p /var/lib/mysql/test/t1.ibd /tmp/

La sauvegarde effectuée, on simule la perte de données

mysql> DELETE FROM t1 WHERE id>400;
Query OK, 194 rows affected (0.04 sec)
mysql> SELECT MAX(id) FROM t1;
+---------+
| MAX(id) |
+---------+
| 400 |
+---------+
1 row in set (0.00 sec)

- On tente maintenant de restaurer nos données en prévenant MySQL

mysql> ALTER TABLE t1 DISCARD TABLESPACE;
Query OK, 0 rows affected (0.00 sec)

- On restaure le fichier à sa place d'origine

root@lizzie:~# cp -p /tmp/t1.ibd /var/lib/mysql/test/t1.ibd

- On avertit MySQL qu'il peut utiliser à présent le fichier

mysql> ALTER TABLE t1 IMPORT TABLESPACE;
Query OK, 0 rows affected (0.00 sec)
mysql> SELECT MAX(id) FROM t1;
+---------+
| MAX(id) |
+---------+
| 594 |
+---------+
1 row in set (0.02 sec)

Et voilà !
Par contre, comme je vous l'ai dit ça ne fonctionne plus quand l'id du tablespace a été modifié dans le catalogue :

mysql> TRUNCATE TABLE t1;
Query OK, 0 rows affected (0.01 sec)
mysql> ALTER TABLE t1 DISCARD TABLESPACE;
Query OK, 0 rows affected (0.00 sec)
root@lizzie:~# cp -p /tmp/t1.ibd /var/lib/mysql/test/t1.ibd
mysql> ALTER TABLE t1 IMPORT TABLESPACE;
ERROR 1030 (HY000): Got error -1 from storage engine

Vous trouverez un message plus explicite dans le fichier d'erreur :
grep -A 10 "InnoDB: Error" /var/lib/mysql/lizzie.err
111012 18:09:31 InnoDB: Error: tablespace id and flags in file './test/t1.ibd' are 209768 and 0, but in the InnoDB
InnoDB: data dictionary they are 209769 and 0.
InnoDB: Have you moved InnoDB .ibd files around without using the
InnoDB: commands DISCARD TABLESPACE and IMPORT TABLESPACE?
InnoDB: Please refer to
InnoDB: http://dev.mysql.com/doc/refman/5.5/en/innodb-troubleshooting-datadict.html
InnoDB: for how to resolve the issue.
111012 18:09:31 InnoDB: cannot find or open in the database directory the .ibd file of
InnoDB: table `test`.`t1`
InnoDB: in ALTER TABLE ... IMPORT TABLESPACE

Proxychains ou l'art de proxifier

2011-06-10T02:16:00.001-07:00

S'il vous est arrivé de vous retrouver dans l'impossibilité de sortir sur certains ports mais que vous avez su mettre en place un proxy socks ou http, il n'est pas forcément aisé de configurer les différents outils que vous utilisez.
Ce fut mon cas par exemple avec git. En effet, il est possible avec git d'utiliser un proxy socks, mais cela nécessite de créer un script basé sur netcat et d'affecter à la variable d'environnement GIT_PROXY_COMMAND le chemin associé à ce script. Bref, quelles que soient les commandes que vous utilisez vous aurez ou non la possibilité de configurer l'utilisation d'un proxy en modifiant un fichier de configuration, une variable de d'environnement etc...
L'intérêt de proxychains est que la configuration ne se fait qu'une seule fois, dans son propre fichier de configuration. Ensuite vous utilisez la syntaxe proxychains <command> <args> et votre commande utilisera le proxy spécifié dans le fichier de configuration de proxychains !

Voyons tout de suite un exemple :

git pull git://git.kernel.org/pub/scm/linux/kernel/git/torvalds/linux-2.6.git master
git.kernel.org[0: 199.6.1.168]: errno=Connection timed out
git.kernel.org[0: 130.239.17.8]: errno=Connection timed out
git.kernel.org[0: 2001:6b0:e:4017:1994:313:1:2]: errno=Network is unreachable
git.kernel.org[0: 2001:500:60:10:1994:313:1:2]: errno=Network is unreachable
fatal: unable to connect a socket (Network is unreachable)

Maintenant en utilisant un proxy socks.

- Je mets donc en place mon proxy

ssh -fND localhost:10123 my_proxy

- J'installe proxychains et mets en place ma configuration

sudo apt-get install proxychains

- Voici mon fichier de configuration /etc/proxychains

strict_chain

# Quiet mode (no output from library)
quiet_mode

# Proxy DNS requests - no leak for DNS data
#proxy_dns

# Some timeouts in milliseconds
tcp_read_time_out 15000
tcp_connect_time_out 8000

[ProxyList]
socks5 127.0.0.1 10123

- Il ne reste plus qu'à tester proxychains pour proxifier le flux de ma commande git. Pour ce test j'ai commenté l'instruction quiet_mode dans le fichier de configuration de proxychains

proxychains git pull git://git.kernel.org/pub/scm/linux/kernel/git/torvalds/linux-2.6.git master
ProxyChains-3.1 (http://proxychains.sf.net)
|S-chain|-<>-127.0.0.1:10123-<><>-130.239.17.8:9418-<><>-OK
From git://git.kernel.org/pub/scm/linux/kernel/git/torvalds/linux-2.6
* branch master -> FETCH_HEAD
Already up-to-date.

Comme on peux le voir on passe par le proxy socks local pour atteindre git.eu.kernel.org(130.239.17.8) sur le port git (9418)

Pour ceux qui veulent en savoir plus, le fonctionnement de proxychains est assez simple ainsi que son code (~ 1000 lignes). Il affecte à la variable d'environnement LD_PRELOAD le chemin de sa bibliothèque dynamique (libproxychains.so) surchargeant les fonctions réseaux de base que sont gethostbyaddr, getnameinfo, gethostbyname, connect

Télécharger vos patchs Oracle avec wget

2011-05-30T09:13:00.001-07:00

Vous l'avez peut être remarqué, mais Oracle vous donne à présent la possibilité de télécharger les archives en utilisant wget. Pour cela, il vous suffit de choisir "WGET options" après avoir cliqué sur download et ensuite de choisir download.sh pour récupérer le script. Enregistrer le sous le nom wget-oracle.sh.

Pour le faire fonctionner il vous reste à :

- entrer vos informations SSO, par exemple :
SSO_USERNAME=cscetbon@lesdatabases.com
SSO_PASSWORD=Waou000p
- commenter les instructions wget qui ne concernent pas les fichiers que vous désirez télécharger
- remplacer le ligne
WGET=/usr/bin/wget
par
WGET='/usr/bin/wget --user-agent="Mozilla/5.0" '
- ajouter en début de script l'instruction
export LANG=C
- rendre exécutable le script
chmod u+x wget-oracle.sh

Maintenant rendez vous dans un répertoire disposant d'assez d'espace pour télécharger vos archives et lancez la commande :
/le/chemin/que/vous/aurez/choisi/wget-oracle.sh

jointures et collate

2011-05-16T10:00:00.001-07:00

L'option COLLATE peut être utilisée dans l'ordre de création d'une table pour spécifier le comportement à observer sur les opérations liées à une colonne. Vous pouvez par exemple grâce à ce mot clé effectuer une recherche sur une chaîne de caractères en ne tenant pas compte des accents. Cependant, il est important de savoir que cela peut avoir un impact sur les performances de vos jointures SQL si vous n'utilisez le même COLLATE sur les colonnes servant à effectuer la jointure. Nous allons voir un exemple concret rencontré en production.
Cet exemple fait intervenir 2 tables dont une qui contient plus de 4 millions d'enregistrements :

mysql> SELECT count(*) FROM a1;
+----------+
| count(*) |
+----------+
| 4382124 |
+----------+
1 row in set (0.77 sec)

mysql> SELECT count(*) FROM a2;
+----------+
| count(*) |
+----------+
| 1 |
+----------+
1 row in set (0.00 sec)

La jointure des tables n'est pas très lente mais est exécutée des millions de fois, ce qui fait que le processus global durait une dizaine d'heure. Voici le plan d'exécution utilisé par MySQL :

Comme vous pouvez le voir, MySQL effectue un FULL SCAN de l'index (PK) de la table a1 qui contient ~ 4,4 Millions d'enregistrements. L'exécution de la requête dure 130ms.
En fait, ceci est dû au fait que les COLLATE des colonnes a2.pka2 et a1.pka1 sont différents

mysql> SELECT TABLE_NAME,COLUMN_NAME,CHARACTER_SET_NAME,COLLATION_NAME FROM information_schema.columns WHERE (TABLE_NAME='a1' and COLUMN_NAME='pka1') or (TABLE_NAME='a2' and COLUMN_NAME='pka2')\G
*************************** 1. row ***************************
TABLE_NAME: a1
COLUMN_NAME: pka1
CHARACTER_SET_NAME: ascii
COLLATION_NAME: ascii_bin
*************************** 2. row ***************************
TABLE_NAME: a2
COLUMN_NAME: pka2
CHARACTER_SET_NAME: latin1
COLLATION_NAME: latin1_swedish_ci
2 rows in set (0.00 sec)

Si on modifie le COLLATE de la colonne a2.pka2 pour qu'il soit celui de la colonne a1.pka1, MySQL n'a plus besoin de scanner entièrement l'index de la table a1.

Ceci a permis de ramener la durée du processus global à une vingtaine de minutes. Prenez donc garde à utiliser soigneusement la clause COLLATE, surtout quand vous effectuez des jointures !

Contraintes uniques et valeurs nulles

2011-02-27T02:13:00.001-08:00

Vous risquez d'être surpris si vous utiliser une contrainte d'unicité sur un groupe de colonnes qui peuvent être nulles. En effet, il faut savoir que la contrainte d'unicité différencie par défaut les valeurs nulles. Ainsi si vous créez la table suivante :

mysql> CREATE TABLE t1(id1 int,id2 int,id3 int);
Query OK, 0 rows affected (0.00 sec)

mysql> ALTER TABLE t1 ADD UNIQUE KEY (id1,id2,id3);
Query OK, 0 rows affected (0.00 sec)
Records: 0 Duplicates: 0 Warnings: 0

Vous pourrez ajouter les triplets (1,1,1), (1,2,1), (2,1,1) une seule fois. Par contre, vous pourrez ajouter autant de fois que vous le voulez les triplets (1,1,NULL), (1,NULL,1), (1,NULL,NULL), (NULL,NULL,NULL) etc...

mysql> INSERT INTO t1 VALUES(1,1,1);
Query OK, 1 row affected (0.00 sec)

mysql> INSERT INTO t1 VALUES(1,2,1);
Query OK, 1 row affected (0.00 sec)

mysql> INSERT INTO t1 VALUES(2,1,1);
Query OK, 1 row affected (0.00 sec)

mysql> INSERT INTO t1 VALUES(2,1,1);
ERROR 1062 (23000): Duplicate entry '2-1-1' for key 'id1'

mysql> INSERT INTO t1 VALUES(1,1,NULL);
Query OK, 1 row affected (0.00 sec)

mysql> INSERT INTO t1 VALUES(1,1,NULL);
Query OK, 1 row affected (0.00 sec)

mysql> INSERT INTO t1 VALUES(1,NULL,NULL);
Query OK, 1 row affected (0.00 sec)

mysql> INSERT INTO t1 VALUES(1,NULL,NULL);
Query OK, 1 row affected (0.00 sec)

mysql> INSERT INTO t1 VALUES(NULL,NULL,NULL);
Query OK, 1 row affected (0.00 sec)

mysql> INSERT INTO t1 VALUES(NULL,NULL,NULL);
Query OK, 1 row affected (0.00 sec)

Apparemment, MySQL respecte le SQL 2003 qui spécifie que les contraintes d'unicité ne s'appliquent que sur les valeurs non nulles, ce qui ne semble pas très intuitif quand on choisi ce type de contrainte. Oracle ne prend pas en compte cette considération et vérfie l'unicité sur l'ensemble des valeurs, ce que nombre de personnes auraient certainement voulu retrouver chez MySQL...

Pour plus d'information, vous pouvez lire le bug report 25544

Berkeley DB XML

2010-12-06T16:59:00.001-08:00

Berkeley DB XML est une surcouche à Berkeley DB qui permet d'hériter de toutes ses fonctionnalités pour le stockage de documents XML.

En plus du stockage, BDB XML apporte les fonctionnalités suivantes :
- Indexation des noeuds, des attributs et des metadata
- Indexation au niveau noeud ou document
- QueryPlan
- Xquery 1.0
- Possibilité d'ajouter/requêter des metadata associées aux documents
- Documents modifiables (remplacer un sous ensemble du document peut être plus rapide)
- Validation (Il est possible de fournir un schema xsd qui est vérifié à l'insertion d'un document)
- Compression zlib par défaut (personnalisable)

XQUERY (XML Query Language) est disponible pour effectuer des recherches/modifications/ajouts de documents XML.
Il s'appuie sur Xqilla (bibliothèque C++) pour effectuer le parsing des requêtes Xquery/XPath.
Xqilla utilise Xerces (bibliothèque C++) pour effectuer le parsing et la validation des documents XML.
XQuery supporte les «Expressions FLWOR» (For/Let/Where/Order/Return) qui permettent d'effectuer toute sorte de traitements sur les données comme les boucles, les tris, le filtrage.
Il n'est pas encore possible de grouper les données avec XQuery 1.0, mais cette fonctionnalité founie par XQuery 1.1 sera certainement supportée dans l'une des prochaines versions de Berkeley DB XML. Pour plus d'information, vous pouvez vous rendre sur http://www.w3.org/TR/xquery.

Voyons quelques exemples simples de traitements qu'il vous est possible d'effectuer avec le language XQuery (dans l'ensemble des exemples qui suivent, vous pouvez utiliser l'interpréteur dbxml) :

- Pour ajouter un document au container test.dbxml
dbxml -h /var/tmp/
dbxml>createContainer c1.dbxml
dbxml> put p1 '<person name="pignon" age="32" Taille="160" genre="M">Charles</person>'
dbxml> put p2 '<person age="31" Taille="190" genre="M">Cyril Scetbon</person>'

Pour mettre à jour la valeur de l'attribut age du noeud person dont la valeur de l'attribut name vaut pignon
- replace value of node collection('c1.dbxml')/person[@name='pignon']/@age with '54'

Pour récupérer à partir du container c1.dbxml la valeur du noeud person dont la valeur de l'attribut Taille est supérieur à 180 et dont la valeur de l'attribut genre vaut M
- collection("c1.dbxml")/person[@Taille>180 and genre="M"]/text()
Cyril Scetbon

Pour compter le nombre de valeur distinctes de l'attribut Taille de tous les noeuds person contenus dans le container c1.dbxml
- count(distinct-values(collection("cont2.dbxml")/person/@Taille))
3

Et voici d'autres exemples utilisant des expressions FLWOR :

Pour afficher les chiffres de 1 à 10
- for $c in 1 to 3 return $c
1
2
3

Pour afficher le nom de tous les auteurs (valeur de l'attribut name du noeud author des documents du container authors.dbxml) qui ont écrit le livre dont le titre est 'MySQL 5 Administration et Optimisation' (vérification en faisant une jointure entre les containers books.dbxml et authors.dbxml sur la relation [valeur de l'attribut id du noeud /author = valeur de l'attribut id du noeud /book/author])
-for $book in collection("books.dbxml")/book[title='MySQL 5 Administration et Optimisation']
for $author in collection("authors.dbxml")/author[@id=$book/author/@id]
order by $author/name
return <author>{$author/name/string()}</author>
<author>Stephane Combaudon</author>
<author>Olivier Dasini</author>
<author>Cyril Scetbon</author>

Pour afficher l'ensemble des noeuds person du container c2.dbxml pour lesquels la valeur de l'attribut Taille est supérieur à 180 en les insérant entre des balises <response> </response>
- for $p in collection("c2.dbxml")/person[@Taille>180]
order by $p/@Taille descending
return <response>{$p}</respoonse>
<person genre="F" Taille="185">Brigitte Nielsen</person>
<person genre="M" Taille="182">Cyril Scetbon</person>

Dans un prochain article, nous verrons comment créer des index et vérifier que nos requêtes les utilisent bien.

Mais où est mysqld_safe ?

2010-10-18T07:12:00.001-07:00

Vous l'aurez peut être remarqué, mais dans la distribution Lucid d'Ubuntu, mysqld_safe n'est plus présent.
Pour rappel, mysqld_safe est un script fourni avec MySQL pour lancer mysqld, le monitorer et le relancer s'il vient à mourir. C'est pourquoi lorsque mysqld_safe tourne, si vous arrêtez mysqld il est automatiquement relancé.
Cependant, il a disparu depuis la version mysqld 5.1.37 fournie dans la Lucid (la version actuelle étant la 5.1.41). Ceci ne veut cependant pas dire que le démon mysqld n'est plus monitoré afin d'être redémarré au cas où. En fait, c'est upstart qui est utilisé pour effectuer cette tâche.
Upstart , qui est un remplaçant du système sysvinit, s'occupe de démarrer et gérer les services au démarrage, ainsi que durant l'activité du système Linux. Des évènements sont déclenchés à l'arrêt ou démarrage de tâches et services et peuvent être captés par d'autres processus afin de déclencher des opérations.

Vous saurez maintenant qu'il n'y a pas à s'inquiéter sur un système Ubuntu où vous ne voyez pas de processus mysqld_safe tourne !

Rechercher des motifs dans une arborescence de code source

2010-08-23T01:42:00.001-07:00

J'ai découvert le soft global disponible dans les dépôt ubuntu et debian. Cet outil permet de tagger du code écrit en C, C++, Yacc, Java et PHP4, ce qui vous servira si vous voulez rechercher un pattern et par exemple modifier directement le fichier concerné.

Commençons par installer le produit sur un serveur ubuntu :

sudo apt-get install global
Lecture des listes de paquets... Fait
Construction de l'arbre des dépendances
Lecture des informations d'état... Fait
Paquets suggérés :
doxygen apache httpd id-utils
Les NOUVEAUX paquets suivants seront installés :
global
0 mis à jour, 1 nouvellement installés, 0 à enlever et 0 non mis à jour.
Il est nécessaire de prendre 532ko dans les archives.
Après cette opération, 1 323ko d'espace disque supplémentaires seront utilisés.
Réception de :1 http://mc.archive.ubuntu.com/ubuntu/ lucid/universe global 5.7.1-1 [532kB]
532ko réceptionnés en 0s (1 721ko/s)
Sélection du paquet global précédemment désélectionné.
(Lecture de la base de données... 197595 fichiers et répertoires déjà installés.)
Dépaquetage de global (à partir de .../global_5.7.1-1_amd64.deb) ...
Traitement des actions différées (« triggers ») pour « man-db »...
Traitement des actions différées (« triggers ») pour « install-info »...
Paramétrage de global (5.7.1-1) ...
Ignoring install-info called from maintainer script
The package global should be rebuilt with new debhelper to get trigger support

Récupérons les sources d'un projet (nous allons avoir besoin de git dans l'exemple)

apt-get install git-core
Reading package lists... Done
Building dependency tree
Reading state information... Done
The following extra packages will be installed:
libdigest-sha1-perl liberror-perl
Suggested packages:
git-doc git-arch git-cvs git-svn git-email git-daemon-run git-gui gitk gitweb
The following NEW packages will be installed:
git-core libdigest-sha1-perl liberror-perl
0 upgraded, 3 newly installed, 0 to remove and 48 not upgraded.
Need to get 5,673kB of archives.
After this operation, 11.9MB of additional disk space will be used.
Do you want to continue [Y/n]?
Get:1 http://us.archive.ubuntu.com/ubuntu/ lucid/main liberror-perl 0.17-1 [23.8kB]
Get:2 http://us.archive.ubuntu.com/ubuntu/ lucid/main libdigest-sha1-perl 2.12-1build1 [26.2kB]
Get:3 http://us.archive.ubuntu.com/ubuntu/ lucid/main git-core 1:1.7.0.4-1 [5,623kB]
Fetched 5,673kB in 1s (4,984kB/s)
Selecting previously deselected package liberror-perl.
(Reading database ... 32518 files and directories currently installed.)
Unpacking liberror-perl (from .../liberror-perl_0.17-1_all.deb) ...
Selecting previously deselected package libdigest-sha1-perl.
Unpacking libdigest-sha1-perl (from .../libdigest-sha1-perl_2.12-1build1_i386.deb) ...
Selecting previously deselected package git-core.
Unpacking git-core (from .../git-core_1%3a1.7.0.4-1_i386.deb) ...
Processing triggers for man-db ...
Setting up liberror-perl (0.17-1) ...
Setting up libdigest-sha1-perl (2.12-1build1) ...
Setting up git-core (1:1.7.0.4-1) ...

git clone http://github.com/Intel/wow.git
Initialized empty Git repository in /home/cyril/src-repo/git-repo/wow/.git/
remote: Counting objects: 5170, done.
remote: Compressing objects: 100% (4124/4124), done.
remote: Total 5170 (delta 1184), reused 4963 (delta 1009)
Receiving objects: 100% (5170/5170), 8.88 MiB | 2.89 MiB/s, done.
Resolving deltas: 100% (1184/1184), done.

cd wow/src

Pour indexer les fichiers nous utiliserons la commande gtags qui crée les fichiers GTAGS GPATH GRTAGS GSYMS utilisés par global pour nos futures recherches.Etant donné que le répertoire contient des fichiers autres que des fichiers sources c++ (.cpp et .h), on utilise la commande find pour les filtrer :

find . -name "*.cpp" -o -name "*.h"|gtags -v -f -
[Mon Aug 22 09:39:52 CEST 2010] Gtags started.
Using default configuration.
[Mon Aug 22 09:39:52 CEST 2010] Creating 'GTAGS'.
[1] extracting tags of tools/git_id/git_id.cpp
[2] extracting tags of tools/map_extractor/wdt.cpp
[3] extracting tags of tools/map_extractor/adt.cpp
[4] extracting tags of tools/map_extractor/loadlib.cpp
[5] extracting tags of tools/map_extractor/mpq_libmpq.cpp
[6] extracting tags of tools/map_extractor/wdt.h
[7] extracting tags of tools/map_extractor/adt.h
[8] extracting tags of tools/map_extractor/dbcfile.cpp
[9] extracting tags of tools/map_extractor/System.cpp
..
[1096/1099] extracting tags of server/shared/Threading/Threading.cpp
[1097/1099] extracting tags of server/shared/Threading/LockedQueue.h
[1098/1099] extracting tags of server/shared/Threading/Threading.h
[1099/1099] extracting tags of server/shared/Threading/DelayExecutor.cpp
[Mon Aug 22 09:40:18 CEST 2010] Done.

Tous les fichiers sont à présent indexés. On peut vérifier la taille des fichiers générés par gtags :

du -sh G*
280K    GPATH
3,2M    GRTAGS
6,6M    GSYMS
2,1M    GTAGS

Vous pouvez aussi choisir de les placer ailleurs, mais je vous laisse le faire en exercice. Ce qui est intéressant dans cet outil c'est qu'il est possible de rechercher la définition d'une fonction aussi simplement que :

global -x EndQuery
EndQuery 60 server/shared/Database/QueryResult.cpp void QueryResult::EndQuery()

On peut aussi vouloir rechercher les références à cette fonction dans le code :

global -rx EndQuery
EndQuery           37 server/shared/Database/QueryResult.cpp     EndQuery();
EndQuery           50 server/shared/Database/QueryResult.cpp         EndQuery();
EndQuery           59 server/shared/Database/QueryResult.h         void EndQuery();

Comme vous le voyez il est possible de faire des recherches intéressantes. Il est aussi possible d'utiliser des expressions régulières et de rechercher des motifs diverses :

global -gx mCurrentRow
mCurrentRow        28 server/shared/Database/QueryResult.cpp     mCurrentRow = new Field[mFieldCount];
mCurrentRow        29 server/shared/Database/QueryResult.cpp     ASSERT(mCurrentRow);
mCurrentRow        32 server/shared/Database/QueryResult.cpp          mCurrentRow[i].SetType(ConvertNativeType(fields[i].type));
mCurrentRow        55 server/shared/Database/QueryResult.cpp         mCurrentRow[i].SetValue(row[i]);
mCurrentRow        62 server/shared/Database/QueryResult.cpp     if (mCurrentRow)
mCurrentRow        64 server/shared/Database/QueryResult.cpp         delete [] mCurrentRow;
mCurrentRow        65 server/shared/Database/QueryResult.cpp         mCurrentRow = 0;
mCurrentRow        45 server/shared/Database/QueryResult.h         Field *Fetch() const { return mCurrentRow; }
mCurrentRow        47 server/shared/Database/QueryResult.h         const Field & operator [] (int index) const { return mCurrentRow[index]; }
mCurrentRow        53 server/shared/Database/QueryResult.h         Field *mCurrentRow;

Reportez vous à la documentation pour en savoir plus. Dernier outil que je trouve très intéressant est le wrapper globash qui permet en plus de se promener directement dans les fichiers à partir des résultats obtenus. Pour cela, lancez la commande globash et acceptez de créer le répertoire .globash lors du premier lancement :

globash

GloBash --- Global facility for Bash

GloBash needs working directory.

Create '/home/cyril/.globash'? ([y]/n) y

Created.

Welcome to Globash! When you need help, please type 'ghelp'.

Vous pouvez ensuite utiliser les mêmes commandes mais sans l'option x qui est activée par défaut :

[/home/cyril/src-repo/git-repo/wow/src] g mCurrentRow
>    1    mCurrentRow        28 server/shared/Database/QueryResult.cpp     mCurrentRow = new Field[mFieldCount];
     2    mCurrentRow        29 server/shared/Database/QueryResult.cpp     ASSERT(mCurrentRow);
     3    mCurrentRow        32 server/shared/Database/QueryResult.cpp          mCurrentRow[i].SetType(ConvertNativeType(fields[i].type));
     4    mCurrentRow        55 server/shared/Database/QueryResult.cpp         mCurrentRow[i].SetValue(row[i]);
     5    mCurrentRow        62 server/shared/Database/QueryResult.cpp     if (mCurrentRow)
     6    mCurrentRow        64 server/shared/Database/QueryResult.cpp         delete [] mCurrentRow;
     7    mCurrentRow        65 server/shared/Database/QueryResult.cpp         mCurrentRow = 0;
     8    mCurrentRow        45 server/shared/Database/QueryResult.h         Field *Fetch() const { return mCurrentRow; }
     9    mCurrentRow        47 server/shared/Database/QueryResult.h         const Field & operator [] (int index) const { return mCurrentRow[index]; }
    10    mCurrentRow        53 server/shared/Database/QueryResult.h         Field *mCurrentRow;

Vous pouvez lister à nouveau les résultats obtenus :

[/home/cyril/src-repo/git-repo/wow/src] list
>    1    mCurrentRow        28 server/shared/Database/QueryResult.cpp     mCurrentRow = new Field[mFieldCount];
     2    mCurrentRow        29 server/shared/Database/QueryResult.cpp     ASSERT(mCurrentRow);
     3    mCurrentRow        32 server/shared/Database/QueryResult.cpp          mCurrentRow[i].SetType(ConvertNativeType(fields[i].type));
     4    mCurrentRow        55 server/shared/Database/QueryResult.cpp         mCurrentRow[i].SetValue(row[i]);
     5    mCurrentRow        62 server/shared/Database/QueryResult.cpp     if (mCurrentRow)
     6    mCurrentRow        64 server/shared/Database/QueryResult.cpp         delete [] mCurrentRow;
     7    mCurrentRow        65 server/shared/Database/QueryResult.cpp         mCurrentRow = 0;
     8    mCurrentRow        45 server/shared/Database/QueryResult.h         Field *Fetch() const { return mCurrentRow; }
     9    mCurrentRow        47 server/shared/Database/QueryResult.h         const Field & operator [] (int index) const { return mCurrentRow[index]; }
    10    mCurrentRow        53 server/shared/Database/QueryResult.h         Field *mCurrentRow;

Mieux encore, vous pouvez demander à vous rendre directement à la ligne du fichier concerné (cela s'appuie sur la définition de la variable EDITOR)

[/home/cyril/src-repo/git-repo/wow/src] show 2
[/home/cyril/src-repo/git-repo/wow/src] l
    1    mCurrentRow        28 server/shared/Database/QueryResult.cpp     mCurrentRow = new Field[mFieldCount];
>     2    mCurrentRow        29 server/shared/Database/QueryResult.cpp     ASSERT(mCurrentRow);
     3    mCurrentRow        32 server/shared/Database/QueryResult.cpp          mCurrentRow[i].SetType(ConvertNativeType(fields[i].type));
     4    mCurrentRow        55 server/shared/Database/QueryResult.cpp         mCurrentRow[i].SetValue(row[i]);
     5    mCurrentRow        62 server/shared/Database/QueryResult.cpp     if (mCurrentRow)
     6    mCurrentRow        64 server/shared/Database/QueryResult.cpp         delete [] mCurrentRow;
     7    mCurrentRow        65 server/shared/Database/QueryResult.cpp         mCurrentRow = 0;
     8    mCurrentRow        45 server/shared/Database/QueryResult.h         Field *Fetch() const { return mCurrentRow; }
     9    mCurrentRow        47 server/shared/Database/QueryResult.h         const Field & operator [] (int index) const { return mCurrentRow[index]; }
    10    mCurrentRow        53 server/shared/Database/QueryResult.h         Field *mCurrentRow;

Vous pouvez taper exit pour sortir ou ghelp pour en savoir plus.

Cet outil est vraiment très rapide pour indexer le contenu et très utile avec son wrapper pour se balader directement dans les fichiers et effectuer des modifications si nécessaire. N'oubliez pas bien sûr de rafraîchir le contenu indexé ensuite en ajoutant -i à la commande initiale pour activer l'indexation incrémentale (Vous pouvez bien sûr retirer l'option -v qui active le mode verbeux) :

find . -name "*.cpp" -o -name "*.h"|gtags -i -v -f -
checking /home/cyril/src-repo/git-repo/wow/src/GTAGS
GTAGS found at '/home/cyril/src-repo/git-repo/wow/src/GTAGS'.
[Mon Aug 22 10:08:12 CEST 2010] Gtags started.
Using default configuration.
Tag found in '/home/cyril/src-repo/git-repo/wow/src'.
Incremental update.
Global databases are up to date.
[Mon Aug 22 10:08:12 CEST 2010] Done.

Je m'étais aussi intéressé à l'outil gonzui qui est aussi disponible sous forme de paquet et s'appuie sur BerkeleyDB pour stocker ses tags. Cependant, cet outil est beaucoup plus lent que global à l'indexation puisque que l'on passe de 3 à 130 secondes, et aussi lors des recherches sur des expressions régulières. Il ne dispose pas d'un wrapper semblable à globash qui est sans nul doute très utile lorsqu'il faut débugger, et occupe nécessite beaucoup plus de places que global (167 Mo contre 13 Mo).

Voilà, j'espère que ce billet vous sera utile dans vos prochaines investigations sur du code concernant les bases de données ou autres, mais comme vous avez pu le remarquer j'ai sciemment cherché un exemple dans la branche database :)

Berkeley DB 5.0.26

2010-08-05T10:23:00.001-07:00

Pour ceux qui ne connaissent pas Berkeley DB (BDB), ou qui en ont vaguement entendu parler, sachez que si vous êtes sous un système opensource, vous avez de grande chances d'utiliser BDB sans même le savoir.

Par exemple, si vous utilisez pidgin ou evolution vous utilisez BDB :

~$ lsof -n|grep 'libdb-'|awk '{print $1," ",$9}'|sort|uniq
evolution /usr/lib/libdb-4.8.so
pidgin /usr/lib/libdb-4.8.so

Je peux par exemple voir sur mon système le nombre de paquets qui ont déclaré dépendre de BDB :

~$ apt-cache rdepends libdb4.8| wc -l
96

On peut aussi en voir un aperçu :

~$ apt-cache rdepends libdb4.8| head
libdb4.8
Reverse Depends:
squidguard
libapache2-mod-php5filter
php5-cli
php5-cgi
openoffice.org-core
libpam-modules
libedata-cal1.2-6
libedata-book1.2-2

Et encore ce ne sont que les paquets qui l'ont déclaré ! Tout ça pour vous dire que BDB est indispensable à tout système open-source qui se respecte. Mais qu'est-ce que BDB ?

BDB est une bibliothèque permettant d'opérer sur des données (stockage, modification, recherche) et que l'on lie à une application pour lui fournir ce type de service. L'application peut être codée en utilisant des languages différents (JAVA, C++, C, Perl, PHP, Python, etc...) et choisi la structure la plus adaptée à ses données parmi les types Btree, Hash, Queue et Recno. (Vous pouvez consulter la documentation pour en savoir un peu plus sur ces différents types).

BDB supporte les transactions ACID, le multithreading et le multiprocessing, l'encryptage de l'environnement (répertoire stockant les données), l'indexation, les sauvegardes à chaud et la récupération des données en cas de crash (grâce à la journalisation des transactions), ainsi que la replication maître/esclaves !

Sachez qu'il est possible de configurer les environnements participant à un groupe de réplication de sorte que les rôles de maître/esclaves soient redistribués (failover) en cas d'erreur sur le maître ou au niveau du canal de communication. Il est à noter que pour utiliser la réplication il est nécessaire de développer du code c, c++ ou java :(
Oracle qui a racheté la société Sleepycat Software propriétaire de BDB en février 2006 annonce une capacité de stockage en teraoctets et des milliards d'enregistrements !!

Cette bibliothèque est disponible sous 2 licences :

commerciale
GPL (celle qui vous permet de l'utiliser sur votre système opensource)

Il est à noter qu'étant une bibliothèque, il n'y a pas de serveur de données. l'application accède et manipule directement les fichiers physiques grâce au code de la bibliothèque BDB. De même, ce n'est pas un RDBMS (relational database management system) ne supportant pas les relations entre les données stockées.

Dans un prochain article je vous montrerai comment installer et utiliser rapidement un environnement BDB XML. Soyez patients ...

Un livre MySQL à acquérir

2010-06-24T06:34:00.001-07:00

Après 6 bons mois de rédactions, d'échanges de mails et de relectures, je vous annonce la sortie d'un nouveau livre sur MySQL 5 en français :
MySQL5, Administration et optimisation

Il reprend et explique tous les points propres à l'administration (configuration, mise à jour, sauvegardes/restaurations, maintenance, sécurité, ..) et à l'optimisation (nouvelles fonctionnalités, systèmes de caches, indexation, tuning, ..) en rendant abordables des concepts complexes.

En attendant de vous le procurer, vous pouvez consulter la TDM_MySQL5_Admin_Optim et un Extrait_MySQL5_Admin_Optim consacré aux verrous et transactions.

Inutile de vous dire que le livre est disponible dans toutes les bonnes librairies informatiques (FNAC, Amazon, ...). Pensez donc à vous le procurer pour l'étudier pendant vos vacances !

MySQL Cluster impose des limites aux méta-données

2010-05-03T09:33:00.001-07:00

Lorsque vous mettez en place une configuration MySQL Cluster, ayez à l'esprit que celui-ci impose par défaut des limites aux méta-données. Vous ne pourrez donc pas créer autant de tables, d'index, de colonnes que vous le désirez sans modifier sa configuration. Il est possible de le faire plus tard, mais cela nécessitera d'effectuer un rolling restart (un redémarrage de l'ensemble des composants du cluster).
Voici les quelques paramètres qu'il faudra modifier selon les besoins de votre cluster (les valeurs par défaut sont indiquées entre parenthèses) :

- MaxNoOfAttributes fixe le nombre maximum de colonnes pouvant être créées au total dans l'ensemble des tables stockées (1000)
- MaxNoOfOrderedIndexes fixe le nombre maximum d'index ordonnés (128)
- MaxNoOfUniqueHashIndexes, comme le précédent mais pour les index uniques (64)
- MaxNoOfTables fixe le nombre maximum de tables (128)

Vous pourrez donc modifier la section [NDBD DEFAULT] de votre fichier de configuration ndb_mgmd.cnf et y ajouter la configuration suivante par exemple :

MaxNoOfAttributes=10000
MaxNoOfOrderedIndexes=3000
MaxNoOfUniqueHashIndexes=1500
MaxNoOfTables=1000

Pour plus d'information, vous pouvez visiter la documentation en ligne à l'adresse http://dev.mysql.com/doc/mysql-cluster-excerpt/5.1/en/mysql-cluster-mgm-definition.html

Vous ne pourrez pas dire que vous n'avez pas été prévenu :)

2 bases exemple pour MySQL

2010-03-26T10:17:00.000-07:00

Sur le site de MySQL vous pouvez télécharger les bases sakila et world afin de vous familiariser avec le SGBD.
Pour installer ces 2 bases sur votre serveur sous Ubuntu, suivez la procédure suivante :

sudo wget -c http://downloads.mysql.com/docs/sakila-db.tar.gz
sudo tar Ozvxf sakila-db.tar.gz sakila-db/sakila-schema.sql|sudo mysql --defaults-file=/etc/mysql/debian.cnf
sudo tar Ozvxf sakila-db.tar.gz sakila-db/sakila-data.sql|sudo mysql --defaults-file=/etc/mysql/debian.cnf sakila

sudo wget http://downloads.mysql.com/docs/world.sql.gz
sudo mysql --defaults-file=/etc/mysql/debian.cnf -e 'CREATE DATABASE world'
sudo zcat world.sql.gz|sudo mysql --defaults-file=/etc/mysql/debian.cnf world

Voila vos 2 bases sont créées et prêtes à être utilisées :

sudo mysql --defaults-file=/etc/mysql/debian.cnf
Welcome to the MySQL monitor. Commands end with ; or \g.
Your MySQL connection id is 46
Server version: 5.1.37-1ubuntu5.1 (Ubuntu)

Type 'help;' or '\h' for help. Type '\c' to clear the current input statement.

mysql> SELECT count(*) TABLES, table_schema,
-> concat(round(sum(table_rows)/1000000,2),'M') rows,
-> concat(round(sum(data_length)/(1024*1024),2),'M') DATA,
-> concat(round(sum(index_length)/(1024*1024),2),'M') idx,
-> concat(round(sum(data_length+index_length)/(1024*1024),2),'M') total_size,
-> round(sum(index_length)/sum(data_length),2) idxfrac
-> FROM information_schema.TABLES
-> WHERE table_schema IN ('sakila','world')
-> GROUP BY table_schema;
+--------+--------------------+-------+--------+-------+------------+---------+
| TABLES | table_schema | rows | DATA | idx | total_size | idxfrac |
+--------+--------------------+-------+--------+-------+------------+---------+
| 23 | sakila | 0.05M | 4.10M | 2.52M | 6.62M | 0.62 |
| 3 | world | 0.01M | 0.36M | 0.07M | 0.43M | 0.19 |
+--------+--------------------+-------+--------+-------+------------+---------+
2 rows in set (0,03 sec)

mysql> exit
Bye

Pour en savoir plus sur ces 2 bases vous pouvez vous rendre sur le site web de MySQL aux adresses http://dev.mysql.com/doc/sakila/en/sakila.html et http://dev.mysql.com/doc/world-setup/en/world-setup.html

A vous de jouer !

MySQL Cluster 7.1

2010-02-18T01:02:00.003-08:00

La version 7.1 du moteur de stockage NDB n'est pas encore sortie mais on peut déjà savoir quelles seront les prochaines nouveautés non garanties pour le moment :

- Deux nouveaux connecteurs JAVA

ClusterJ et ClusterJPA permettent d'accéder au cluster MySQL sans utiliser de serveur MySQL (ni JDBC) ou pour le second de passer ou non par un serveur MySQL si la requête exécutée peut être améliorée par l'optimiseur MySQL.

Cette base permet d'accéder à des informations tel que la mémoire utilisée (table memoryusage), le statut des noeuds (table nodes), etc... nécessitant auparavant l'utilisation des commandes ALL DUMP {CODE}

- Une nouvelle base de données nommé ndbinfo

Cette base permet d'accéder à des informations tel que la mémoire utilisée (table memoryusage), le statut des noeuds (table nodes), etc... nécessitant auparavant l'utilisation des commandes ALL DUMP {CODE}

- Le support natif des valeurs par défaut des colonnes

Les valeurs par défaut des colonnes sont à présent stockées dans le noyau NDB et non par le serveur MySQL. Ceci permet au serveur MySQL de ne plus avoir à transférer ces données aux noeuds et donc potentiellement d'accélérer les requêtes d'insertions

- Une nouvelle option (--nowait-nodes) pour les managers

Cette option permet de ne plus avoir besoin de démarrer plus d'un manager pour démarrer un cluster configuré avec plusieurs managers.

Pour suivre l'évolution de ces fonctionnalités n'hésitez pas à consulter la page dédiée.

Récupérez les dernières versions de MySQL Cluster 7.X

2010-02-18T01:02:00.001-08:00

Nous avons déjà vu dans un billet précédent les nouveautés de la version 7.0 (ancienne 6.4 renommée).

Il est cependant important de pouvoir vérifier l'arrivée des nouvelles versions sur le dépot officiel, et pourquoi pas de les récupérer pour les tester. Pour cela voici les commandes que j'utilise :

- Pour vérifier l'arrivée de nouvelles versions, je m'appuie sur les dates de création des répertoires

export LANG=C
wget -O - -q ftp://ftp.mysql.com/pub/mysql/download/cluster_telco/|grep Directory|awk -FDirectory '!/old/ {print $1}'|perl -MDate::Manip -lne 'if(Date_Cmp(ParseDate($_),ParseDate("2010 Feb 15 21:27"))>0){print "Nouvelle version disponible !";exit}'

- Pour récupérer les nouvelles versions disponibles j'utilise l'alias mirror_mysql_cge que j'ai défini ainsi :

alias mirror_mysql_cge='(cd /var/www && wget -nH --cut-dirs 3 -rc -R "mysqlcom*" -A "*-7.*.gz" --exclude-directories=/pub/mysql/download/cluster_telco/old,/pub/mysql/download/cluster_telco/newbuilds,/pub/mysql/download/cluster_telco/*-6.*,/pub/mysql/download/cluster_telco/*/*-6.*,/pub/mysql/download/cluster_telco/evaluation* ftp://ftp.mysql.com/pub/mysql/download/cluster_telco/)'

A chaque récupération de nouvelles archives il est cependant obligatoire de modifier la date utilisée dans la commande wget pour repérer la dernière archive récupérée. Pour obtenir cette date, la commande suivante sera d'un grand secours :

export LANG=C
wget -O - -q ftp://ftp.mysql.com/pub/mysql/download/cluster_telco/|grep Directory|awk -FDirectory '!/old/ {if(index($1,":")){print $1}}'| tr '\n' , |sed 's/,$//'|perl -MDate::Manip -MMemoize -lne 'sub sortDate {(Date_Cmp(ParseDate($a),ParseDate($b)))} print [reverse sort sortDate split(",",$_)]->[0]'

Ainsi je retrouverai toutes les versions 7.X sous l'arborescence /var/www/cluster_telco

Nouvelles fonctionnalités dans le partitionnement de MySQL 5.5

2010-01-04T07:11:00.001-08:00

Etant donné que cela fait un long moment que je n'ai pas bloggé je vais tenter de me rattrapper un peu :)

Je me suis penché sur l'une des nouvelles fonctionnalités de MySQL 5.5 concernant le partitionnement multi-colonnes en mode RANGE sur des types qui ne sont plus limités à l'entier.

En effet, il est possible de partitionner une table t1 sur 2 colonnes comme suit :

CREATE TABLE t1 (
valeur TINYINT UNSIGNED NOT NULL,
quand DATE NOT NULL,
libelle varchar(120)
)
PARTITION BY RANGE COLUMNS(valeur,quand) (
PARTITION p0 VALUES LESS THAN (10,'2006-10-02'),
PARTITION p1 VALUES LESS THAN (10,'2008-04-12'),
PARTITION p2 VALUES LESS THAN (100,MAXVALUE),
PARTITION p3 VALUES LESS THAN (MAXVALUE,MAXVALUE)
);

Cependant l'algorithme qui répartit les données sur les différentes partitions créées n'est pas si intuitif que cela. Ainsi, j'imaginais dans un premier temps que l'enregistrement (100,'2005-10-02') ne pouvait se retrouver dans la partition p2 car 100 n'est pas inférieur à 100 ! En effet, je pensais que l'opérator LESS THAN sur un couple sous entendait que pour qu'un enregistrement (valeur,quand,libelle) appartienne à la partition p0 il fallait que valeur<10 et quand<'2006-10-02'.
Or ce n'est pas le cas, la preuve :

mysql> SELECT IF(10<10,'TRUE','FALSE'),IF('2005-10-02'<'2006-10-02','TRUE','FALSE'),IF((10,'2005-10-02')<(10,'2006-10-02'),'TRUE','FALSE')\G
*************************** 1. row ***************************
IF(10<10,'TRUE','FALSE'): FALSE
IF('2005-10-02'<'2006-10-02','TRUE','FALSE'): TRUE
IF((10,'2005-10-02')<(10,'2006-10-02'),'TRUE','FALSE'): TRUE

Il faut dire qu'entre la documentation officielle qui a été corrigée (BUG 49875) suite à mon premier BUG 49861, et l'article de Giuseppe Maxia qui affirmait que si toutes les premières valeurs des listes de colonnes assignées aux partitions étaient différentes alors le partitionnement était identique au partitionnement sur cette seule colonne (corrigé depuis) j'ai un peu perdu la tête...

Cependant, cette histoire a bien fait de débuter puisqu'elle a débouché sur la correction de la documentation officielle, la correction d'un article avancé sur les nouveautés de la 5.5 concernant le partitionnement et sur la remise en cause des mots clés LESS THAN dans ce type de partitionnement avec une proposition de remplacement par NO GREATER THAN ou RANGE BOUNDED BY.

Nous verrons bien ce qu'il se passera dans les semaines à venir.

Upgrade MySQL Cluster 6.3 vers 7.0 pas si online que ça !

2009-08-03T08:59:00.001-07:00

Ne vous fiez pas tout le temps à la documentation MySQL car il se peut que vous rencontriez soit un BUG fonctionnel, soit un BUG documentaire, c'est à dire que le support vous signale qu'en fait le comportement rencontré est normal et que la documentation va tout simplement être mise à jour.

C'est pourquoi, préparant un upgrade de MySQL Cluster 6.3 vers MySQL 7.0.6, j'ai préféré tester la procédure, étape qui de toutes les façons est primordiale. Ce fut l'occasion de m'apercevoir que la mise à jour se déroule correctement mais qu'il n'est plus possible d'effectuer des ordres DDL (ALTER TABLE, CREATE TABLE, etc...) ou d'effectuer une sauvegarde binaire en utilisant la console ndb_mgm. Pour information, j'ai ouvert un bug report au support accessible sur http://bugs.mysql.com/bug.php?id=46494.
En attendant, la seule méthode viable pour mettre à jour le cluster est de démarrer les noeuds en mode "initial", étape qui vide tous les fichiers et recrée les logs de récupération, et recharger les données à partir d'un dump MySQL. Vous l'aurez compris cela demande donc un arrêt de service puisque les données du cluster ne seront plus accessibles avant que le chargement des données ne soit terminé.

2 managers ndb_mgmd dans une config MySQL Cluster

2009-05-26T05:49:00.003-07:00

Lorsque l'on modifie des paramètres de mémoire ou autres qui ne nécessitent pas de recréer le cluster, contrairement au nombre de noeuds pour les versions du moteur NDB < 7.0, il est nécessaire de faire un Rolling Restart. Cependant, dans le cas d'une configuration à plusieurs managers il est nécessaire de tous les arrêter au même moment. Ceci est dû au fait que tant qu'un manager est actif c'est sa configuration qui prime. L'impact est que le redémarrage tour à tour des managers entraînera la conservation de l'ancienne configuration de départ, ce qui n'est pas le résultat attendu.

Index et valeurs nulles

2009-05-12T08:54:00.001-07:00

Une différence importante entre MySQL et Oracle est l'indexation. En effet, Oracle n'indexe pas les données entièrement nulles. Par entièrement cela signifie que si vous indexez 2 colonnes, le couple null ne sera pas stocké dans l'index et cela a son importance !

Par exemple, si nous utilisons le schema SCOTT pour tenter d'utiliser un index sur une colonne pouvant être nulle :

SQL> select * from emp;

EMPNO ENAME JOB MGR HIREDATE SAL COMM DEPTNO
---------- ---------- --------- ---------- --------- ---------- ---------- ----------
7369 SMITH CLERK 7902 17-DEC-80 800 20
7499 ALLEN SALESMAN 7698 20-FEB-81 1600 300 30
7521 WARD SALESMAN 7698 22-FEB-81 1250 500 30
7566 JONES MANAGER 7839 02-APR-81 2975 20
7654 MARTIN SALESMAN 7698 28-SEP-81 1250 1400 30
7698 BLAKE MANAGER 7839 01-MAY-81 2850 30
7782 CLARK MANAGER 7839 09-JUN-81 2450 10
7788 SCOTT ANALYST 7566 19-APR-87 3000 20
7839 KING PRESIDENT 17-NOV-81 5000 10
7844 TURNER SALESMAN 7698 08-SEP-81 1500 0 30
7876 ADAMS CLERK 7788 23-MAY-87 1100 20
7900 JAMES CLERK 7698 03-DEC-81 950 30
7902 FORD ANALYST 7566 03-DEC-81 3000 20
7934 MILLER CLERK 7782 23-JAN-82 1300 10

14 rows selected.

SQL> create index idx_emp_ename on emp(ename);

Index created.

SQL> set autotrace trace explain
SQL> select 1 from emp where ename is null;

Execution Plan
----------------------------------------------------------
Plan hash value: 3956160932

--------------------------------------------------------------------------
| Id | Operation | Name | Rows | Bytes | Cost (%CPU)| Time |
--------------------------------------------------------------------------
| 0 | SELECT STATEMENT | | 1 | 7 | 3 (0)| 00:00:01 |
|* 1 | TABLE ACCESS FULL| EMP | 1 | 7 | 3 (0)| 00:00:01 |
--------------------------------------------------------------------------

Predicate Information (identified by operation id):
---------------------------------------------------

1 - filter("ENAME" IS NULL)

Oracle décide donc d'effectuer un FULL SCAN de la table car la donnée nulle ne pouvant être stockée dans un index il est nécessaire de parcourir la table entièrement. Ce qui n'est pas le cas si on index une colonne supplémentaire non nulle (le couple ne sera dans ce cas jamais nul)

SQL> create index idx_emp_ename_1 on emp(ename,1);

Index created.

SQL> select 1 from emp where ename is null;

Execution Plan
----------------------------------------------------------
Plan hash value: 2365361045

------------------------------------------------------------------------------------
| Id | Operation | Name | Rows | Bytes | Cost (%CPU)| Time |
------------------------------------------------------------------------------------
| 0 | SELECT STATEMENT | | 1 | 7 | 1 (0)| 00:00:01 |
|* 1 | INDEX RANGE SCAN| IDX_EMP_ENAME_1 | 1 | 7 | 1 (0)| 00:00:01 |
------------------------------------------------------------------------------------

Predicate Information (identified by operation id):
---------------------------------------------------

1 - access("ENAME" IS NULL)

On peut donc en déduire l'importance de rajouter la contrainte not null quand vous savez que ce champ ne peut être null. En effet, un count(*) pourra dans ce cas effectuer un INDEX FULL SCAN sachant qu'aucune donnée ne peut être nulle et donc il n'y a aucune entrée qui manque dans l'index.

Contrairement à Oracle, MySQL stocke aussi les valeurs nulles dans ses index comme l'indique la colonne NULL dans la sortie de la commande "SHOW INDEX FROM MATABLE". Ainsi si l'on recherche le nombre d'entrée nulles d'une table, MySQL utilisera l'index disponible :

mysql [localhost] {msandbox} (test) > explain select count(*) from t3 where id is null;
+----+-------------+-------+------+---------------+------+---------+-------+------+--------------------------+
| id | select_type | table | type | possible_keys | key | key_len | ref | rows | Extra |
+----+-------------+-------+------+---------------+------+---------+-------+------+--------------------------+
| 1 | SIMPLE | t3 | ref | id | id | 5 | const | 100 | Using where; Using index |
+----+-------------+-------+------+---------------+------+---------+-------+------+--------------------------+
1 row in set (0.00 sec)

mysql [localhost] {msandbox} (test) > show index from t3;
+-------+------------+----------+--------------+-------------+-----------+-------------+----------+--------+------+------------+---------+
| Table | Non_unique | Key_name | Seq_in_index | Column_name | Collation | Cardinality | Sub_part | Packed | Null | Index_type | Comment |
+-------+------------+----------+--------------+-------------+-----------+-------------+----------+--------+------+------------+---------+
| t3 | 1 | id | 1 | id | A | 1 | NULL | NULL | YES | BTREE | |
+-------+------------+----------+--------------+-------------+-----------+-------------+----------+--------+------+------------+---------+
1 row in set (0.00 sec)

De la même manière il est important d'ajouter la contrainte NOT NULL si le champ ne sera jamais nul, ce qui permet à MySQL d'effectuer certaines optimisations et d'économiser un bit par enregistrement.

Blogged with the Flock Browser

MySQL Conference 2009

2009-04-28T08:44:00.001-07:00

La 7ème conférence MySQL co-présentée par SUN, MySQL et Oreilly a eu lieu du 20 avril au 23 avril 2009 à Santa Clara. Pour les heureux participants ils ont eu droit à un ensemble assez impressionnant de sessions. Bien sûr, impossible de toutes les suivre, puisqu'un grand nombre d'entre elles étaient dispensées en parallèle. Cependant, nous avons la chance de pouvoir accéder aux slides de certaines dont les auteurs ont eu l'amabilité de les mettre à disposition sur mysqlconf.

Bonne lecture.

Blogged with the Flock Browser

Oracle rachète SUN

2009-04-20T10:49:00.001-07:00

En janvier 2008, SUN rachetait MySQL AB pour 1 milliard de $. Eh bien, aujourd'hui Oracle a annoncé sur son site avoir accepté de racheter SUN pour 7 milliards de dollars. Il va falloir à nouveau s'interroger sur les conséquences, bonnes comme mauvaises, que cela pourra avoir pour les utilisateurs de MySQL.

Blogged with the Flock Browser

Perl 5.10 optimise le moteur d'expressions régulières

2009-04-19T05:55:00.001-07:00

Une des nouvelles fonctionnalités de la 5.10 est l'utilisation d'algorithmes tels que Aho-Corasick et Trie (prefix tree) dans le moteur d'expressions régulières. Ainsi la recherche d'alternatives comme le pattern alt1|alt2|alt3|alt4|altN aura une complexité en 0(1) et non plus en 0(N) avec N le nombre d'alternatives. Pour s'en convaincre, rien de mieux qu'un benchmarck entre les versions 5.8 et 5.10. Pour cela j'ai écrit un petit bout de code que vous pouvez récupérer ici.
J'utilise le module Regexp::Trie de Dan Kogai qui permet d'optimiser la recherche d'alternatives ayant un suffixe (ou une partie) en commun

Les résultats obtenus sont les suivants :

a -> sans utilisation du module Regexp::Trie
b -> avec utilisation du module Regexp::Trie

Perl 5.8 :

perl bench_with_tries.pl
Rate a b
a 552/s -- -98%
b 26050/s 4620% --

Perl 5.10 :

perl bench_with_tries.pl
Rate a b
a 20177/s -- -65%
b 57777/s 186% --

On voit bien qu'en version 5.8 l'utilisation du module de Dan Kogai permet de multiplier par plus de 40 les performances, contrairement en 5.10 où les performances de base sont déjà satisfaisantes avec plus de 20 000 exécutions par seconde. Cependant, il est toujours utile d'utiliser ce module en 5.10 puisqu'on obtient près de 3 fois plus de performance.

Blogged with the Flock Browser