lundi 23 août 2010

Rechercher des motifs dans une arborescence de code source

J'ai découvert le soft global disponible dans les dépôt ubuntu et debian. Cet outil permet de tagger du code écrit en C, C++, Yacc, Java et PHP4, ce qui vous servira si vous voulez rechercher un pattern et par exemple modifier directement le fichier concerné.

Commençons par installer le produit sur un serveur ubuntu :

sudo apt-get install global
Lecture des listes de paquets... Fait
Construction de l'arbre des dépendances      
Lecture des informations d'état... Fait
Paquets suggérés :
  doxygen apache httpd id-utils
Les NOUVEAUX paquets suivants seront installés :
  global
0 mis à jour, 1 nouvellement installés, 0 à enlever et 0 non mis à jour.
Il est nécessaire de prendre 532ko dans les archives.
Après cette opération, 1 323ko d'espace disque supplémentaires seront utilisés.
Réception de :1 http://mc.archive.ubuntu.com/ubuntu/ lucid/universe global 5.7.1-1 [532kB]
532ko réceptionnés en 0s (1 721ko/s)
Sélection du paquet global précédemment désélectionné.
(Lecture de la base de données... 197595 fichiers et répertoires déjà installés.)
Dépaquetage de global (à partir de .../global_5.7.1-1_amd64.deb) ...
Traitement des actions différées (« triggers ») pour « man-db »...
Traitement des actions différées (« triggers ») pour « install-info »...
Paramétrage de global (5.7.1-1) ...
Ignoring install-info called from maintainer script
The package global should be rebuilt with new debhelper to get trigger support

Récupérons les sources d'un projet (nous allons avoir besoin de git dans l'exemple)

apt-get install git-core
Reading package lists... Done
Building dependency tree      
Reading state information... Done
The following extra packages will be installed:
  libdigest-sha1-perl liberror-perl
Suggested packages:
  git-doc git-arch git-cvs git-svn git-email git-daemon-run git-gui gitk gitweb
The following NEW packages will be installed:
  git-core libdigest-sha1-perl liberror-perl
0 upgraded, 3 newly installed, 0 to remove and 48 not upgraded.
Need to get 5,673kB of archives.
After this operation, 11.9MB of additional disk space will be used.
Do you want to continue [Y/n]?
Get:1 http://us.archive.ubuntu.com/ubuntu/ lucid/main liberror-perl 0.17-1 [23.8kB]
Get:2 http://us.archive.ubuntu.com/ubuntu/ lucid/main libdigest-sha1-perl 2.12-1build1 [26.2kB]
Get:3 http://us.archive.ubuntu.com/ubuntu/ lucid/main git-core 1:1.7.0.4-1 [5,623kB]
Fetched 5,673kB in 1s (4,984kB/s)  
Selecting previously deselected package liberror-perl.
(Reading database ... 32518 files and directories currently installed.)
Unpacking liberror-perl (from .../liberror-perl_0.17-1_all.deb) ...
Selecting previously deselected package libdigest-sha1-perl.
Unpacking libdigest-sha1-perl (from .../libdigest-sha1-perl_2.12-1build1_i386.deb) ...
Selecting previously deselected package git-core.
Unpacking git-core (from .../git-core_1%3a1.7.0.4-1_i386.deb) ...
Processing triggers for man-db ...
Setting up liberror-perl (0.17-1) ...
Setting up libdigest-sha1-perl (2.12-1build1) ...
Setting up git-core (1:1.7.0.4-1) ...

git clone http://github.com/Intel/wow.git
Initialized empty Git repository in /home/cyril/src-repo/git-repo/wow/.git/
remote: Counting objects: 5170, done.
remote: Compressing objects: 100% (4124/4124), done.
remote: Total 5170 (delta 1184), reused 4963 (delta 1009)
Receiving objects: 100% (5170/5170), 8.88 MiB | 2.89 MiB/s, done.
Resolving deltas: 100% (1184/1184), done.

cd wow/src

Pour indexer les fichiers nous utiliserons la commande gtags qui crée les fichiers GTAGS GPATH GRTAGS GSYMS utilisés par global pour nos futures recherches.Etant donné que le répertoire contient des fichiers autres que des fichiers sources c++ (.cpp et .h), on utilise la commande find pour les filtrer :

find . -name "*.cpp" -o -name "*.h"|gtags -v -f -
[Mon Aug 22 09:39:52 CEST 2010] Gtags started.
 Using default configuration.
[Mon Aug 22 09:39:52 CEST 2010] Creating 'GTAGS'.
 [1] extracting tags of tools/git_id/git_id.cpp
 [2] extracting tags of tools/map_extractor/wdt.cpp
 [3] extracting tags of tools/map_extractor/adt.cpp
 [4] extracting tags of tools/map_extractor/loadlib.cpp
 [5] extracting tags of tools/map_extractor/mpq_libmpq.cpp
 [6] extracting tags of tools/map_extractor/wdt.h
 [7] extracting tags of tools/map_extractor/adt.h
 [8] extracting tags of tools/map_extractor/dbcfile.cpp
 [9] extracting tags of tools/map_extractor/System.cpp
..
 [1096/1099] extracting tags of server/shared/Threading/Threading.cpp
 [1097/1099] extracting tags of server/shared/Threading/LockedQueue.h
 [1098/1099] extracting tags of server/shared/Threading/Threading.h
 [1099/1099] extracting tags of server/shared/Threading/DelayExecutor.cpp
[Mon Aug 22 09:40:18 CEST 2010] Done.

Tous les fichiers sont à présent indexés. On peut vérifier la taille des fichiers générés par gtags :

du -sh G*
280K    GPATH
3,2M    GRTAGS
6,6M    GSYMS
2,1M    GTAGS

Vous pouvez aussi choisir de les placer ailleurs, mais je vous laisse le faire en exercice. Ce qui est intéressant dans cet outil c'est qu'il est possible de rechercher la définition d'une fonction aussi simplement que :

global -x EndQuery
EndQuery           60 server/shared/Database/QueryResult.cpp void QueryResult::EndQuery()

On peut aussi vouloir rechercher les références à cette fonction dans le code :

global -rx EndQuery
EndQuery           37 server/shared/Database/QueryResult.cpp     EndQuery();
EndQuery           50 server/shared/Database/QueryResult.cpp         EndQuery();
EndQuery           59 server/shared/Database/QueryResult.h         void EndQuery();

Comme vous le voyez il est possible de faire des recherches intéressantes. Il est aussi possible d'utiliser des expressions régulières et de rechercher des motifs diverses :

global -gx mCurrentRow
mCurrentRow        28 server/shared/Database/QueryResult.cpp     mCurrentRow = new Field[mFieldCount];
mCurrentRow        29 server/shared/Database/QueryResult.cpp     ASSERT(mCurrentRow);
mCurrentRow        32 server/shared/Database/QueryResult.cpp          mCurrentRow[i].SetType(ConvertNativeType(fields[i].type));
mCurrentRow        55 server/shared/Database/QueryResult.cpp         mCurrentRow[i].SetValue(row[i]);
mCurrentRow        62 server/shared/Database/QueryResult.cpp     if (mCurrentRow)
mCurrentRow        64 server/shared/Database/QueryResult.cpp         delete [] mCurrentRow;
mCurrentRow        65 server/shared/Database/QueryResult.cpp         mCurrentRow = 0;
mCurrentRow        45 server/shared/Database/QueryResult.h         Field *Fetch() const { return mCurrentRow; }
mCurrentRow        47 server/shared/Database/QueryResult.h         const Field & operator [] (int index) const { return mCurrentRow[index]; }
mCurrentRow        53 server/shared/Database/QueryResult.h         Field *mCurrentRow;

Reportez vous à la documentation pour en savoir plus. Dernier outil que je trouve très intéressant est le wrapper globash qui permet en plus de se promener directement dans les fichiers à partir des résultats obtenus. Pour cela, lancez la commande globash et acceptez de créer le répertoire .globash lors du premier lancement :

globash

GloBash --- Global facility for Bash

GloBash needs working directory.

Create '/home/cyril/.globash'? ([y]/n) y

Created.

Welcome to Globash! When you need help, please type 'ghelp'.

Vous pouvez ensuite utiliser les mêmes commandes mais sans l'option x qui est activée par défaut :

[/home/cyril/src-repo/git-repo/wow/src] g mCurrentRow
>    1    mCurrentRow        28 server/shared/Database/QueryResult.cpp     mCurrentRow = new Field[mFieldCount];
     2    mCurrentRow        29 server/shared/Database/QueryResult.cpp     ASSERT(mCurrentRow);
     3    mCurrentRow        32 server/shared/Database/QueryResult.cpp          mCurrentRow[i].SetType(ConvertNativeType(fields[i].type));
     4    mCurrentRow        55 server/shared/Database/QueryResult.cpp         mCurrentRow[i].SetValue(row[i]);
     5    mCurrentRow        62 server/shared/Database/QueryResult.cpp     if (mCurrentRow)
     6    mCurrentRow        64 server/shared/Database/QueryResult.cpp         delete [] mCurrentRow;
     7    mCurrentRow        65 server/shared/Database/QueryResult.cpp         mCurrentRow = 0;
     8    mCurrentRow        45 server/shared/Database/QueryResult.h         Field *Fetch() const { return mCurrentRow; }
     9    mCurrentRow        47 server/shared/Database/QueryResult.h         const Field & operator [] (int index) const { return mCurrentRow[index]; }
    10    mCurrentRow        53 server/shared/Database/QueryResult.h         Field *mCurrentRow;

Vous pouvez lister à nouveau les résultats obtenus :

[/home/cyril/src-repo/git-repo/wow/src] list
>    1    mCurrentRow        28 server/shared/Database/QueryResult.cpp     mCurrentRow = new Field[mFieldCount];
     2    mCurrentRow        29 server/shared/Database/QueryResult.cpp     ASSERT(mCurrentRow);
     3    mCurrentRow        32 server/shared/Database/QueryResult.cpp          mCurrentRow[i].SetType(ConvertNativeType(fields[i].type));
     4    mCurrentRow        55 server/shared/Database/QueryResult.cpp         mCurrentRow[i].SetValue(row[i]);
     5    mCurrentRow        62 server/shared/Database/QueryResult.cpp     if (mCurrentRow)
     6    mCurrentRow        64 server/shared/Database/QueryResult.cpp         delete [] mCurrentRow;
     7    mCurrentRow        65 server/shared/Database/QueryResult.cpp         mCurrentRow = 0;
     8    mCurrentRow        45 server/shared/Database/QueryResult.h         Field *Fetch() const { return mCurrentRow; }
     9    mCurrentRow        47 server/shared/Database/QueryResult.h         const Field & operator [] (int index) const { return mCurrentRow[index]; }
    10    mCurrentRow        53 server/shared/Database/QueryResult.h         Field *mCurrentRow;

Mieux encore, vous pouvez demander à vous rendre directement à la ligne du fichier concerné (cela s'appuie sur la définition de la variable EDITOR)

[/home/cyril/src-repo/git-repo/wow/src] show 2
[/home/cyril/src-repo/git-repo/wow/src] l
    1    mCurrentRow        28 server/shared/Database/QueryResult.cpp     mCurrentRow = new Field[mFieldCount];
>     2    mCurrentRow        29 server/shared/Database/QueryResult.cpp     ASSERT(mCurrentRow);
     3    mCurrentRow        32 server/shared/Database/QueryResult.cpp          mCurrentRow[i].SetType(ConvertNativeType(fields[i].type));
     4    mCurrentRow        55 server/shared/Database/QueryResult.cpp         mCurrentRow[i].SetValue(row[i]);
     5    mCurrentRow        62 server/shared/Database/QueryResult.cpp     if (mCurrentRow)
     6    mCurrentRow        64 server/shared/Database/QueryResult.cpp         delete [] mCurrentRow;
     7    mCurrentRow        65 server/shared/Database/QueryResult.cpp         mCurrentRow = 0;
     8    mCurrentRow        45 server/shared/Database/QueryResult.h         Field *Fetch() const { return mCurrentRow; }
     9    mCurrentRow        47 server/shared/Database/QueryResult.h         const Field & operator [] (int index) const { return mCurrentRow[index]; }
    10    mCurrentRow        53 server/shared/Database/QueryResult.h         Field *mCurrentRow;

Vous pouvez taper exit pour sortir ou ghelp pour en savoir plus.

Cet outil est vraiment très rapide pour indexer le contenu et très utile avec son wrapper pour se balader directement dans les fichiers et effectuer des modifications si nécessaire. N'oubliez pas bien sûr de rafraîchir le contenu indexé ensuite en ajoutant -i à la commande initiale pour activer l'indexation incrémentale (Vous pouvez bien sûr retirer l'option -v qui active le mode verbeux) :

find . -name "*.cpp" -o -name "*.h"|gtags -i -v -f -
checking /home/cyril/src-repo/git-repo/wow/src/GTAGS
GTAGS found at '/home/cyril/src-repo/git-repo/wow/src/GTAGS'.
[Mon Aug 22 10:08:12 CEST 2010] Gtags started.
 Using default configuration.
 Tag found in '/home/cyril/src-repo/git-repo/wow/src'.
 Incremental update.
 Global databases are up to date.
[Mon Aug 22 10:08:12 CEST 2010] Done.

Je m'étais aussi intéressé à l'outil gonzui qui est aussi disponible sous forme de paquet et s'appuie sur BerkeleyDB pour stocker ses tags. Cependant, cet outil est beaucoup plus lent que global à l'indexation puisque que l'on passe de 3 à 130 secondes, et aussi lors des recherches sur des expressions régulières. Il ne dispose pas d'un wrapper semblable à globash qui est sans nul doute très utile lorsqu'il faut débugger, et occupe nécessite beaucoup plus de places que global (167 Mo contre 13 Mo).

Voilà, j'espère que ce billet vous sera utile dans vos prochaines investigations sur du code concernant les bases de données ou autres, mais comme vous avez pu le remarquer j'ai sciemment cherché un exemple dans la branche database :)



Lire la suite...

jeudi 5 août 2010

Berkeley DB 5.0.26

Pour ceux qui ne connaissent pas Berkeley DB (BDB), ou qui en ont vaguement entendu parler, sachez que si vous êtes sous un système opensource, vous avez de grande chances d'utiliser BDB sans même le savoir.

Par exemple, si vous utilisez pidgin ou evolution vous utilisez BDB :

~$ lsof -n|grep 'libdb-'|awk '{print $1," ",$9}'|sort|uniq
evolution /usr/lib/libdb-4.8.so
pidgin /usr/lib/libdb-4.8.so

Je peux par exemple voir sur mon système le nombre de paquets qui ont déclaré dépendre de BDB :

~$ apt-cache rdepends libdb4.8| wc -l
96

On peut aussi en voir un aperçu :

~$ apt-cache rdepends libdb4.8| head
libdb4.8
Reverse Depends:
squidguard
libapache2-mod-php5filter
php5-cli
php5-cgi
openoffice.org-core
libpam-modules
libedata-cal1.2-6
libedata-book1.2-2

Et encore ce ne sont que les paquets qui l'ont déclaré ! Tout ça pour vous dire que BDB est indispensable à tout système open-source qui se respecte. Mais qu'est-ce que BDB ?

BDB est une bibliothèque permettant d'opérer sur des données (stockage, modification, recherche) et que l'on lie à une application pour lui fournir ce type de service. L'application peut être codée en utilisant des languages différents (JAVA, C++, C, Perl, PHP, Python, etc...) et choisi la structure la plus adaptée à ses données parmi les types Btree, Hash, Queue et Recno. (Vous pouvez consulter la documentation pour en savoir un peu plus sur ces différents types).

BDB supporte les transactions ACID, le multithreading et le multiprocessing, l'encryptage de l'environnement (répertoire stockant les données), l'indexation, les sauvegardes à chaud et la récupération des données en cas de crash (grâce à la journalisation des transactions), ainsi que la replication maître/esclaves !

Sachez qu'il est possible de configurer les environnements participant à un groupe de réplication de sorte que les rôles de maître/esclaves soient redistribués (failover) en cas d'erreur sur le maître ou au niveau du canal de communication. Il est à noter que pour utiliser la réplication il est nécessaire de développer du code c, c++ ou java :(
Oracle qui a racheté la société Sleepycat Software propriétaire de BDB en février 2006 annonce une capacité de stockage en teraoctets et des milliards d'enregistrements !!

Cette bibliothèque est disponible sous 2 licences :
  • commerciale
  • GPL (celle qui vous permet de l'utiliser sur votre système opensource)
Il est à noter qu'étant une bibliothèque, il n'y a pas de serveur de données. l'application accède et manipule directement les fichiers physiques grâce au code de la bibliothèque BDB. De même, ce n'est pas un RDBMS (relational database management system) ne supportant pas les relations entre les données stockées.

Dans un prochain article je vous montrerai comment installer et utiliser rapidement un environnement BDB XML. Soyez patients ...
Lire la suite...