Subversionで修正された回数の多いソースファイルを特定する方法

はじめに

Googleではコードの品質向上のために、独自の「バグ予測アルゴリズム」という仕組みをもっていて、バグが含まれているであろうソースコードを予測しながら開発を行っているそうです。

グーグルでは、社内のプログラマによって作り出される大量のコードの品質を保つため、チェックイン前にユニットテストとコードレビューが行われているそうです。しかし、コードが大量になってくると、ユニットテストやレビューをすり抜けるバグも少なからず発生します。
そこでコードの品質をさらに高めるために、グーグルでは「バグ予測アルゴリズム」を採用。バグがありそうな部分をレビュアーにアドバイスする仕組みを採用したとのこと。
グーグルはコードの品質向上のため「バグ予測アルゴリズム」を採用している − Publickey

Googleが採用しているバグ予測アルゴリズムの概要

Googleが採用しているバグ予測アルゴリズムの仕組みを簡単に説明すると、以下のようになります。

より高頻度にバグを修正し、かつ最近になって集中的に直しているほど、スコアが大きくなります。そしてスコアが大きいほど、相対的に見てそのコードにはバグがある可能性が高い、というのがこのアルゴリズムが示すところです。
グーグルはコードの品質向上のため「バグ予測アルゴリズム」を採用している − Publickey

集中的に修正されたソースコードにはバグが含まれている可能性が高い、ようするにコミット回数が多いソースファイルにはバグが含まれている可能性が高いと考えることができます。
そこで、このエントリではSubversionでバージョン管理をしている開発プロジェクトにおいて、コミット回数が多いソースファイルを特定する方法について紹介します。

statSVNでコミット回数の多いソースファイルを特定する

statSVNというツールを使うとコミット回数の多いソースファイルを特定することができます。statSVNは、Subversionリポジトリの利用状況をログファイルから集計して、グラフや一覧表を出力してくれるOSSのツールです。

statSVNの使い方については以下のエントリを参照してください。

このstatSVNが出力するデータの１つに、"Files With Most Revisions"というものがあります。これは、コミット回数の多いソースファイルのランキングです。

上記の画像はstatSVNプロジェクトのリポジトリを例としていますが、changes.xmlが特定の期間で54回修正されていることを示しています。
"Files With Most Revisions"を見ればコミット回数の多いソースファイルは一目瞭然ですので、レビュー時や修正時に注意を払うことができます。