いまどきのファイルシステムに求められるもの

仕事でファイルシステムに関して考える機会があったんで私見を書いてみようかと。

タイトル適当に付けたんだけども、なんか意味不明な気が..
いちおう、いまどきのファイルシステムというには、こんな性質が必要という意味に取ってください。

2002/5/1 記 ./linux-2.4.18の改造
2002/8/6 記 ./家のPCの性能検証_001

いまよく使われているファイルシステムの多くは古い歴史をもっている。 bsd 系の ffs なんかはどれぐらい古いかよくわからないが 20 年ぐらいは前に設計されたものじゃないかと思う。

linux でよくつかわれている ext2fs は出来てから 10年弱だけれども設計自体が新しいわけではないはずだし、今の Disk の性能バランスにあっているかどうかというと疑問がある。

Disk の spec を考えると、10年ちょっと前 -- 100MB - 300MB ぐらいのレンジのものを使っていたころから 3桁ぐらい容量が上がっている。

Disk の性能はというと... I/O のスループットは、せいぜい 1MB/sec 程度だったのが 30 倍ぐらいあがって 30MB/sec ぐらいにはなっていると思う。データは 2次元に配置されるから、sqrt(1000) の 30 倍ぐらいというのは、妥当だと思う。

ただし、アクセスタイムは回転数に依存するから、2倍程度しか性能は上がっていない。7200 rpm の Disk でランダムアクセスすると 8ms ぐらい。大昔でも 3600 rpm ぐらいだったから、たぶん 2 倍。

要するに同じ容量に対するデータアクセスのスループットは、1/30 ぐらいにまで落ちていて、アクセスタイムでは 1/500 ぐらい落ちているわけだ。

FSCK が遅いからジャーナルファイルシステムを使いたい。

実際 FSCK の時間が、がまんできないぐらい遅くなっている。メタデータの安全性というメインの機能よりも、FSCK いらずという面の方が重要だと思える。

容量に対する性能バランスが大幅に変わってきたから、こういう機能が必要になってきたわけだが... それ以外の点で古い設計のファイルシステムに破綻は生じていないんだろうか？というのが本題。

昔と同じ使い方で、容量に比例した規模というのを想定すれば破綻しているのは明らかだから、どのように使うからどういう性質が必要かという話をしていかないといけない。

ビデオのキャプチャーをしながら他のこともしたい

私は、ビデオのキャプチャーをしないけども、他の人と話していると、こういうことが当り前にできないといけなさそうだ。

ビデオのスループットは、8MB/sec 程度だと考えると、スループット的には足りていて、たとえば、キャプチャーしながら他のものを見てさらに他のアプリケーションを開くなんてことは可能だと思える。

アクセスタイムはどうなんだろうか？

動画ファイルを Disk の連続した領域に配置する必要がある。

それは当然としても

1 回に I/O する単位を大きな値にしなければならない。

簡単な例をあげると...

ビデオのキャプチャー 
                        =========         ==========
他のビデオの 再生
                                ---------          ----------

2 つのデータをアクセスしているとする。たぶん交互にアクセスすることになるから、その間でシークが発生する。秒間 100 回のシークしか許容できないとすれば、最低でも

8MB / 100 = 80 (KB)

の I/O サイズである必要がある。

こんなに単純な使いかたではなく、他でやっていることは、一般にデータサイズが小さくアクセス頻度が非常に高いと仮定すれば、動画の I/O に許される I/O 頻度をもっと小さくしなければならない。秒間 4回ぐらいに押えるとすれば...

8MB / 4 = 2 (MB)

この値がなにを意味するか...
上位層のアプリケーションではたぶんもっと大きなバッファを用意するし、メモリ管理でも十分な量のバッファを確保できているのは当然として、
さらに連続した領域を順に書き出すというのも当然としよう。
それだけではダメで、分断することなく2MB 程度まで一気に書ききる。そういう仕組みが必要になるということ。

通常のメモリ管理では、ページ単位で I/O するようなコードがベースになっているように思う。で、使いかたに局所性があれば、ある Disk 上の領域が書き込む対象になるようになっている。それをランダムな順番で書き出そうとするが、どこかでまとめてみようとする。例えば linux はエレベータシークと呼ばれるアルゴリズムで I/O 順を並び替えするし、いまどきの Disk は、256 ぐらいのリクエストを並列に受け付けて、DIsk のなかでも I/O の順番をならびかえようとする。
同時には 1つのことしかしないときは、これがうまくいく。問題は、複数のことをやったときに、1つのことしかしないときのようにうまくいくかどうか --- 結局は、上位層でコントロールしなければダメだと思う。

1 ページ 4K とすれば、最低でも 512 個のページをまとめて I/O できるようになっていないといけないということだから、なかなか難しいのではないか...

1 つのデータを書こうとするときに、連続したデータも強制的に書き出す... そういう仕組みがメモリ管理のところに必要だと思う。

ちなみにどれぐらいのメモリが必要か ... 30 秒間の間にデータを書き出すとすれば、8MB/sec でデータが作られるから、240MB のメモリがあれば良い。このこと自体は、昨今のメモリの値段を考えると問題ではないと思う。

問題は、240MB も溜ってしまうようなことが起きる原因。他のことの、アクセス頻度が Disk の能力より高く、 Disk に書き出せない --- そういう状況がもっとも有り得そうである。

そういう状況になるとシステムが遅くなって、結局は、メモリと Disk の性能がバランスするようになるはずだが ... キャプチャーのアプリケーションが止まるのは困る。

これを防ぐような仕組みを考えると .... ある状況 Disk の I/O 頻度が飽和しそうになったら、意図的に I/O の性能を遅くして、アプリケーションを止めておくそういうコードが必要だと思える。システムが飽和してしまえば、同じことになるから、こういうコードをいれてもいままでより遅くなるわけではない。

これはなにを言っているかというと、Disk の I/O 頻度に対する負荷があがってきて、Disk の I/O 頻度がボトルネックになってきたら、ランダムアクセス主体のアプリケーションは遅くなり、そうでないものは、あまり遅くならない。そういうバランスでプロセス実行をじょじょに遅くしてやる。
要するに 1 回の I/O (連続した領域に読み書きするばあいは免除) に対して、均等に delay を追加する。-- そういうようなことをすれば、スループットが必要なものの実行を阻害しない。
Disk の I/O 能力を越えることはできないから、I/O 負荷が高いとメモリにどんどんダーティなデータを溜めることになる。そしてこれ以上溜められない状況にまでくれば、システム全体が遅くなる。 (ときどきとまるような動きになるはず)
そしてその理由は、I/O 頻度が高いプロセスのせいで、どうにもならなくなる前に、そいつを遅くしてやるわけだ。
そうすると、次に I/O スループットがボトルネックになるところまで、システムスループットをあげることができる。
I/O 頻度が高いものは、遅くなったままか... というとそうなのだが、それはそれで、解決案を考えればよい。( これは後で述べる)

read/write システムコールを使っているアプリケーションなら、なんとかこれをやる方法はあるんじゃないかと思う。

ファイルの読み込みを速くしたい

小さな沢山のファイルを全部アクセスする --- そういうことは時々やる。キャッシュに載ってしまえば普通はとても速く、キャッシュに載っていないときはとても遅い。

ちょっと実験。linux でファイルシステムは、ext2fs というシステムで、 linux カーネルを 2 つのディレクトリに展開する。その二つのディレクトリに対して diff -ruN をやってみる。

展開したばかりだと 1.445 秒で終った。ところが一旦 umount してから計ると 107.961 秒もかかった。

2 ケタも違うわけである。/proc/stat で、disk I/O を見てみると 271716 Kバイトを読み込むのに 33325 回の I/O をしていた。平均 I/O サイズは、8.15 K バイト。1 回の I/O に 3.239 ms かかっていて、 I/O 性能は、2.516 MB/sec 。

この disk に対して

   time dd if=/dev/sdxx of=/dev/null bs=1k count=271716

なんてやると 5.953 秒で終り、45.643 MB/sec も出ている。

I/O 頻度がボトルネックになって、DISK のスループットの 5.59 % しか利用できていない。

上の使いかたは、本当にはランダムアクセスではないはず。うまく I/O を制御できれば、20 倍は無理としても 10倍速くできる可能性がある。

はじめの方で昔とはデータの量に対して、アクセス性能が 1/500、スループットが 1/30 だと書いた。このバランスなら、スループットに対するアクセス性能が16.6 倍になるわけだから、スループットと I/O 回数の性能比がバランスしているわけだ。ファイルシステムの設計が古いと思ったのは、このことが理由。

どうしたら良いのか ...例えば linux では、disk に対して pre-read をかけている。この量は、IDE なら 4K SCSI なら 60K になっている。

すべてのファイルを順にアクセスするといったことをすれば、これは十分有効で、grep ならすべてをアクセスしても 16.137 秒で read できる当然キャッシュにのっていればすごく速く 1.876 秒。

ところが、上記のように 2 つの物理的に連続したファイル群を交互にアクセスするといったことをやると 107 秒になってしまうわけだ。

このことについてどう考えるか ---
1 つのことしかしない場合は速いけれども複数のことをやると 1 桁遅くなる。こういうものだと、あまり他のことをしないでガマンするような使いかたを強いられてしまう。

DISK ドライバレベルでなんとかするのではなく、VM かファイルシステムレベルで、物理的に近いものを先読みするといった改良を行えば 107 秒が 16秒ぐらいにはなりそうで、うまくやることができれば 7秒ぐらいまでにできそうだ。

ただし、なんでもかんでも pre-read を大きくすれば良いというものではない。本当に不連続なアクセスパターンの場合は、キャッシュの効率が十数分の1に落ちてしまう。

まあ、個人で使う範囲でそういうことが起きざるを得ない状況というのは思い付かないから、無視しても良いのかも知れないが ...
え？メモリが少ないマシン？そんなことは知らない... というよりは、大量に pre-read するケースとしないケースの2つのコードがあって、状況によって切替える。そういう風になっていれば、メモリの少ないマシンで性能が落ちてしまうということはないはず。

さて、有野さんの日記に

コードの読み方で、

 ・ 本当に深く干渉している、
 ・ より複雑な、
 ・ 設計で回避可能でない、
 ・ 関係が多対多である
 ・ 手続き的でない

ようなコードをどう読むかという話題があったので、

linux でどうやってデータを write しているのか

というテーマでどのように読んだかを例題にして説明してみる。

ある程度上記にマッチしているような気がするけども、これを例題に選んだのは、私がはっきりしたテーマがなければコードを積極的に読む気がしないから。

読もうとするテーマを詳しく書くと、

write は通常ページににダーティだというマークを付けて終る。
定期的に flush するところがあってダーティなものを書き出していくはず。
定期的に flush するだけでは、メモリが足りなくなる場合がある。このときもダーティなものを書き出さないといけないはず。
書き出す順番は、LRU というアルゴリズムが基本。

こういうところが linux ではどう実装されているかということ。

関係するコードを見つけ出す

この作業は、メモを取りながら読んだので、1 時間ぐらいかかった。普段はメモを取らないので、20 分ぐらいでできると思う。集中力があがってきたら 10 分程度かも知れない。

実は、ここの文章を書くにはさらに時間がかかった。約 2時間。
正味 10-20分の作業の説明を書くのに準備をいれると 3 時間弱かかるわけだ
まあ、この間に整理とかできるからまるっきり無駄ではないにしても ... 大量に文章を書ける人がうらやましく思えるというのは理解してもらえるだろう。

とりあえず、メモリ管理の部分の mm から write を grep してみる。

たくさん出て来るが、write_lock とかが目立つのでそれを抜いてみる。

    grep write *.c | grep -v lock |less

これで 100行ぐらいにまで減るので、ながめてみると

    int (*writepage)(struct page *) = mapping->a_ops->writepage;

というのが見付かる。page を管理する構造体には、それをどうやって書くかについてのメソッドがくっついているようだ。

writepage というのがキーワードらしいので、それと readpage を grep してみる。

みつかるのは、filemap.c と vmscan.c だけ。これらを読めばよそさそうだ。

とりあえず、readpage はおいておいて... writepage だけ追っかけると writepage を使っている関数をみてみる。

    filemap.c:  filemap_fdatasync()
    filemap.c:  generic_file_mmap()
    vmscan.c:   shrink_cache()

このなかで、shrink_cache() のみが関係ありそう。

この関数は、170 行ぐらいだが

     while (max_scan && (entry = inactive_list.prev) != &inactive_list) {
        page = list_entry(entry, struct page, lru);
        if ((PageDirty(page) || DelallocPage(page)) && ... ) {                  
             (page->mapping->a_ops->writepage)(page);
        }

という構造が読み取れる。

1 ページ 1 ページ書いているとしか思えないが...

ここまで読んで、fs のところが flush するコードのメインだと気が付いた。

fs に移動して、writepage を grep してみる。お、あった

   buffer.c:    ret = page->mapping->a_ops->writepage(page);

さて writepage を読んでいる関数構造をみていくと

_write_buffer(struct buffer_head *bh, int wait) {
    if (buffer_delay(bh)) {
          ret = page->mapping->a_ops->writepage(page);
    }
}

write_buffer(struct buffer_head *bh, int wait)
{
    if (!buffer_delay(bh)) {
         ll_rw_block(WRITE, 1, &bh);
         return 1;
   } else
         return _write_buffer(bh, wait);
}

_write_buffer もしくは write_buffer を呼んでいるところを見てみる。

   write_some_buffers
   fsync_inode_buffers
   sync_page_buffers

の 3つが見付かる。

とりあえず、簡単そうなものからみてみると

fsync_inode_buffers : (たぶん fsync のときに) inode (= ファイル) 単位で書き出す
sync_page_buffers : buffer_head (= キャッシュ、block デバイスへの I/O 単位でもある) に対して dirty なら write する

write_some_buffers

   next = lru_list[BUF_DIRTY];                                                  
   while (next && --nr >= 0) {
         if (atomic_set_buffer_clean(bh)) {
                write_locked_buffers(array, count);
         }
  }

という構造で、dirty 専用の LRU リストをなめ diry なページを書き出す。

さて、write_some_buffers が求めるものみたいであるが ... 書き出す関数は、write_locked_buffers() であって、write_buffer ではなかった。

ここで、下位構造である write_locked_buffers() と上位構造がどうなっているかも見てみることにする。

write_locked_buffers(...)
{
        do {
                struct buffer_head * bh = *array++;
                bh->b_end_io = end_buffer_io_sync; 
                submit_bh(WRITE, bh);
        } while (--count);
}

ここで、buffer_head の配列を全部 submit_bh で書き出すようだということがわかった。

submit_bh と make_generic_request という関数が、ブロックデバイスに対して I/O 要求を出す手続きだという予備知識があったので、これ以下は読む必要はなかった。

さて上位構造

下から追っていくと 2つの流れがみつかる。

ひとつは、

static void write_unlocked_buffers(kdev_t dev)
{
        do {
                spin_lock(&lru_list_lock);
        } while (write_some_buffers(dev));
        run_task_queue(&tq_disk);
}
  
void balance_dirty(void)
{
        spin_lock(&lru_list_lock);
        write_some_buffers(NODEV);

}

static void free_more_memory(void)
{       
        balance_dirty();
        wakeup_bdflush();
        current->policy |= SCHED_YIELD;
        __set_current_state(TASK_RUNNING);
        schedule();
}

一応理解を書くと、メモリが足りなくなったら、dirty なキャッシュをバランスを取って書き出そうとするという感じか。

もうひとつは、

sync_old_buffers()
{
        for (;;) {
                struct buffer_head *bh;

                spin_lock(&lru_list_lock);
                bh = lru_list[BUF_DIRTY];
                if (!bh || time_before(jiffies, bh->b_flushtime))
                        break;
                if (write_some_buffers(NODEV))
                        continue;
                return 0;
        }
}

kupdate() {
   for (;;) {
        
       schedule_timeout(interval);
            :
       sync_old_buffers
   }
}

という流れ、

kupdated という名前のデーモン(kernel_thread) があって、定期的 (デフォルト 5秒) に 1 回 sync_old_buffers を呼びその中で write_some_buffers を呼び出す。

これで、上のテーマどこでどういう風にということは終り。

どういう風にコードを読んだか

整理してみる。
1) まず、どういう風になっているはずだというイメージを作る。
上でいろいろ実験しているが、この段階でこういう風にしかなっていないからこう作られているはずだ .. なんていうイメージが出来ている。
私は、このイメージができるまでコードを読まない。 (というか読む気がしない or 読んでも理解が進まない or 読んでも楽しくない)
たぶんこれがテーマを必要とする理由だろうと思う。
2) そして、テーマが決まりイメージが出来てくると grep 使ってキーワードを考えながらサーチしだす。これはこれで楽しい作業。ヒットするキーワードをいろいろ考えて grep して、コードをちょっとみてまた grep してを繰り返す。web の検索のようなことをしているわけだが、この段階でどういう実装になっているか見当を付ける。
3) で、ある程度見当がついたら、実際のコードを追っていく。このコード読みでも詳細は追わずに、メインとなる流れをみつけていく。
上で説明したのは、ここまでだが、実際はこのレベルはコード読みとは違う。概要をつかむ。もしくは、仕様を読み取るみたいなレベル。
4) これで十分なことも多いけれども、改造するようなときは、理解が正しかったかどうか、情報を採取するコードを埋め込んだりする場合が多い。
5) そして、実際改造しようと思ったらコードを詳細に読む。詳細といっても、サブテーマというか知りたいことがいくつか出て来ているから、こういうケースではどうしているかとか 1つの観点で 2) 3) を行う。
決して欲張ったりせずに、知りたいことだけを知るようにしている。必要があれば、テーマを変えて何度も繰り返す。ある段階になると、読む必要はなくなる。確認をする必要がある場合もあるけれども、よくわかってくれば、1 回の grep で適切に見つけることができるようだ。
まあ、だいたいこういう手順を踏んでいるようだ。

どういうコードは読みやすいか

上のように読んだときどういうコードが読みやすいかまとめてみる。
1) 重要な関数名やデータ名が検索でヒットする。
やたら見付かるのも困るから重要な関数名は、キーワードをちゃんと含み重要でないものはキーワードを含まない ... とか。関連する機能はメインの関数にサフィックスを付けたりして検索で一緒に見付かるとか ...
まあ、そういうことが最も重要。他のことはどうでもいいかというと .. たぶん正しい機能に正しい名前を付ける --- そういうことができているものは、他のことをすべて含んでいると思う。
ちなみに、正しい機能に正しい名前を付けることがいかに難しいことか ---- 私の書くものは、出来がよいとは自分でも思っていないが、それでも naming がコードを書く時間の大部分を占めたりする。そして、気に入らない場合は、名前を全部つけかえたり、プログラムの構造さえ変更したりする場合さえある。
2) メインの流れかどうかがわかりやすい構造を工夫する。
すべての処理を均等には読まないわけだから、メインの構造というか重要だと思えることが浮き出ているコードは、読みやすい。
これも言うはやすし --- とは言えコーディングスタイルが決まっていれば、それほど --- naming ほど --- 難しいような感じではない。

注意) 上でかいたことは、あくまで私見である。こうやったらいいよと強く勧めるものではなく、私はこう思うからこうしているというだけである。
読みやすいということに関しても私見ではある。ただ、こっちのほうは、こういう風に読むから、こういうことに(できたら)気を付けて欲しいという意味もある。ただ、これも強く勧めるものではない。私はこういうことができているコードは、出来が良いと判断するということを表明しただけである。
お、臨時日記に反応が。
上記の説明でよかったみたいですね。外しているかも知れないと思っていたんでちょっと不安でした。
これは私の読み方であって、こういう風にやっていくと誰でも読めるようになるかどうか...というのは、よくわからないです。
重要なポイントは、イメージの組み立て方で、それには、応用可能な一般知識、サーチの技術、が必要。そして、正しいイメージが定着すれば、それは応用可能な一般知識になる。サーチの効率も同じかな ... そういう感じだから、修練をしていかないと効率は上がっていかないはず。
実は、他の人がやるとどうなるか興味がある。例えば上の例題みて NetBSD で同じことをしてみると、どれぐらいの効率でできるんだろうか？
ちょっとやってみません？> 有野さん。この話題そのものに興味がなければ面白くないと思うのでやらなくてもいいですが。
自信がなければ、linux で例題をトレースしてみて、経験つんでから。スタートしても可。で、制限時間は 30分。何分でできたかが知りたいこと。できなかったら、なにかが足りないわけだから、あきらめても可。
自分でも、NetBSD を 20分ぐらい読んでみた。答えを書いちゃうと練習問題にならないから、代わりに具体的な設問。
```
    Q1. struct buffer_head に相当する構造体は? (25点)
    Q2. atomic_set_buffer_clean(bh) に相当する処理は? (25点)
    Q3. lru_list[BUF_DIRTY] に相当するデータ構造は？ (25点)
    Q4. write_some_buffers() に相当する関数は？ (25点)
    制限時間 30分 -- 理解の程度は どうすれば分かるか確信を持てるまでで良い。
```
こんなところでどうだろう。
有野さんのお返事が ... ソース全体がでかいから大変なのかな？一応範囲を指定すると、 sys kern uvm ufs ぐらいで良いのではないかと思うケド。カーネルって奥が深くて読み出すと面白いからチト危険かもしれない。

さて、write に関してやりたいことは、何かというと write_some_buffers の中で、書くことが決まったページが出たら、 LRU にかかわらず disk の物理的位置が連続しているダーティなページを書き出すということである。ただし無限にやると時間がかかりすぎるので、あるゾーンの中でという条件を付け加える。ゾーンは disk の offset を 2MB 毎に区切ったものということで良いと思う。

ゾーンを見つけ出すためには、通常ハッシュを持つことになると思う。そのなかに入るのは、buffer_head ということになりそうだ。

buffer_head は、include/linux/fs.h に定義がある。

既にそういうロジックがあるかどうかだが、buffer_head には、どこに書き出すかについての情報が含まれている。だから buffer_head のハッシュを作るのは、適切なはず。

struct buffer_head {
        /* First cache line: */
        struct buffer_head *b_next;     /* Hash queue list */
        unsigned long b_blocknr;        /* block number */
        kdev_t b_dev;                   /* device (B_FREE = free) */
        struct buffer_head *b_next_free;/* lru/free list linkage */
        struct buffer_head *b_reqnext;  /* request queue */
        char * b_data;                  /* pointer to data block */
        struct page *b_page;            /* the page this bh is mapped to */
              :

全部じゃないけどまあ、こんなかんじ。

Disk の物理的な位置でハッシュするなんてことは、やっていないようだ。だからコードをいれる必要がある。

まあ、そんなに難しいということはないんじゃないかなんて思っている。

あれ？ Disk の物理的な位置を Hash しないというのはおかしい。というか、Disk のキャッシュなら、物理的な位置を Hash するのがあたりまえではないか... ということは、b_next をサーチすれば、どうなっているかわかるはず。
うーん。このあたり、実はそんなに詳しくないことが露見してしまった。ちと恥ずかしい。
とは書いたが、コードいれて調べてみると buffer_head が dirty なのにハッシュがないケースが多々ある。ファイルシステムは一般に file のデータがあるデータブロックと inode のような管理情報のメタデータを分けて管理しているけれども、どうも ext2 の場合は、メタデータのみを buffer_head のハッシュに載せていて、データブロックはハッシュに載せていないようだ。データブロックは、LRU のキューのみ登録していて、 write_some_buffers() の対象にはなっている。ちなみにメタデータは、 write_some_buffers() の対象になったときは、8K ぐらいしか連続して汚れていない。
あと、トレースいれて確認したのだが、やっぱり tar で展開ってのをパラレルでやったりすると、 Disk の I/O の頻度が高くなる。トレースみた限りでは、 write_some_buffers() で処理するディスクブロックはばらけているみたい。
ふうむ、どうしよう。ダーティブロック専用のハッシュを作ることは出来そうだが、それがベストの解という確信は持てていない。

結局、ダーティブロック専用のハッシュを作り、 write_some_buffers() で、1 つのページを write 対象にしたときは、それが含まれる 2MB のゾーンのうち、連続して汚れている分を一気に書き出す。という仕組みを作った。本来 write_some_buffers は、1 回で 128KB 書き出すような設計になっていたが、今回は、I/O 1 回相当にした。(一気に書き出すからスループットはかえって高い)

評価は、linux カーネルを 1 台のDisk の別々のディレクトリに 5 多重で展開して、

どれぐらい時間がかかるか。
Disk にどれぐらい書けていて I/O の平均サイズは、どれぐらいになったか。ということにした。

カーネルは、2.4.10 を使った。

               オリジナル           今回の改造の結果
時間              129.6 sec             32.4 sec
Write量          464.016 MB            684.296 MB
転送速度         3.57 MB/sec           21.08 MB/sec    
Write頻度        119.2 times/sec        194.25 times/sec        
平均I/O サイズ     30.01 KB              108.53 KB
1 回に書き出した量の平均  --              603.78 KB

うーん。なかなかではないか。

コメント: 一回で 600KBも書き出すのに実際の I/O は、100KB 程にしかなっていない。linux で 128KB あたりが 1 回の I/O の上限なのかも知れない。ただし、128KB を N 回連続して出せば、 N 倍の I/O サイズ程ではないにせよ近い効果は得られる。だから、Write の I/O 頻度を 194 回まで上げることができているわけだ。
なかなかだとは思うんだが、read で 45.643 MB/sec のスループットだから、まだまだ性能を上げられるような気もする。ちゃんと Disk のスループットがボトルネックになるところまで持って行きたいものだ。

おやくそくパッチ 2.4.10 からかなり変わっているからそのままは当たらない。 ( 2.4.15 をみたらかなり変わっているけど、今回変更したところは、それほどは影響ないみたい。)
テストなんできれいなコードではない。そこんところよろしく。さらにおやくそく。このコードは動作を保証するものではない。特にファイル系をいじっているので、ファイルが壊れるかも...

練習問題) NetBSD で同じことをやってみましょう。 ( やる必要があるかどうかわからないけど )
制限時間 50時間

問題その1) 上記の改造をすると、確かにメモリがある間は速くなった。ところが、大量のファイルを展開すると、システムが止まったりして、ひどいことになる。

なぜそうなるのか...調べていくと ... ファイルを沢山つくると、管理情報である inode とファイルの実態である buffer_cache がともに急速に増えるわけだが、メモリが足りなくなったら、buffer_cache をシュリンクしにいく。

inode の方は、ほとんど (というよりまったく) シュリンクされないような動きになって、必要のない inode を大量に溜め込み、buffer_cache がほとんどない状態になる。

もともと、disk のスループットを上げるために、buffer_cache がかなりあるのが前提なわけで、メモリが足りなくなったからといって buffer_cache がないような状態にまで行ってしまうと、スループットは極端に落ちる。

さらに調べていくと ... どうも一回使った inode は、ほとんど free されない。 umount したときにはじめて inode が free されるといっても過言ではないぐらい。

具体的にかくと...__alloc_pages というページをアロケートする関数がメモリ不足を認識すると、

      balance_classzone
        try_to_free_pages
          shrink_caches
             1) shrink_cache
                 try_to_free_buffers
             2) shrink_icache_memory

という関係で shrink のルーチンが動く。しかし ... shrink_icache_memory でほとんど free しない。結果 buffer_cache ばかり free される。

うーん。どうしたものか。

頭を冷やしてコードを見れば... inode というものは、リファレンスがなくなれば速やかに free される構造をしている。... ということは誰がリファレンスを握っているのか ...
それは、dentry といわれるもの。ファイル名から inode を検索するためのキャッシュと考えて良い。
で、例えば linux カーネルを 5 つ展開すると inode の数と dentry の数は次のように変わる。

                nr_dentry (nr_unused)  nr_inodes (nr_unused)
  展開前         3133       2841         2232        0
  展開後        51729       48976        50816       0

nr_dentry の nr_unused にカウントされているものは、現時点では使われていないが、キャッシュされているもの。いつだって free できる状態だが、free しない。キャッシュだから当然だ。

で、nr_unused な dentry を free するのは、メモリが枯渇して、alloc_pages (ページ単位のアロケート)ができないとなった状態。これでは先に buffer_cache がなくなってしまうから、遅すぎるというのがたぶん問題。こういうことであれば -- dentry の数に制限を設けるようなコードをいれるのが、たぶん最も簡単な解決策だろう。

どこにいれるべきか... たぶん dentry を allocate しようと思ったときに数をチェックして、制限を越えていたら、nr_unused の何割かを free してしまう。その関数には、prune_dcache() が使えるはず。多分うまくいくだろう。

結局、これについては、こんなコードにした。

   fs/dache.c:d_alloc() -- dentry を allocate する関数 --- の先頭で、
   dentry の数 dentry_stat.nr_dentry が ある数を越えて、かつ
   dentry_stat.nr_unused がある一定するあるケース(普通はある) 
   では、
	prune_dcache(2000); 
        prune_icache(2000);
   という風に cache を free するようにした。(2000 は適当)

このコードは一見うまくいく。dentry および inode の数を一定に押えることが出来て、メモリを圧迫しない。これによってより多くのファイルを展開することが出来るようにはなった。ただし、ずっとファイルを展開しているような定常状態には耐えられない。

上記の

             1) shrink_cache
                 try_to_free_buffers

このパスで呼ばれる、try_to_free_buffers が致命的に遅くシステムが止まる。メモリを圧迫する要素は、buffer_cache と inode dentry のみであることは、 /proc/slabinfo を見れば分かる。try_to_free_buffers が呼ばれるような状況がたぶんとてもまずい。flush する効率を上げているわけだから、 clean な buffer が増える速度も速い。だから、区別なく free するのではなく、まずは、clean な buffer を free してくれないと困る。

さて、try_to_free_buffers では具体的にどんなことをしているか。今見ている VM と最新の VM では違うそうだから、処理が同じかどうか ... このあたりを調べてみることにする。

try_to_free_buffers を見ると、パラメータで指定された page および buffer_head を free するというもので、 page がダーティなら、sync_page_buffers() で書き出してから、free する。

もうすこし上位レベルから見てみる。

vmscan.c:shrink_cache() というのが、page を scan して free していくコード。当然 page の lru の順に free していく。

でも、選んだページを free する構造はこういう風になっている。

      if (PageDirty(page) && is_page_cache_freeable(page)) {
	 page->mapping->a_ops->writepage(page);
      }
      if (page->buffers) {
	 try_to_free_buffers(page, gfp_mask);
      }

2.4.17 では、try_to_free_buffers のかわりに try_to_release_page という関数が使われているが、構造は同じ。

shrink_cache() を 2 パスにして、最初のパスでは、書き出さなければいけない page を skip するようにしたらよさそうに思える。この方針で考えてみることにする。

なんとなく、わかってきた。

__alloc_pages でメモリが足りないと判断すると try_to_free_pages を呼びそれが shrink_caches を呼ぶ。

もともとは、shrink_caches は、buffer_cache を減らせるだけ減らして、それでもダメなら、dentry ひいては inode を free し出す。

buffer といっているのは、ファイルの中身で、dentry/inode ってのはファイルを管理するデータ。バランス良く量を配分しないといけないわけだが、それが出来ていない。( というか、上の改造でバランスが狂ったのかも )。

これが第一の問題で、これは、dentry の数を制限することで解決する。これをクリアすると次の問題が見えてくる。buffer_cache を減らすルーチンは、shrink_cache だが、LRU の順番だけで free していくので、上の改造の利点が生かせない。

write をまとめて書き出すのが効かないから、Dirty な page に当たると書き出すスループットが落ちる。しかも __alloc_page の延長だから、やがて、メモリをアロケートしようとしたプロセスすべてがこれに引っかかることになる。で、ここの write するところがシステムの write のスループットを決めてしまう。

これが第2の問題。これは、clean なページのみを free するものを作って最初にそれを動かせば良い。これはなんとか作ることが出来た。

さて、これをどうやっていれるか ... 実はこれが大問題であった。

かなりごまかしているが、こんな感じにしてみたらうまくいっている模様。

  shrink_caches に来る条件は、たぶん
	classzone->free_pages < classzone->pages_high
  ということらしいので、これに 引っかかりそうになる前に 
  clean なページを大量に free してみる。

  で、もう一回 
  classzone->free_pages > classzone->pages_high
  のチェックして、OK なら戻る。

  次に dentry と icache を free してみるが、 dentry が多すぎるときのみ
  にする。

  次に shrink_cache を呼んで buffer を free してみる。

  これで、ダメなら、思い切って dentry を free する。

なんだか意味不明な文章になってしまった。後でもういちど整理することにしよう。

その後 1/20

2.4.10 で計ったら改造前後で、それほど性能が違わなかった。どうも上でオリジナルと書いたのは、2.4.10 以前のものらしい。そして、20 MB/sec が上限になってしまうのは、Disk の性能がネックではないかも知れない。

1) Disk に書いたりページの開放をしないようなケースの最短を計る。

測定の都合で、2.4.10 の改造版では、1 つ展開するのに最短 1.640 秒で終ったりする。この時間は、user + sys の時間にかなり近い。5 つなら 8.200 秒。

2) 何回も違うディレクトリに展開して定常状態にした上で性能を測定。

こうすると、どれぐらいの性能になるんだろうか .... 5 つ分を並列に展開するのをなんかいかやって性能を測定する。

5 台の Disk をストライピングして、100MB/sec で書けるはずの環境では、 32.755 秒ぐらいかかった。
そして実際に Disk に書けた性能は、19.61 MB/sec 平均 Write サイズは、63.26 KB ( ストライピングしているんで、128 K 近い I/O は、だいたい 2 つに分割されるそうすると、したのDisk レベルで見える I/O 長は半分の 64K になってしまう)

いつも使っている Disk だとばらつきは大きいもののこれより速い。

26.873 秒 - 27.865 秒 - 37.856 秒 - 26.673 秒 - 34.936 秒

でも Disk の Write 性能は、20.01 MB/sec 平均 Write サイズは、108.90 KB

では、2.4.10 そのものはどうだろう。

おなじ Disk だと

38.177 秒 - 47.604 秒 - 48.811 秒 - 48.352 秒 - 47.655 秒

となった。確かに速くなっている。ただ、オリジナルもすごく遅いわけではない。

今の疑問は、いったいなにがボトルネックなのかということ。

これは原因がわかった、テストプログラムを動かしているときに、KDB で止めてスタックをトレースしてみれば良いわけだ。

そうして、どこで止まっているかを見たら ...

ext2_new_block の延長で read_block_bitmap で read しているか、 ext2_new_inode の延長で、read_inode_bitmap で read しているかのどちらかで止まっている tar のプロセスがいて、他のプロセスも結局おなじことがしたいわけで、read しているプロセスの処理が終るのを待っていたりする。

結局、bitmap を pre_read するような改造を ext2fs でしなければ、これ以上の write 性能の改善は無理なのだろう。

次は、read

write を先にやったのは、いろいろ理由があるんだけども、 write の方が簡単だからという理由も大きい。

read の方は、共通部ではどうにもならず、ファイルシステムをいじらないといけない予感がするしぃ。

いったいどっから手を付ければよいか... それもイメージが湧いていない。基本的には、ある Disk のデータを読むということを決めたら、そのまわりのデータも一気に読み込めば良いわけだ。read の場合は、ゾーンは、128K ぐらいで良いと思う。( write は既に汚れたデータを書くからそれほど無駄にはならないが、read は無駄になる可能性がある。)

ただ、無駄になったとしても、メモリが無駄というだけで、Disk 性能としてはあまり無駄になっていない。なぜなら、1 回の I/O で 10ms かかるとして、余分に 100KB 程読んでも (30-50MB/sec で転送できるとすれば)時間は、 2-3ms しか余分にかからない。

50 % しか有効でないとしても 10KB 程度の I/O とくらべて 5倍のスループットで有効なデータをロードできる。3割増しの時間がかかるとしても、3.5 倍ぐらい性能があがるわけだ。100% なら 7 倍。数字は適当だが、無駄でも沢山読んだほうがお得なのは理解してもらえるだろう。

評価の基準は、

linuxカーネルを違うディレクトリに 2回展開する。
一旦 umount して mount しなおす。
diff -ru して時間を計る。

という感じでいいかな。オリジナルは、107.961 秒ですごく遅い。 20秒ぐらいまで速くなるといいなと思っている。

さて、上位レベルで、pre read を行うには、どうしたら良いか ... その前に block を read する手続きを調べてみることにする。

同期して read するコードは次のようになっている。

struct buffer_head * bread(kdev_t dev, int block, int size)
{
        struct buffer_head * bh;
 
        bh = getblk(dev, block, size); /* buffer cache を取って来る */
        if (buffer_uptodate(bh))       /* 既に read 済なら 戻る */
                return bh;
        ll_rw_block(READ, 1, &bh);	/* read 要求を出す */
        wait_on_buffer(bh);		/* read 完了を待つ */
        if (buffer_uptodate(bh))	/* 中身がはいっていたら 戻る */
                return bh;
        brelse(bh);			/* エラーのときは buffer cache を開放
					   ( リファレンスを減らす)
					 */
        return NULL;
}

pre_read を行うには、

	get_blk して buffer cache を取る。
	もし buffer_uptodate(bh) なら、既に read 済だから なにもしない。
	ll_rw_block(READ, 1, &bh); して、read 要求を出しておく。

というようなコードを動かせば、 cache に fill はしてくれる。問題は後始末。brelse(bh) 動かせば良いだけだけどもだれがいつやるのか.. かなぁ。

先に API を考えてみる。上位層は、ここの block を非同期で fill してねみたいな API が便利かも。

void pre_bread(kdev_t dev, int block, int size, int num)

こんなかんじで、dev,block,size から num 個分を fill するような関数仕様が使いやすそう。で、その結果なんて知ったことではないから、戻り値はなしで、後始末が必要なら下位層でやる。

たぶん bread() するところで、次読んどくところが予想できる場合があれば、pre_bread を突っ込むだけで良い。

で、後始末はどうすべきか ... buffer head にフラグを1つ持たせて、 read が完了したときに、リファレンスを減らすとかすれば良いのかなぁ。

ll_rw_block では、

	bh->b_end_io = end_buffer_io_sync;

とやっているから、たぶん end_buffer_io_sync で Preread なら後始末をすれば良いのだろう。

この線で検討してみることにする。

bread というのは、同期の read で、ext2fs では inode , inode_bitmap, block_bitmap の read に使うことは、わかった。

そして inode_bitmap や block_bitmap を read するタイミングで、将来必要になりそうなところを非同期で read しておくのが良いのではないかという気がする。

また、通常のデータは、block_read_full_page とかが使われるようだ。この場合は、非同期で read を行う。こっちのケースでは、将来必要になりそうなところはわからない。局所性があるに違いないということで読みたいページの周囲を非同期で read しておくというので良いのだろうという気はする。

ただ、どうやってというのがよくわからない。うーん。どうしたものか。第一の問題は、必要なときに読む方法とずいぶん違う読み方になるので、読んだデータが本来の read のパスでちゃんと再利用されるのかどうか。
第二の問題は、必要なときまで、pre-read したものを保持できているかどうか。
それ以外にもまだ問題はありそう。

(最終更新 Thu Mar 30 17:58:15 2006)