4.3BSD-Renoのコードを読んでみよう

このページは、4.3BSD-Reno のしかも UFS 関係のコードを読んだときのメモ。

ファイルシステムの原型とも言える V7 を理解したら、次に読むべきは、UFS だろう。

BSD の UFS といってもいろいろあるようだ。いったいどれを読むべきなのか ...

選定の基準は、

FFS であること。
VFS (複数のファイルシステムをサポートする仕組み)が入っていること。

にした。

これを満たす最初のものが、どうも 4.3BSD-Reno らしい。

FFS はやはり、それが完成する前のファイルシステムとは格段に違うし、今の BSD のメインのファイルシステムでもある。
本当は、現在の FFS をちゃんと読めた方が良いのだが .... 残念ながら、私の知識では、どういう理由で現在の形になっているのかまで理解できそうにない。そういうわけで、最初に VFS が導入されたものを原点と考えて、選んだ。

ブロックI/O

さて、どこから見るつもりかというと bio とりあえず下位レベルをみてみよう。

vfs_bio.o の関数を列挙してみる。

bawrite() , bdwrite() , biodone(),  biowait(), bread(), breada()
brealloc(), brelse(), bwrite(), getblk(), geteblk(), getnewbuf(),
reassignbuf(),
mntflushbuf(), mntinvalbuf(), vflushbuf(), vinvalbuf()

V7 で、見慣れた関数名もあれば、そうでないものもある。関数名を見ただけではわからないが... パラメータもずいぶん違う。

bawrite(bp), bdwrite(bp), bwrite(bp) このあたりはパラメータは同じ。 biodone(bp), biowait(bp) も V7 の iodone(bp), iowait(bp) に b が付いただけに見える。

ところが、getblk/bread については、

bread(struct vnode *vp, blkno, size, struct ucred *cred, struct buf **bpp)
breada(vp, blkno, size, rabsize, cred, bpp)
struct buf *getblk(struct vnode *vp, blkno, size)
struct buf *geteblk(size)
struct buf *getnewbuf()

こんな感じになって、全然違う。breada は先読み指定付き bread で、 bread の派生と考えてよいさそうだ。geteblk は、struct buf を取ってくるだけのものらしい。さらに getnewbuf() は、geteblk の中で使っている関数で、中身のない struct buf を取って来るもの。そしてそれは外部でも使っていたりする。

訂正: geteblk と breada は V7 でもあった。

こういう風に派生版を使うあるいは、もっとプリミティブを使う。それはなぜなのか。ということは正しく理解しなくてはならなさそうだ。

また、struct vnode をパラメータとするのはなぜなのか... そして cred とは？ここらあたりもポイントか。

また、brealloc(), reassignbuf() といったものこれは何なのか ... これもポイントか。

すなおに、何を実装しているかを見るのも大事だが、基本形は、bread/getblk だとして、そうでないものを敢えて使っているところのロジックを読みそれでないといけない理由を知るとかそういう読み方も大事になってきそうである。

@ getblk(vp,blkno,size)

V7 では、(dev,blkno) の組で、512 バイト固定の buf を割り当てていた。

まず、dev_t dev のかわりにマウントしたデバイスを指す struct vnode *vp を使うようになったらしい。

その利点は.. 今はわからない。
あ、nfs とかデバイスをもたなくても良いためのフレームワークか。

512 バイト単位の I/O では I/O サイズが小さすぎるから性能が出ない。もっと大きな buf を割り当てその単位で I/O できるようにする必要がある。ということで、size が追加されたようだ。

サイズは、 buf の size の上限は、MAXBSIZE = 8K らしい。マウントするファイルシステム単位で blocksize は違うようにできる。

たとえば、既にある 512 バイトの buffer に重なるような形で、 4K の buf を getblk することはできない。そういうときは、brealloc(bp,size)を使って、変更するらしい。

さて、実際に新しい buf を取得する手続きは、

        bp = getnewbuf();
        bfree(bp);
        bremhash(bp);
        bgetvp(vp, bp);
        bp->b_lblkno = blkno;
        bp->b_blkno = blkno;
        bp->b_error = 0;
        bp->b_resid = 0;
        binshash(bp, dp);
        brealloc(bp, size);

getnewbuf() でとにかく buf を取って来る。
bfree(bp) するってことは、いままで使っていたものかも知れないというわけか。バッファの中身を返しておく。
bremhash() -- binshash() は、hash から外して、新たな値は hash に登録。
brealloc() で、size の buf を得る。
さて、bgetvp(vp,bp) とはなんだろう。

bp->b_vp で、デバイスが指せるようにする。というのが1つ。
逆に vp->v_cleanblkhd のリストに bp をつないでいる。対となるものに v_dirtyblkhd があるみたいだから ... たぶん LRU ？いまのところは、vp の先にその上のすべての buf が clean/dirty に仕訳した上で接続されているという理解だけしておけば良いか。

hash にあった場合が後回しになった。

        s = splbio();
        if (bp->b_flags&B_BUSY) {
            bp->b_flags |= B_WANTED;
            sleep((caddr_t)bp, PRIBIO+1);
            splx(s);
            やりなおし
        }

こういう制御構造はパターンか。

s = splbio() --- splx(s) の間で割込みをマスクして、割込みとの排他制御を行う。保護しているのは、b_flags 。

おこしてくれというフラグを立てておいて、sleep() 。

ここで使っている sleep は、V7 とまったく同じ使いかたのようだ。PRIBIO というシンボルまで同じ。

さあ、B_BUSYでないなら、bremfree(bp) する .. え? なんだろう。

av_forw,av_back のリンクから外すようだ。
これは、LRU リストであった。
getblk() された状態というのは、B_BUSY でなおかつ、 LRU リストからも外れている。brelse() で開放したときに、binsheadfree() で LRU リストの頭に付ける。このリストは、BQ_EMPTY, BQ_AGE, BQ_LOCKED,BQ_LRU の4つの種別がある。詳細は、brelse で。

@ bread(vp,blkno,size,cred,bpp)

つぎは、bread。

まず getblk(vp,blkno,size) で buf を獲得。

(bp->b_flags&(B_DONE|B_DELWRI)) のときは、すでに内容が入っているからなにもしない。

そうでなければ読んでくる。bp->b_flags |= B_READ; とするから、B_READ は READ 中というフラグ。

つぎに、

    if (bp->b_rcred == NOCRED && cred != NOCRED) {
            crhold(cred);
	    bp->b_rcred = cred;
    }

... これの意味は、今はわからない。

つぎに、VOP_STRATEGY(bp) で I/O 要求。
で biowait(bp) して終ったら戻る。

@ biowait(bp)

    s = splbio();
    while ((bp->b_flags & B_DONE) == 0)
        sleep((caddr_t)bp, PRIBIO);
    splx(s);

説明はいらない、こういう制御構造である。

@ biodone(bp)

これは..I/O が終ったら ... すなわち割込み処理の中で呼ばれるもの。

B_READ でなかったら(... WRITE だったらってこと) いくつか処理をする。

b_dirtyoff とかいうもの部分的に dirty という状態を許すらしい。をクリア。
p->v_numoutput-- しているから、I/O リクエストがいくつ出ているか管理しているのだろう。そして、それが 0 になったらということは、disk に対する I/O が全部終ったら、なにかを wakeup する。
それは、vflushbuf() 中のプロセス。ある disk に対するダーティなものを書き出し終るのを待つのは、umount とかだからこいつは、umount の延長で動くのだろう。

次に、B_CALL がセットされていれば、callback 関数 (bp->b_iodone)(bp) を呼び出す。

さらに、B_ASYNC のときは、brelse(bp)を呼び出す。

次に、B_WANTED の中をチェックすることなく、フラグを落して、 wakeup((caddr_t)bp)

あれ？ b_flags を変更するのに、splbio でちゃんと保護しているところもあれば、保護していないところもある。
I/O が終れば、かならず b_flags は変更されるが、I/O 中でない bp は関係ないわけか ... ううむ。
これを SMP のカーネルにもっていくなんて考えたら苦労しそう。

上で出てきた関数の関係って、だいたい次のようになるんだけども

    プロセスの処理                    割込み処理

     bread 
        getblk 
        VOP_VOP_STRATEGY(bp) ----------------------------> I/O が出る 
        :
        iowait
          sleep
            :                           biodone  <-------- 割込みが来る
            :                           wakeup
            <-----------------------------
          sleep 終り
     bread 戻る

     XXX の処理をする

     brelse とかで開放

やっぱり文章だけでイメージせよというのは無理かなぁ。といって、図書いてみても、自分のイメージを正確に表現できないし。
面倒ということもあって、どうも図を書くのは抵抗がある。

なんとなく... Linux とくらべてみる。

    プロセスの処理                    割込み処理

     bread 
        getblk 
        ll_rw_block(bh) ----------------------------> I/O が出る
        (retern with buffer_locked(bh))  
        wait_on_buffer(bh)
                                              -------- 割込みが来る
          do{                                 V
                                         end_buffer_io_sync
            if (!buffer_locked(bh))         
                 break;                      unlock_buffer(bh)
            schedule() <-----------------       wake_up(&bh->b_wait)   
          }
       wait_on_buffer 終り
     bread 戻る

     XXX の処理をする

     brelse とかで開放

まあ、似たようなものといっていいんだが ... (図では示していないけど) フラグとかリファレンスカウンタとかの状態の扱いは結構違う。

(最終更新 Thu Mar 30 18:58:34 2006)