done がないと add に失敗する

done の要素数を基準に処理しているため、 done がないと add の処理に失敗する。 On-Policyの強化学習手法では done を保存する必要がないため done を使わない。よって処理に失敗する。 https://gitlab.com/ymd_h/cpprb/blob/master/cpprb/experimental/PyReplayBuffer.pyx#L131