catfile: Split out object info reader queue

Similar to the preceding commit, this commit splits out a new object info reader queue such that we can eventually change callers to use batched requests for object info. No change in behaviour is expected given that the queue is not yet used by anything except as implementation detail of the `Info()` function.

catfile: Split out object info reader queue
7f1fd9af · Patrick Steinhardt · aa318bf0 · 7f1fd9af · 7f1fd9af · 7f1fd9af
Commit 7f1fd9af authored 3 years ago by Patrick Steinhardt
--- a/internal/git/catfile/cache_test.go
+++ b/internal/git/catfile/cache_test.go
@@ -354,7 +354,7 @@ func TestCache_ObjectInfoReader(t *testing.T) {
 		// We're cheating a bit here to avoid creating a racy test by reaching into the
 		// process and trying to read from its stdout. If the cancel did kill the process as
 		// expected, then the stdout should be closed and we'll get an EOF.
-		output, err := io.ReadAll(objectInfoReaderImpl.stdout)
+		output, err := io.ReadAll(objectInfoReaderImpl.queue.stdout)
 		if err != nil {
 			require.True(t, errors.Is(err, os.ErrClosed))
 		} else {

--- a/internal/git/catfile/object_info_reader.go
+++ b/internal/git/catfile/object_info_reader.go
@@ -4,9 +4,11 @@ import (
 	"bufio"
 	"context"
 	"fmt"
+	"io"
+	"os"
 	"strconv"
 	"strings"
-	"sync"
+	"sync/atomic"
 	"github.com/opentracing/opentracing-go"
 	"github.com/prometheus/client_golang/prometheus"
@@ -96,17 +98,16 @@ type ObjectInfoReader interface {
 // long-lived  `git cat-file --batch-check` process such that we do not have to spawn a separate
 // process per object info we're about to read.
 type objectInfoReader struct {
-	cmd    *command.Command
+	cmd *command.Command
-	stdout *bufio.Reader
-	sync.Mutex
-	closed bool
 	// creationCtx is the context in which this reader has been created. This context may
 	// potentially be decorrelated from the "real" RPC context in case the reader is going to be
 	// cached.
 	creationCtx context.Context
 	counter     *prometheus.CounterVec
+	queue      objectInfoQueue
+	queueInUse int32
 }
 func newObjectInfoReader(
@@ -131,9 +132,12 @@ func newObjectInfoReader(
 	objectInfoReader := &objectInfoReader{
 		cmd:         batchCmd,
-		stdout:      bufio.NewReader(batchCmd),
 		creationCtx: ctx,
 		counter:     counter,
+		queue: objectInfoQueue{
+			stdout: bufio.NewReader(batchCmd),
+			stdin:  batchCmd,
+		},
 	}
 	go func() {
 		<-ctx.Done()
@@ -146,36 +150,112 @@ func newObjectInfoReader(
 }
 func (o *objectInfoReader) close() {
-	o.Lock()
+	o.queue.close()
-	defer o.Unlock()
 	_ = o.cmd.Wait()
-	o.closed = true
 }
 func (o *objectInfoReader) isClosed() bool {
-	o.Lock()
+	return o.queue.isClosed()
-	defer o.Unlock()
-	return o.closed
 }
 func (o *objectInfoReader) isDirty() bool {
-	// We always consume object info directly, so the reader cannot ever be dirty.
+	return o.queue.isDirty()
-	return false
+}
+func (o *objectInfoReader) infoQueue(ctx context.Context, tracedMethod string) (*objectInfoQueue, func(), error) {
+	if !atomic.CompareAndSwapInt32(&o.queueInUse, 0, 1) {
+		return nil, nil, fmt.Errorf("object info queue already in use")
+	}
+	trace, finish := startTrace(ctx, o.creationCtx, o.counter, tracedMethod)
+	o.queue.trace = trace
+	return &o.queue, func() {
+		atomic.StoreInt32(&o.queueInUse, 0)
+		finish()
+	}, nil
 }
 func (o *objectInfoReader) Info(ctx context.Context, revision git.Revision) (*ObjectInfo, error) {
-	trace, finish := startTrace(ctx, o.creationCtx, o.counter, "catfile.Info")
+	queue, cleanup, err := o.infoQueue(ctx, "catfile.Info")
-	defer finish()
+	if err != nil {
+		return nil, err
+	}
+	defer cleanup()
-	o.Lock()
+	if err := queue.RequestInfo(revision); err != nil {
-	defer o.Unlock()
+		return nil, err
+	}
-	if _, err := fmt.Fprintln(o.cmd, revision.String()); err != nil {
+	objectInfo, err := queue.ReadInfo()
+	if err != nil {
 		return nil, err
 	}
-	trace.recordRequest("info")
-	return ParseObjectInfo(o.stdout)
+	return objectInfo, nil
+}
+type objectInfoQueue struct {
+	stdout *bufio.Reader
+	stdin  io.Writer
+	// outstandingRequests is the number of requests which have been queued up. Gets incremented
+	// on request, and decremented when starting to read an object (not when that object has
+	// been fully consumed).
+	outstandingRequests int64
+	// closed indicates whether the queue is closed for additional requests.
+	closed int32
+	// trace is the current tracing span.
+	trace *trace
+}
+func (q *objectInfoQueue) isDirty() bool {
+	return atomic.LoadInt64(&q.outstandingRequests) != 0
+}
+func (q *objectInfoQueue) isClosed() bool {
+	return atomic.LoadInt32(&q.closed) == 1
+}
+func (q *objectInfoQueue) close() {
+	atomic.StoreInt32(&q.closed, 1)
+}
+func (q *objectInfoQueue) RequestInfo(revision git.Revision) error {
+	if q.isClosed() {
+		return fmt.Errorf("cannot request object info: %w", os.ErrClosed)
+	}
+	if _, err := fmt.Fprintln(q.stdin, revision.String()); err != nil {
+		return fmt.Errorf("requesting object info: %w", err)
+	}
+	atomic.AddInt64(&q.outstandingRequests, 1)
+	return nil
+}
+func (q *objectInfoQueue) ReadInfo() (*ObjectInfo, error) {
+	if q.isClosed() {
+		return nil, fmt.Errorf("cannot read object info: %w", os.ErrClosed)
+	}
+	// We first need to determine wether there are any queued requests at all. If not, then we
+	// cannot read anything.
+	queuedRequests := atomic.LoadInt64(&q.outstandingRequests)
+	if queuedRequests == 0 {
+		return nil, fmt.Errorf("no outstanding request")
+	}
+	// And when there are, we need to remove one of these queued requests. We do so via
+	// `CompareAndSwapInt64()`, which easily allows us to detect concurrent access to the queue.
+	if !atomic.CompareAndSwapInt64(&q.outstandingRequests, queuedRequests, queuedRequests-1) {
+		return nil, fmt.Errorf("concurrent access to object info queue")
+	}
+	q.trace.recordRequest("info")
+	return ParseObjectInfo(q.stdout)
 }
--- a/internal/git/catfile/object_info_reader_test.go
+++ b/internal/git/catfile/object_info_reader_test.go
@@ -2,7 +2,9 @@ package catfile
 import (
 	"bufio"
+	"errors"
 	"fmt"
+	"os"
 	"strings"
 	"testing"
@@ -162,3 +164,201 @@ func TestObjectInfoReader(t *testing.T) {
 		})
 	}
 }
+func TestObjectInfoReader_queue(t *testing.T) {
+	ctx, cancel := testhelper.Context()
+	defer cancel()
+	cfg, repoProto, repoPath := testcfg.BuildWithRepo(t)
+	blobOID := gittest.WriteBlob(t, cfg, repoPath, []byte("foobar"))
+	blobInfo := ObjectInfo{
+		Oid:  blobOID,
+		Type: "blob",
+		Size: int64(len("foobar")),
+	}
+	commitOID := gittest.WriteCommit(t, cfg, repoPath)
+	commitInfo := ObjectInfo{
+		Oid:  commitOID,
+		Type: "commit",
+		Size: 225,
+	}
+	t.Run("read single info", func(t *testing.T) {
+		reader, err := newObjectInfoReader(ctx, newRepoExecutor(t, cfg, repoProto), nil)
+		require.NoError(t, err)
+		queue, cleanup, err := reader.infoQueue(ctx, "trace")
+		require.NoError(t, err)
+		defer cleanup()
+		require.NoError(t, queue.RequestInfo(blobOID.Revision()))
+		info, err := queue.ReadInfo()
+		require.NoError(t, err)
+		require.Equal(t, &blobInfo, info)
+	})
+	t.Run("read multiple object infos", func(t *testing.T) {
+		reader, err := newObjectInfoReader(ctx, newRepoExecutor(t, cfg, repoProto), nil)
+		require.NoError(t, err)
+		queue, cleanup, err := reader.infoQueue(ctx, "trace")
+		require.NoError(t, err)
+		defer cleanup()
+		for oid, objectInfo := range map[git.ObjectID]ObjectInfo{
+			blobOID:   blobInfo,
+			commitOID: commitInfo,
+		} {
+			require.NoError(t, queue.RequestInfo(oid.Revision()))
+			info, err := queue.ReadInfo()
+			require.NoError(t, err)
+			require.Equal(t, &objectInfo, info)
+		}
+	})
+	t.Run("request multiple object infos", func(t *testing.T) {
+		reader, err := newObjectInfoReader(ctx, newRepoExecutor(t, cfg, repoProto), nil)
+		require.NoError(t, err)
+		queue, cleanup, err := reader.infoQueue(ctx, "trace")
+		require.NoError(t, err)
+		defer cleanup()
+		require.NoError(t, queue.RequestInfo(blobOID.Revision()))
+		require.NoError(t, queue.RequestInfo(commitOID.Revision()))
+		for _, expectedInfo := range []ObjectInfo{blobInfo, commitInfo} {
+			info, err := queue.ReadInfo()
+			require.NoError(t, err)
+			require.Equal(t, &expectedInfo, info)
+		}
+	})
+	t.Run("read without request", func(t *testing.T) {
+		reader, err := newObjectInfoReader(ctx, newRepoExecutor(t, cfg, repoProto), nil)
+		require.NoError(t, err)
+		queue, cleanup, err := reader.infoQueue(ctx, "trace")
+		require.NoError(t, err)
+		defer cleanup()
+		_, err = queue.ReadInfo()
+		require.Equal(t, errors.New("no outstanding request"), err)
+	})
+	t.Run("request invalid object info", func(t *testing.T) {
+		reader, err := newObjectInfoReader(ctx, newRepoExecutor(t, cfg, repoProto), nil)
+		require.NoError(t, err)
+		queue, cleanup, err := reader.infoQueue(ctx, "trace")
+		require.NoError(t, err)
+		defer cleanup()
+		require.NoError(t, queue.RequestInfo("does-not-exist"))
+		_, err = queue.ReadInfo()
+		require.Equal(t, NotFoundError{errors.New("object not found")}, err)
+	})
+	t.Run("can continue reading after NotFoundError", func(t *testing.T) {
+		reader, err := newObjectInfoReader(ctx, newRepoExecutor(t, cfg, repoProto), nil)
+		require.NoError(t, err)
+		queue, cleanup, err := reader.infoQueue(ctx, "trace")
+		require.NoError(t, err)
+		defer cleanup()
+		require.NoError(t, queue.RequestInfo("does-not-exist"))
+		_, err = queue.ReadInfo()
+		require.Equal(t, NotFoundError{errors.New("object not found")}, err)
+		// Requesting another object info after the previous one has failed should continue
+		// to work alright.
+		require.NoError(t, queue.RequestInfo(blobOID.Revision()))
+		info, err := queue.ReadInfo()
+		require.NoError(t, err)
+		require.Equal(t, &blobInfo, info)
+	})
+	t.Run("requesting multiple queues fails", func(t *testing.T) {
+		reader, err := newObjectInfoReader(ctx, newRepoExecutor(t, cfg, repoProto), nil)
+		require.NoError(t, err)
+		_, cleanup, err := reader.infoQueue(ctx, "trace")
+		require.NoError(t, err)
+		defer cleanup()
+		_, _, err = reader.infoQueue(ctx, "trace")
+		require.Equal(t, errors.New("object info queue already in use"), err)
+		// After calling cleanup we should be able to create an object queue again.
+		cleanup()
+		_, cleanup, err = reader.infoQueue(ctx, "trace")
+		require.NoError(t, err)
+		defer cleanup()
+	})
+	t.Run("requesting object dirties reader", func(t *testing.T) {
+		reader, err := newObjectInfoReader(ctx, newRepoExecutor(t, cfg, repoProto), nil)
+		require.NoError(t, err)
+		queue, cleanup, err := reader.infoQueue(ctx, "trace")
+		require.NoError(t, err)
+		defer cleanup()
+		require.False(t, reader.isDirty())
+		require.False(t, queue.isDirty())
+		require.NoError(t, queue.RequestInfo(blobOID.Revision()))
+		require.True(t, reader.isDirty())
+		require.True(t, queue.isDirty())
+		_, err = queue.ReadInfo()
+		require.NoError(t, err)
+		require.False(t, reader.isDirty())
+		require.False(t, queue.isDirty())
+	})
+	t.Run("closing queue blocks request", func(t *testing.T) {
+		reader, err := newObjectInfoReader(ctx, newRepoExecutor(t, cfg, repoProto), nil)
+		require.NoError(t, err)
+		queue, cleanup, err := reader.infoQueue(ctx, "trace")
+		require.NoError(t, err)
+		defer cleanup()
+		queue.close()
+		require.True(t, reader.isClosed())
+		require.True(t, queue.isClosed())
+		require.Equal(t, fmt.Errorf("cannot request object info: %w", os.ErrClosed), queue.RequestInfo(blobOID.Revision()))
+	})
+	t.Run("closing queue blocks read", func(t *testing.T) {
+		reader, err := newObjectInfoReader(ctx, newRepoExecutor(t, cfg, repoProto), nil)
+		require.NoError(t, err)
+		queue, cleanup, err := reader.infoQueue(ctx, "trace")
+		require.NoError(t, err)
+		defer cleanup()
+		// Request the object before we close the queue.
+		require.NoError(t, queue.RequestInfo(blobOID.Revision()))
+		queue.close()
+		require.True(t, reader.isClosed())
+		require.True(t, queue.isClosed())
+		_, err = queue.ReadInfo()
+		require.Equal(t, fmt.Errorf("cannot read object info: %w", os.ErrClosed), err)
+	})
+}