tercul-backend/internal/jobs/linguistics/text_analyzer_test.go

package linguistics

import (
	"context"
	"errors"
	"testing"

	"github.com/stretchr/testify/assert"
	"github.com/stretchr/testify/require"
)

// Mocks for provider interfaces

type mockLangDetector struct {
	lang string
	err  error
}

func (m mockLangDetector) DetectLanguage(text string) (string, error) { return m.lang, m.err }

type mockSentimentProvider struct {
	score float64
	err   error
}

func (m mockSentimentProvider) Score(text string, language string) (float64, error) {
	return m.score, m.err
}

type mockKeywordProvider struct {
	kws []Keyword
	err error
}

func (m mockKeywordProvider) Extract(text string, language string) ([]Keyword, error) {
	return m.kws, m.err
}

func TestAnalyzeText_Empty(t *testing.T) {
	a := NewBasicTextAnalyzer()
	res, err := a.AnalyzeText(context.Background(), "", "")
	require.NoError(t, err)
	assert.NotNil(t, res)
	assert.Equal(t, 0, res.WordCount)
	assert.Equal(t, 0, res.SentenceCount)
	assert.Equal(t, 0.0, res.Sentiment)
	assert.Len(t, res.Keywords, 0)
}

func TestAnalyzeText_ProvidersAndLangDetection(t *testing.T) {
	// Arrange
	a := NewBasicTextAnalyzer().
		WithLanguageDetector(mockLangDetector{lang: "en", err: nil}).
		WithSentimentProvider(mockSentimentProvider{score: 0.75}).
		WithKeywordProvider(mockKeywordProvider{kws: []Keyword{{Text: "golang", Relevance: 0.42}}})

	text := "Go is great. Go makes concurrency easier."

	// Act
	res, err := a.AnalyzeText(context.Background(), text, "")

	// Assert
	require.NoError(t, err)
	require.NotNil(t, res)
	assert.InDelta(t, 0.75, res.Sentiment, 1e-9)
	require.Len(t, res.Keywords, 1)
	assert.Equal(t, "golang", res.Keywords[0].Text)
	assert.InDelta(t, 0.42, res.Keywords[0].Relevance, 1e-9)
	// Basic stats make sense
	assert.Greater(t, res.WordCount, 0)
	assert.Greater(t, res.SentenceCount, 0)
	// Readability is clamped to [0,100]
	assert.GreaterOrEqual(t, res.ReadabilityScore, 0.0)
	assert.LessOrEqual(t, res.ReadabilityScore, 100.0)
	assert.Equal(t, "Simplified Flesch-Kincaid", res.ReadabilityMethod)
}

func TestAnalyzeText_FallbackOnProviderError(t *testing.T) {
	// Arrange providers that fail so analyzer uses internal fallbacks
	a := NewBasicTextAnalyzer().
		WithSentimentProvider(mockSentimentProvider{err: errors.New("boom")}).
		WithKeywordProvider(mockKeywordProvider{err: errors.New("boom")})

	text := "I love good code but hate terrible bugs."

	// Act
	res, err := a.AnalyzeText(context.Background(), text, "en")

	// Assert
	require.NoError(t, err)
	require.NotNil(t, res)
	// Fallback sentiment should be between -1 and 1; with mixed words it should be non-zero
	assert.GreaterOrEqual(t, res.Sentiment, -1.0)
	assert.LessOrEqual(t, res.Sentiment, 1.0)
	// Keywords should come from fallback extractor and be non-empty for this text
	assert.NotEmpty(t, res.Keywords)
}

func TestAnalyzeTextConcurrently_AggregatesWithProviders(t *testing.T) {
	// Providers return consistent values regardless of input
	kw := []Keyword{{Text: "constant", Relevance: 0.3}}
	a := NewBasicTextAnalyzer().
		WithLanguageDetector(mockLangDetector{lang: "en", err: nil}).
		WithSentimentProvider(mockSentimentProvider{score: 0.5}).
		WithKeywordProvider(mockKeywordProvider{kws: kw})

	text := "One sentence. Another sentence! And a question? Final one."

	// Act
	_, err1 := a.AnalyzeText(context.Background(), text, "")
	conc, err2 := a.AnalyzeTextConcurrently(context.Background(), text, "", 3)

	// Assert
	require.NoError(t, err1)
	require.NoError(t, err2)

	// Basic stats: should be sane
	assert.Greater(t, conc.WordCount, 0)
	assert.GreaterOrEqual(t, conc.SentenceCount, 0)
	assert.GreaterOrEqual(t, conc.ParagraphCount, 1)
	assert.GreaterOrEqual(t, conc.AvgWordLength, 0.0)
	assert.GreaterOrEqual(t, conc.AvgSentenceLength, 0.0)

	// Readability is clamped to [0,100]
	assert.GreaterOrEqual(t, conc.ReadabilityScore, 0.0)
	assert.LessOrEqual(t, conc.ReadabilityScore, 100.0)
	assert.Equal(t, "Simplified Flesch-Kincaid", conc.ReadabilityMethod)

	// Provider-driven outputs should align
	assert.InDelta(t, 0.5, conc.Sentiment, 1e-9)
	require.Len(t, conc.Keywords, 1)
	assert.Equal(t, "constant", conc.Keywords[0].Text)
	assert.InDelta(t, 0.3, conc.Keywords[0].Relevance, 1e-9)
}

func TestAnalyzeTextConcurrently_ContextCanceled(t *testing.T) {
	a := NewBasicTextAnalyzer().
		WithLanguageDetector(mockLangDetector{lang: "en", err: nil}).
		WithSentimentProvider(mockSentimentProvider{score: 0.9}).
		WithKeywordProvider(mockKeywordProvider{kws: []Keyword{{Text: "x", Relevance: 0.1}}})

	text := "This should not be processed. Another sentence. And one more."

	ctx, cancel := context.WithCancel(context.Background())
	cancel() // cancel immediately before processing

	conc, err := a.AnalyzeTextConcurrently(ctx, text, "", 4)
	require.NoError(t, err)
	require.NotNil(t, conc)

	// With immediate cancellation, goroutines should early-return and no values should be sent
	assert.Equal(t, 0, conc.WordCount)
	assert.Equal(t, 0, conc.SentenceCount)
	assert.Equal(t, 0, conc.ParagraphCount)
	assert.Equal(t, 0.0, conc.AvgWordLength)
	assert.Equal(t, 0.0, conc.AvgSentenceLength)
	// Readability is clamped [0,100]; with zero stats it becomes 100
	assert.GreaterOrEqual(t, conc.ReadabilityScore, 0.0)
	assert.LessOrEqual(t, conc.ReadabilityScore, 100.0)
	assert.Empty(t, conc.Keywords)
	assert.Equal(t, 0.0, conc.Sentiment)
}