Proper storage/retrieval of termVector

Question

I'm using Lucene.NET 4.8-beta00005.

I have a "name" field in my documents defined as follows:

doc.Add(CreateField(NameField, entry.Name.ToLower()));
writer.AddDocument(doc);

Where CreateField is implemented as follows

private static Field CreateField(string fieldName, string fieldValue)
{
    return new Field(fieldName, fieldValue, new FieldType() {IsIndexed = true, IsStored = true, IsTokenized = true, StoreTermVectors = true, StoreTermVectorPositions = true, StoreTermVectorOffsets = true, StoreTermVectorPayloads = true});
}

The "name" field is assigned a StandardAnalyzer.

Then in my CustomScoreProvider I'm retriving the terms from the term vector as follows:

private List GetDocumentTerms(int doc, string fieldName)
{
    var indexReader = m_context.Reader;
    var termVector = indexReader.GetTermVector(doc, fieldName);
    var termsEnum = termVector.GetIterator(null);

    BytesRef termBytesRef;
    termBytesRef = termsEnum.Next();

    var documentTerms = new List();

    while (termBytesRef != null)
    {
        //removing trailing \0 (padded to 16 bytes)
        var termText = Encoding.Default.GetString(termBytesRef.Bytes).Replace("\0", "");
        documentTerms.Add(termText);
        termBytesRef = termsEnum.Next();
    }

    return documentTerms;
}

Now I have a document where the value of the "name" field is "dan gertler diamonds ltd."

So the terms from the term vector I'm expecting are:

dan gertler diamonds ltd

But my GetDocumentTerms gives me the following terms:

dan diamonds gertlers ltdtlers

I'm using as StandardAnalyzer with the field so I'm not expecting it to do much transformation to the orignal words in the field (and I did check with this particular name and StandardAnalyzer).

What am I doing wrong here and how to fix it?

Edit: I'm extracing the terms manually with each field's Analyzer and stroing the them in a separate String field as a workaroud for now.

Proper storage/retrieval of termVector

Answers (1)

Related Questions