Azure Speech Service (v3.2): Poor speaker diarization quality with batch transcription + How to choose correct base model?

Question

Current Issue

Using Azure Speech Service v3.2 with batch transcription
Speaker diarization fails to distinguish between male and female speakers
Previously worked well
Using mono audio file

Current Configuration


{
    "properties": {
        "diarizationEnabled": true,
        "wordLevelTimestampsEnabled": true,
        "displayFormWordLevelTimestampsEnabled": true,
        "channels": [0, 1],
        "diarization": {
            "speakers": {
                "minCount": 1,
                "maxCount": 25
            }
        }
    },
    "locale": "de-DE"
}

Current Model

Using base model: acf3c487-5d8c-4a4a-8241-f508cb5f2059 (German West Central)

Current code

import sys
import requests
import time
import ast
import os
import copy
import boto3
from datetime import datetime, timedelta
import swagger_client
from azure.storage.blob import BlobClient, generate_blob_sas, BlobSasPermissions


def transcribe_from_single_blob(self, uri, job_id, language, properties):
"""
Transcribe a single audio file located at `uri` using the settings specified in `properties`
using the base model for the specified locale.
"""

transcription_definition = swagger_client.Transcription(
    display_name=str(job_id),
    description='Transciption with Azure Base Model',
    locale=language,
    content_urls=[uri],
    properties=properties
) 

def transcribe(self, blob_uri, job_id, language):
logging.info("Starting transcription client...")

# configure API key authorization: subscription_key
configuration = swagger_client.Configuration()
configuration.api_key["Ocp-Apim-Subscription-Key"] = self.SUBSCRIPTION_KEY
configuration.host = f"https://{self.SERVICE_REGION}.api.cognitive.microsoft.com/speechtotext/v3.2"

properties = swagger_client.TranscriptionProperties()
properties.profanity_filter_mode = "None"  
properties.time_to_live = "PT48H"  
properties.punctuation_mode = "Automatic"
properties.word_level_timestamps_enabled = True
properties.display_form_word_level_timestamps_enabled = True


if self.number_speaker != 1:
    properties.diarization_enabled = True
    properties.diarization = swagger_client.DiarizationProperties(swagger_client.DiarizationSpeakersProperties(min_count=1, max_count=(25 if self.number_speaker == 0 else self.number_speaker)))
else:
    properties.diarization_enabled = False

# create the client object and authenticate
client = swagger_client.ApiClient(configuration)

# create an instance of the transcription api class
api =swagger_client.CustomSpeechTranscriptionsApi(api_client=client)
transcription_definition = self.transcribe_from_single_blob(blob_uri, job_id, language, properties)
created_transcription, status, headers = api.transcriptions_create_with_http_info(transcription=transcription_definition)

Questions

How can I improve the speaker diarization quality? How do I choose the correct base model for German batch transcription? What's the difference between regular base models and batch transcription models?

Configured proper diarization settings