Calculating mean coverage per gene

Question

I have 2 files: file 1 (below) has bp start and stop coordinates

Chrom	Gene start (bp)	Gene end (bp)
1	50902700	50902978
1	103817769	103828355

file 2 has mean coverage values per base pair position:

Chrom	pos	mean
1	12141	0.029005
1	12142	0.029216

what I need: I need to match chrom, start and end from file 1 (taking start and end as a range) to chrom, pos; and calculate average of means (mean column in file 2) within that range of coordinates of file 1.

desired output: Chromosome/scaffold name Gene start (bp) Gene end (bp) average coverage per gene

Chrom	Gene start (bp)	Gene end (bp)	average of means
1	50902700	50902978	(mean coverage for this gene)
1	103817769	103828355	(mean coverage for this gene)

I have tried using dictionaries and nested for loops:

Code:

`# importing gene start/end files
df_gene = pd.read_csv('gene_list.csv')
# importing exome data file
df_data = pd.read_csv('exomes.coverage.summary.tsv', sep = '	')
# Creating a Dictionary to store mean values
dict_mean=df_data.set_index('pos')['mean'].to_dict()

start = df_gene['Gene start (bp)'].to_list()
end = df_gene['Gene end (bp)'].to_list()

list_mean=[]
x=0
df_mean = pd.DataFrame(columns=['start','end','mean coverage'])
### looping:
for s,e in zip(start,end):    
    for key,val in dict_mean.items():
        if key>=s and key<=e:
                list_mean.append(val)
                x=np.mean(list_mean)    #calculating average of means           
                
    my_series = pd.Series(data=[s, e, x], index=['start', 'end', 'mean coverage'])
    df_mean=df_mean.append(my_series,ignore_index=True)
    
### Add mean coverage to gene dataframe
df_gene['mean coverage'] = df_mean['mean coverage']

df_gene.to_csv('gene_out.csv', index=False)
`

The code works, but it doesn't account for the chrom number. How can I find the average of means within the range of start and stop?

Calculating mean coverage per gene

Answers (1)

Related Questions