Come evitare errori durante il calcolo del GMV di un mercato internazionale?

Quando si lavora con un mercato, è necessario calcolare il volume lordo delle merci (GMV). All'inizio sembra semplice: tutto ciò che serve è raccogliere i prezzi di tutti gli annunci attivi in ​​una colonna e fare clic su ESTATE. Tuttavia, se il tuo marketplace opera in diversi paesi, le cose potrebbero non essere così facili.

Perché è difficile calcolare GMV?

Lavoro a Lalafo, un mercato peer-to-peer basato sull'intelligenza artificiale. La piattaforma ha 3 milioni di utenti attivi da 4 paesi ogni mese. Alla fine del 2016, dovevamo calcolare il valore monetario totale di tutti gli annunci pubblicati su Lalafo per quell'anno.

Innanzitutto, abbiamo riassunto tutti i prezzi suggeriti dagli utenti, esclusi tutti gli annunci non posizionati e bloccati. Ciò ha comportato un GMV che era più grande del PIL di un paese che abbiamo usato per la valutazione!

Abbiamo ripulito i dati e convertito la valuta in tempo reale. Ciò ha ridotto il totale, ma era ancora irragionevolmente grande.

Il modo più popolare per eliminare le anomalie in un set di dati disordinato è utilizzare un intervallo interquartile (intervallo di dati tra il 25 ° e il 75 ° percentile). Anche questo approccio non ha risolto il problema, poiché il volume dei prezzi degli utenti è diventato molto basso dopo l'implementazione dell'intervallo interquartile.

Prestare attenzione ai percentili

Una veloce sessione di brainstorming ci ha dato l'idea che il problema fosse nei valori percentili: la differenza tra zero e il primo era troppo drammatica.

Un percentile (o un centile) è una misura utilizzata nelle statistiche che indica il valore al di sotto del quale diminuisce una determinata percentuale di osservazioni in un gruppo di osservazioni. Ad esempio, il 20o percentile è il valore (o il punteggio) al di sotto del quale è possibile trovare il 20% delle osservazioni. I percentili possono agire come lineari o non lineari in base alla presenza di errori nel set di dati. (Wikipedia)

Abbiamo deciso di rivedere il modo in cui tutti i percentili tra 1 e 100 hanno agito. Abbiamo trovato che tutti i dati tra Percentile 1 e 99 erano lineari, mentre tra 99 e 100 abbiamo riscontrato un forte aumento che indica che l'errore si verifica in questa sezione. Abbiamo rimosso tutti i dati tra il 99 ° e il 100 ° percentile che hanno risolto il problema.

L'importanza della categoria di prodotti

Il mercato Lalafo contiene varie categorie di prodotti. Le categorie più "costose" sono immobiliari e veicoli. Per ottenere un GMV più preciso, abbiamo deciso di tenere conto delle categorie di prodotti durante il calcolo dei percentili. Ad esempio, i veicoli e i percentili immobiliari sono dozzine di volte più grandi di quelli degli articoli di abbigliamento.

Di conseguenza noi:
- determinato il valore percentuale per ciascuna categoria.
- utilizzavano percentili solo in caso di GMV non lineare.
Questo ci ha dato un GMV preciso.

Un'altra cosa importante: la valuta

Gli utenti spesso dimenticano di impostare la valuta durante il posizionamento degli annunci. Ciò si traduce in iPhone 7S venduto a soli $ 20 o stufe che costano più dell'intero PIL della Colombia!

Per regolare la valuta mantenendo i risultati della modifica del set di dati per il 99 ° percentile, abbiamo deciso di effettuare le seguenti operazioni:

- imposta un prezzo comune per ogni categoria uguale alla mediana (Percentile 50) della categoria.
- guarda nel set di dati e regola la valuta, se il valore è troppo basso o troppo alto.

Calcolo GMV. Consiglio generale:

- i metodi comuni (mediana, intervallo interquartile) funzionano solo con un GMV lineare. Se non funzionano, ricontrolla i valori di tutti i percentili.

- calcola i percentili separatamente per ogni categoria.

- filtra i tuoi dati prima del calcolo.

- controlla i valori di valuta.