@kuku86 grazie per la segnalazione.
L'algoritmo che permette di separare gli annunci "trans" da quelli dell "girl" è ancora un po' rozzo ed elementare ma sto pensando a soluzioni più raffinate che coinvolgono l'intelligenza artificiale e il machine learning.
Ora dirò una cosa che non ho condiviso con
@CaptainAmerica e mi assumo il rischio di prendermi del coglione pubblicamente oppure semplicemente un no come risposta.
Facciamo prima però un po' di chiarezza.
Definizioni:
1) EscortHub è il data warehouse di Punterforum, il bidone aspiratutto che si propone come alternativa "privacy by design" e "ads free" di megaescort.info e affini (se visiti EscortHub la visita viene tracciata ma in modo del tutto anonimo e per soli fini statistici, inotre su EscortHub non viene proposta pubblicità che non sia quella estremamente selezionata delle nostre SuperStar).
2) EscortHub serve a mitigare il problema della volatilità degli annunci dei vari portali verticali di cui si alimenta: se sei una freelance xxx su internet prima o poi finisci anche su EscortHub e ci rimani finchè non eserciti il diritto all'oblio. Serve inotre da raccordo con la community e una sorta di cartina di tornasole sull'affidabilità dell'annuncio. Infatti se il numero di telefono è stato recensito o comunque citato nei vai thread del forum (ad eccezione del cestino) compare il link con il thread. Poi ci sono le stelline. "Ma a che servono?" si chiederanno i miei 25 lettori: sono la carta acchiappamosche: chiunque può cliccare e mettere una stellina, senza essere loggato per di più. Quindi se le stelline sono solo tre, un punter con un po' di esperienza sente in lontananza l'odore di cherosene del missile sulla pista di lancio: c'è una buona probabilità che sia un nuovo numero di telefono di una navigata del mestiere che cerca di bypassare il sistema delle recensioni che fa del numero di telefono l'identificativo univoco (a meno che non sia un numero di un'agenzia). Se le stelline sono spropositate in considerazione delle recensioni negative presenti nei thread della community dove invece è presente una rigida moderazione con verifica dei dati inseriti, bhè, il missile è bello che in viaggio.
Quindi tutta questa manfrina per illustrare la big picture e gli obiettivi futuri:
Come in ogni data warehouse che si rispetti i dati vengono catalogati ed elaborati.
Ora vengono solo suddivisi per città e per tipologia.
Voglio studiare la possibilità di utilizzare l'AI (sì
TensorFlow, sto parlando di te) non solo per categorizzare ma anche per rimuovere la spazzatura tipo i minus habens che pubblicano le foto dei loro insignificanti peni sperando di attirare qualche pulzella (ma che problema hanno questi?) o i fake conclamati (es. gli annunci che utilizzano le foto delle modelle o delle pornostar) perchè una dato catalogato con cura è una risorsa, un mischione è inservibile.
Per fare questo tipo di scrematura, lato FAKE, avrò bisogno del supporto dei validissimi debunker che operano nel forum "Cape Canaveral" e "Fake", (
@crin e
@Neurus in primis, ma il contributo di ognuno sarà utilissimo).
L'idea è quella di utilizzare i thread presenti nelle citate discussioni "Cape Canaveral" e "Fake" come dataset di allenamento per insegnare all'algoritmo come riconoscere i fake. Quindi quando viene aperto un nuovo thread in quella sezione ho bisogno di un po' di disciplina (tipo come avviene per le recensioni) nella disposizione dei dati. Faccio un esempio di come dovrebbero essere disposte le informazioni:
Organizzando le informazioni in modo univoco nel thread consentirebbe di estrapolare le informazioni necessarie per l'addestramento dell'algoritmo.
Cosa ne pensate?