Skip to content

Matteio/progettoBigData_Spark

 
 

Repository files navigation

Idee per le query:

1) Wordcount recensioni negative
2) Wordcount recensioni positive
idea: stabilire che cosa influenza maggiormente le recensioni di un visitatore

3) Dato il nome di una nazione trovare gli hotel di quella nazione
(Già fatta, va solo implementato il meccanismo di trasferimento al frontend)

4) Filtrare gli hotel in base all'Average_Score creando così una sorta di classifica

5) Contare numero di recensioni positive per ogni hotel e restituirne la coppia hotel-numero
( lato front-end si potrebbe implementare una sorta di like/dislike youtube style )

6) Contare numero di recensioni negative per ogni hotel e restituirne la coppia hotel-numero}

7) Filtrare le recensioni in base al giorno in cui è stata fatta(
   ad esempio nelle ultime 24 ore, negli ultimi 7 giorni, nell'ultimo mese, ecc..)

Mini filtraggi vari per la visualizzazione degli hotel su mappa:
3), 4),
8) Filtro soglia per punteggio medio
9) Filtro per numero totale di recensioni

10) Clienti più/meno esigenti sulla base della nazionalità
11) Rapporto tra esperienza del cliente e punteggio assegnato (//TODO concludere + web-server)

12) Studiare score della recensione in funzione del tempo (sfruttare la colonna 2 e 12)

Query di servizio:
13) Dato il nome di un hotel, restituire tutti i tag distinti
14) Data un nome di un hotel e una categoria di tag, restituisce tutti i tag distinti //TODO IN SOSPESO

15) Dato un hotel e un tag, restituire totale recensioni e punteggio medio //TODO nel web-server

16) Classificare gli hotel migliori in base ai tags (colonna 13) //TODO
osservazione: nella colonna 13, il vettore è così composto:
pos0 = tipo di viaggio effettuato
pos1 = solo/famiglia/in gruppo
pos2 = tipo stanza
pos3 = quanto tempo è rimasto in albergo
pos4 (può non esserci) = recensione (?) effettuata dal telefono o no

17) NAIVE BAYESIAN
(//todo migliorie elencate nel file NaiveBayes)

18) Filtraggio per:
- punteggio medio (avgscorefilter)
- nazione (geodatahotelsinnation)
- numero di recensioni (reviewsnumbfilter)
- (per tag?)
ritorna la lista di coordinate


DATASET:
Numero di righe: 515738
Le caratteristiche in nostro possesso:
0,Hotel_Address
1,Additional_Number_of_Scoring
2,Review_Date
3,Average_Score
4,Hotel_Name
5,Reviewer_Nationality
6,Negative_Review
7,Review_Total_Negative_Word_Counts
8,Total_Number_of_Reviews
9,Positive_Review
10,Review_Total_Positive_Word_Counts
11,Total_Number_of_Reviews_Reviewer_Has_Given
12,Reviewer_Score
13,Tags
14,days_since_review
15,lat
16,lng

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Scala 100.0%