Hinglish Sentiment Analysis

🇮🇳

Dataset

—

Hinglish Comments

Code-mixed social media

🎯

Normalized

—

Test Accuracy

CV: — ± —

📈

OVR

—

ROC-AUC

Weighted one-vs-rest

🔤

TF-IDF

—

Feature Dimensions

Unigram + bigram

🔤

Lexicon

150

Hinglish Entries

Custom built lexicon

⚙️

Split

—

Test Samples

80/20 stratified split

Model Performance

Precision · Recall · F1 per Class

Classification report breakdown

Per Class

Confusion Matrix

Actual vs predicted · test set

10,000 samples

Sentiment Distribution

50,000 labeled comments

Dataset

Language Mix Analysis

Mix Type Distribution

Language mixing patterns

Token-level

Accuracy by Mix Type

Model performance per mix category

Mix × Accuracy

Accuracy by Domain

Model performance per topic domain

Domain

Platform Distribution

Comments by social platform

Platforms

Data Insights

Monthly Sentiment Trend

Positive / Negative / Neutral over 24 months

2022–2024

Sentiment by Domain

Distribution across 8 topic domains

Stacked

Normalization Pipeline — Before & After

Sample Normalization Transformations

Raw Hinglish → Normalized English — rule-based + lexicon substitution

Examples

Top TF-IDF Features per Sentiment

Most Discriminative Features — Logistic Regression Coefficients

Highest weighted unigrams and bigrams driving each sentiment class

Coefficients

Sample Predictions

Prediction Results

—

Raw Comment	Normalized	Domain	Mix Type	Hi%	Actual	Predicted	Correct	Confidence	P(pos)	P(neg)	P(neu)