• Sentiment Analysis
    Bài viết hay,  Nhật kí coding

    Part 8_Sentiment Analysis from Film Reviews | Vietnamese NLP with PhoBERT & Telegram Chatbot

    Part 8_Sentiment Analysis from Film Reviews | Vietnamese NLP with PhoBERT & Telegram Chatbot Phân loại nhị phân Sentiment review phim MoMo (Tối ưu mô hình cho bài toán thực tế: Tích cực vs Tiêu cực) Vì sao cần phân loại nhị phân? Ở các nội dung trước, dự án đã tập trung vào phân loại đa lớp sentiment (tích cực – trung lập – tiêu cực). Tuy nhiên, trong nhiều ứng dụng thực tế như: Hệ thống gợi ý phim Đánh giá nhanh mức độ hài lòng của người dùng Dashboard phân tích phản hồi khách hàng bài toán thường được đơn giản hóa thành: Review tích cực hay…

  • Sentiment Analysis
    Bài viết hay,  Nhật kí coding

    Part 7_Sentiment Analysis from Film Reviews | Vietnamese NLP with PhoBERT & Telegram Chatbot

    Part 7_Sentiment Analysis from Film Reviews | Vietnamese NLP with PhoBERT & Telegram Chatbot Kiểm tra và đánh giá chất lượng dữ liệu trong dự án Sentiment Analysis review phim MoMo (Đảm bảo độ tin cậy trước khi triển khai phân loại nhị phân) Vì sao cần kiểm tra lại dữ liệu? Sau khi đã lần lượt thực hiện: Thu thập dữ liệu (Notebook #1) Làm sạch và chuẩn hóa (Notebook #2) Cân bằng dữ liệu (Notebook #3) Huấn luyện nhiều mô hình ML (Notebook #4) Deep Learning CNN + LSTM (Notebook #5) Fine-tune PhoBERT (Notebook #6) Dữ liệu đã trải qua nhiều bước biến đổi liên tiếp. Vì vậy,…

  • Sentiment Analysis
    Bài viết hay,  Nhật kí coding

    Part 6_Sentiment Analysis from Film Reviews | Vietnamese NLP with PhoBERT & Telegram Chatbot

    Part 6_Sentiment Analysis from Film Reviews | Vietnamese NLP with PhoBERT & Telegram Chatbot Sentiment Analysis review phim MoMo với PhoBERT (Khai thác sức mạnh mô hình ngôn ngữ tiền huấn luyện cho tiếng Việt) Vì sao chọn PhoBERT cho tiếng Việt? Sau khi thử nghiệm: Machine Learning truyền thống (Notebook #4) Deep Learning CNN + LSTM (Notebook #5) chúng ta nhận thấy Deep Learning đã cải thiện rõ rệt khả năng hiểu ngữ cảnh. Tuy nhiên, các mô hình này vẫn phải học từ đầu biểu diễn ngôn ngữ, trong khi tiếng Việt có nhiều đặc thù (tách từ, dấu, ngữ cảnh). PhoBERT là mô hình ngôn ngữ tiền…

  • Sentiment Analysis
    Bài viết hay,  Nhật kí coding

    Part 5_Sentiment Analysis from Film Reviews | Vietnamese NLP with PhoBERT & Telegram Chatbot

    Part 5_Sentiment Analysis from Film Reviews | Vietnamese NLP with PhoBERT & Telegram Chatbot Sentiment Analysis review phim MoMo với Deep Learning (CNN + LSTM) (Khi học sâu phát huy sức mạnh trên dữ liệu văn bản tiếng Việt) Vì sao cần Deep Learning cho Sentiment Analysis? Ở Nội dung #4, các mô hình Machine Learning truyền thống (Naive Bayes, Logistic Regression, SVM…) đã cho kết quả khá tốt và đóng vai trò baseline. Tuy nhiên, các mô hình này vẫn có những hạn chế: Phụ thuộc mạnh vào đặc trưng thủ công (TF-IDF) Khó nắm bắt ngữ cảnh dài và thứ tự từ Chưa khai thác tốt cấu trúc…

  • Sentiment Analysis
    Bài viết hay,  Nhật kí coding

    Part 4_Sentiment Analysis from Film Reviews | Vietnamese NLP with PhoBERT & Telegram Chatbot

    Part 4_Sentiment Analysis from Film Reviews | Vietnamese NLP with PhoBERT & Telegram Chatbot Huấn luyện và so sánh nhiều mô hình Sentiment Analysis cho review phim MoMo (Từ Machine Learning truyền thống đến baseline cho Deep Learning) Mục tiêu của bước huấn luyện đa mô hình Sau khi hoàn thành: Thu thập dữ liệu (Notebook 1) Làm sạch dữ liệu (Notebook 2) Cân bằng dữ liệu sentiment (Notebook 3) Chúng ta đã có một dataset sạch – cân bằng – sẵn sàng cho huấn luyện mô hình. Notebook 4_sentiment_multimodel.ipynb được xây dựng với mục tiêu: Huấn luyện và so sánh nhiều mô hình Sentiment Analysis trên cùng một tập…

  • Sentiment Analysis
    Bài viết hay,  Nhật kí coding

    Part 3_Sentiment Analysis from Film Reviews | Vietnamese NLP with PhoBERT & Telegram Chatbot

    Part 3_Sentiment Analysis from Film Reviews | Vietnamese NLP with PhoBERT & Telegram Chatbot Cân bằng dữ liệu sentiment review phim MoMo (Giải quyết bài toán mất cân bằng lớp trong Sentiment Analysis) Vì sao cần cân bằng dữ liệu? Sau khi hoàn thành bước làm sạch và chuẩn hóa dữ liệu (Notebook 2), ta đã có một tập review phim tiếng Việt gọn gàng, nhất quán về định dạng. Tuy nhiên, một vấn đề thường gặp trong các bài toán phân tích cảm xúc là: Dữ liệu sentiment thường bị mất cân bằng giữa các lớp. Trong review phim: Lớp tích cực thường chiếm tỷ lệ cao Lớp trung…

  • Sentiment Analysis
    Bài viết hay,  Chuyện học,  Nhật kí coding

    Part 2_Sentiment Analysis from Film Reviews | Vietnamese NLP with PhoBERT & Telegram Chatbot

    Part 2_Sentiment Analysis from Film Reviews | Vietnamese NLP with PhoBERT & Telegram Chatbot Làm sạch và chuẩn hóa dữ liệu review phim MoMo (Bước tiền xử lý quan trọng trong Sentiment Analysis tiếng Việt) Vai trò của bước làm sạch dữ liệu Sau khi hoàn thành bước thu thập dữ liệu ở Notebook 1 – Scrape dataset, chúng ta đã có một tập dữ liệu review phim thô (raw data) từ MoMo. Tuy nhiên, dữ liệu dạng này chưa thể đưa trực tiếp vào mô hình học máy, bởi: Review chứa nhiều ký tự đặc biệt, emoji, HTML Có review trống hoặc rất ngắn, không mang ý nghĩa cảm…

  • Sentiment Analysis
    Nhật kí coding,  Bài viết hay

    Part 1_Sentiment Analysis from Film Reviews | Vietnamese NLP with PhoBERT & Telegram Chatbot

    Part 1_Sentiment Analysis from Film Reviews | Vietnamese NLP with PhoBERT & Telegram Chatbot Xây dựng Dataset Review Phim từ MoMo bằng Selenium (Bước đầu tiên trong dự án Sentiment Analysis tiếng Việt) Giới thiệu dự án Trong bài toán phân tích cảm xúc (Sentiment Analysis) cho tiếng Việt, dữ liệu luôn là yếu tố then chốt. Với các nền tảng đánh giá phim như MoMo Cinema, người dùng để lại hàng nghìn nhận xét mỗi ngày, phản ánh khá chân thực cảm xúc tích cực, tiêu cực và trung lập của khán giả. Dự án này hướng đến việc: Thu thập dữ liệu review phim từ MoMo Xây dựng…

  • ThatTime
    Bài viết hay,  Chuyện làm,  Nhật kí coding

    Kì thực tập diệu kì

    Kì thực tập diệu kì | ThatTime 2025 Từ ngày 10 tháng 2 đến ngày 10 tháng 5 năm 2025, tôi đã sống một quãng thời gian mà có lẽ cả đời sẽ khó quên – kỳ thực tập ba tháng tại TMA, Quy Nhơn, Bình Định. Ba tháng ấy, với người khác có thể chỉ là một khoảng thời gian học hỏi và làm việc, nhưng với tôi, hơn thế đó là một hành trình diệu kỳ. Tôi lần đầu tiên tự mình đi xa nhà lâu đến thế, lần đầu tiên tự mình sống ở một thành phố mà tôi có thể ví là đất khách quê người,…