Luận văn tốt nghiệp - Phân tích cú pháp tiếng việt theo tiếp cận thống kê

  1. Tác giả: LTTK CTV26
    Đánh giá: ✪ ✪ ✪ ✪ ✪

    Luận văn tốt nghiệp - Phân tích cú pháp tiếng việt theo tiếp cận thống kê

    Phân tích cú pháp là một trong những bài toán cơ bản và quan trọng nhất trong xử lý ngôn ngữ tự nhiên (XLNNTN). Kết quả của phân tích cú pháp được sử dụng trong rất nhiều ứng dụng XLNNTN khác như dịch máy, hỏi đáp, trích chọn thông tin... Xây dựng một bộ phân tích cú pháp cho tiếng Việt có độ chính xác cao là một công việc rất có ý nghĩa. Mục tiêu đề ra của luận văn là xây dựng bộ phân tích cú pháp tiếng Việt theo tiếp cận thống kê. Đây là một hướng tiếp cận khá mới mẻ trong cách xây dựng bộ phân tích cú pháp tiếng Việt. Luận văn sẽ trình bày khái quát về các cách tiếp cận trong việc xây dựng bộ phân tích cú pháp, và đi sâu tìm hiều về văn phạm phi ngữ cảnh xác suất từ vựng (Lexicalized Probabilistic Context Free Grammar). Cụ thể hơn, tôi tìm hiểu, nghiên cứu 3 mô hình xác suất của Collins [11], và áp dụng công cụ phân tích của Bikel’s [9] để thử nghiệm cho phân tích cú pháp tiếng Việt. Phân tích cú pháp dựa theo thống kê cần có dữ liệu để huấn luyện mô hình. Trong luận văn, tôi sẽ sử dụng ngữ liệu Viet Treebank. Kết quả thực nghiệm cho thấy độ chính xác (precision) là trên 80% với hơn 9000 câu huấn luyện và 500 câu kiểm tra. Những kết quả của luận văn cho thấy rằng, đối với tiếng Việt, mô hình 1 của Collin có độ chính xác thấp hơn so với mô hình 2, và mô hình 3 chưa thực sự hiệu quả. Ngoài ra, kết quả thực nghiệm còn chỉ ra một số tham số của mô hình 2 của Collins có ảnh hưởng tới độ chính xác của bộ phân tích cú pháp.

    [​IMG]

    ✪ ✪ ✪ ✪ ✪



    Link tải tài liệu:

    LINK TẢI TÀI LIỆU