Nghiên cứu, phát triển một số sản phẩm tiêu biểu và thiết yếu về xử lí tiếng nói và văn bản tiếng Việt

Mục tiêu thực hiện:

Nội dung nghiên cứu và triển khai để xây dựng nhóm hệ chuyên dụng dùng công nghệ nhận dạng và tổng hợp tiếng Việt (SP1). 

Nội dung mới và công nghệ chủ yếu trong công nghệ nhận dạng và tổng hợp tiếng Việt nhằm nắm được bản chất các đặc trưng của ngữ âm, thanh điệu và ngôn điệu tiếng Việt. Các nghiên cứu này phải thực hiện lâu dài và ngay cả trong giai đoạn 2006-2007:
(a) Nghiên cứu, phân tích các đặc trưng ngữ âm, thông số của tiếng Việt như: thanh điệu, cao độ, trường độ, cường độ trong phạm vi âm tiết, ngữ đoạn, các loại câu khác nhau.
(b) Nghiên cứu về luật liên cấu âm giữa các âm vị, luật biến đổi đặc trưng các âm vi theo ngữ cảnh, nối âm, biến âm của các âm vị của các âm tiết trong ngữ đoạn, quy luật về khoảng lặng giữa các từ, giữa các âm tiết.
(c) Mô hình hóa ngôn điệu tiếng Việt.
(d) Các cải thiện về thành phần phi ngôn ngữ: các yếu tố về chất giọng, cảm xúc được thể hiện trong giọng nói
(e) Nghiên cứu các công nghệ giảm nhiễu ồn trong môi trường tự nhiên. Nội dung này rất khó do nhiễu tự nhiên rất đa dạng và chưa có công nghệ nào đảm bảo khử nhiễu tuyệt đối.

Nghiên cứu các công nghệ nhằm tích hợp vào các môi trường ứng dụng:
(f) Nghiên cứu phần mềm JAWS đọc màn hình cho người khiếm thị.
(g) Nghiên cứu tích hợp cổng tiếng nói: Khai thác môi trường lập trình Dialogic theo hai cách tiếp cận chuẩn TAPI chạy trên hệ điều hành Windows 2000, 2003 server độc lập thiết bị; khai thác thư viện lập trình của Dialogic độc lập hệ điều hành: Lập trình xử lý vào ra trên Dialogic theo hai chế độ đồng bộ và không đồng bộ, lập trình xử lý tiếng nói thời gian thực dựa trên thư viện CSP (Continuous Speech Processing) của Dialogic, ghi âm được thư thoại.
(h) Khảo sát sự đa dạng về chủng loại điện thoại di động, và các thiết bị cầm tay.
(i) Nghiên cứu, thiết kế tối ưu hoá hệ thống nhận dạng về mặt kích thước, thuật toán để hệ thống có thể chạy hiệu quả trên nền điện thoại di động với khả năng hạn chế về vi xử lý, bộ nhớ, tốc độc truyền dữ liệu.
(j) Nghiên cứu hệ thống nhận dạng từ vựng nhỏ trong một số thiết bị điều khiển.
(k) Nghiên cứu hệ thống phân tích luồng âm thanh: dò tìm tiếng nói tự động trong thời gian thực trong một luồng âm thanh, ứng dụng trong các công việc giám sát, dò tìm tự động, phân loại trong thời gian thực, kích hoạt một bộ điều khiển để giám sát đối tượng. 


Nội dung nghiên cứu và triển khai để xây dựng các kho ngữ liệu ngữ âm cho tổng hợp và nhận dạng tiếng nói (SP6)
• Kho ngữ liệu ngữ âm cho tổng hợp tiếng Việt 
(a) Nghiên cứu nguyên tắc chung khi xây dựng một dữ liệu tiếng nói cho tổng hợp: thu thập văn bản tiếng nói, tự động trich chọn tập dữ liệu bao hàm ít nhất một trong những mục tiêu sau: bao phủ về mặt ngữ nghĩa, bao phủ về mặt cú pháp, bao phủ về mặt ngôn điệu và bao phủ về mặt từ [8].
(b) Đánh giá chuyên gia về tập câu, thu gọn chỉnh sủa tập câu.
(c) Thu âm bằng hai giọng Nam và Nữ chuẩn (Nam cao và Nữ trầm).
(d) Phân tích, gán nhãn bằng các công cụ tự động và chỉnh sửa bằng tay. 
• Kho ngữ liệu ngữ âm từ vựng lớn
(a) Nghiên cứu nguyên tắc chung khi xây dựng dữ liệu tiếng nói: chứa các câu, từ thường xuyên sử dụng, đủ lớn các biến thể để có thể hỗ trợ tạo ra ngôn ngữ nói tự nhiên và linh hoạt, bao hàm ít nhất một trong những mục tiêu sau: bao phủ về mặt ngữ nghĩa, bao phủ về mặt cú pháp, bao phủ về mặt ngôn điệu và bao phủ về mặt từ [8].
(b) Thiết kế xây dựng khuôn dạng dữ liệu trong kho ngữ liệu.
(c) Thu âm với độ đa dạng của số lượng giọng nói, giới tính, độ tuổi, thổ ngữ địa phương (3 miền).
(d) Nghiên cứu gán nhãn với đơn vị đủ nhỏ cho các nghiên cứu về nhận dạng.
(e) Thực hiện gán nhãn tự động và chỉnh sửa bằng tay.
(f) Đánh giá phân tích kho ngữ liệu.
• Kho ngữ liệu ngữ âm đặc thù, mười chữ số tiếng Việt, tên người, địa danh.
(a) Khảo sát các tiêu chí tạo dựng CSDL ngữ âm cho các ứng dụng đặc thù như: số lần xuất hiện của mỗi chữ số là tương đương, số lượng từ vựng, đảm bảo các chữ số ngẫu nhiên và độ dài khác nhau.
(b) Khảo sát thu thập các tên người và địa danh tiếng Việt, đảm bảo độ đầy đủ nhất với tên người, địa danh mỗi câu gồm họ tên đầy đủ, số lượng từ vựng.

Nội dung nghiên cứu và triển khai để xây dựng các tài nguyên cơ bản cho xử lý văn bản tiếng Việt (SP7)
• Từ điển từ tiếng Việt cho máy tính (SP7.2)
(a) Mô hình từ điển (tổ chức liên kết giữa các mục từ, xác định thông tin ngữ pháp, ngữ nghĩa cần mô tả cho mỗi mục từ)
(b) Bổ sung kho văn bản thô đã thu thập trước đây (trong đề tài KC01-03 và của Trung tâm từ điển Vietlex) từ nguồn báo chí của Việt Nam trên Internet (cùng với nhóm SP7.3, SP8.2).
(c) Xác định, liệt kê cụ thể các mục từ sẽ có trong từ điển (khoảng 35 đến 40 ngàn từ)
(d) Thực hiện mô tả 3000 từ tiếng Việt thông dụng (có tần số sử dụng cao nhất trong kho văn bản tiếng Việt thu thập được).
(e) Hoàn thiện mô tả 3000 từ trên (qua phản hồi của các nhóm sản phẩm khác như SP7.3, SP8.2, SP8.5, v.v.) và tiến hành mô tả các mục từ còn lại.
° Nội dung mới, quan trọng nhất, công nghệ chủ yếu: Trong khuôn khổ đề tài KC01-03, một từ điển tiếng Việt với mô tả từ loại gồm hơn 35 ngàn từ đã được xây dựng nhằm phục vụ chủ yếu cho phân tích từ loại trong văn bản tiếng Việt. Nội dung mới của đề tài này là mở rộng từ điển trên với các mô tả ngữ pháp, ngữ nghĩa để có thể phục vụ cho các ứng dụng cần đến phân tích cú pháp tiếng Việt. 
° Nội dung thực hiện sau hai năm đầu: Xây dựng các từ điển chuyên ngành, và hoàn thiện từ điển qua trao đổi với các nhóm sản phẩm khác.

• Kho ngữ liệu câu tiếng Việt được chú giải ngữ pháp (SP7.3, Viet TreeBank)
(a) Nghiên cứu các tiêu chuẩn mà một TreeBank cần đạt được, các kinh nghiệm và kỹ thuật xây dựng TreeBank (từ các dự án như Penn TreeBank hay Chinese TreeBank). 
(b) Nghiên cứu tài liệu về ngữ pháp tiếng Việt.
(c) Thiết kế tập nhãn cú pháp (tag set) và tập qui tắc gán nhãn cú pháp (tag guide).
(d) Thu thập tập câu tiếng Việt thô.
(e) Gán nhãn ngữ pháp đầy đủ cho 10000 câu. Kết thúc bước (e) này sẽ có phiên bản Viet TreeBank 1.0.
(f) Từ các thông tin phản hồi của người sử dụng và ý kiến đóng góp của các chuyên gia về phiên bản Viet TreeBank 1.0, đưa ra các sửa đổi và nâng cấp cần thiết (cả về thiết kế và dữ liệu).
(g) Gán nhãn cú pháp đầy đủ cho 20000 câu, gán nhãn từ loại cho 20000 câu khác để tạo phiên bản Viet TreeBank 2.0.
° Nội dung mới, quan trọng nhất, công nghệ chủ yếu: (c), (d), (e)
° Nội dung thực hiện từ sau hai năm đầu: (f), (g)

• Kho ngữ liệu các cặp câu Anh-Việt được chú giải nghĩa và kho ngữ liệu các cặp câu song ngữ thô Anh-Việt (SP7.4)
(a) Nghiên cứu tiêu chí chọn mẫu ngữ liệu song ngữ Anh-Việt.
(b) Thu thập ngữ liệu song ngữ Anh-Việt từ các nguồn khác nhau theo tiêu chí đã định.
(c) Xây dựng công cụ chuẩn hoá ngữ liệu song ngữ.
(d) Chuẩn hoá ngữ liệu song ngữ Anh-Việt theo một định dạng duy nhất.
(e) Xây dựng bộ nhãn ngôn ngữ (tagset).
(f) Xây dựng công cụ gán nhãn ngôn ngữ cho ngữ liệu song ngữ.
(g) Gán nhãn ngôn ngữ cho ngữ liệu song ngữ Anh-Việt.

° Nội dung mới, quan trọng nhất, công nghệ chủ yếu: (c)-(g)


Nội dung nghiên cứu và triển khai để xây dựng các công cụ cơ bản của xử lý tiếng Việt (SP8)
• Công cụ phân tích ngữ âm tiếng Việt (SP8.1)
(a) Tạo công cụ nhằm mục tiêu: tăng độ nghe rõ như các đặc trưng của các âm vị, liên cấu âm giữa các âm vị, nguồn kích thích.
(b) Tạo công cụ khảo sát trực quan về ngữ điệu của tiếng nói: cao độ, trường độ.
(c) Tạo công cụ khảo sát trực quan các thông tin về chất giọng, cảm xúc của tiếng nói.

• Công cụ phân tách từ (SP8.2)
(a) Thống nhất một quy định chuẩn về đơn vị từ trong xử lý ngôn ngữ.
(b) Đánh giá và lựa chọn, xây dựng một phương pháp tách từ đạt kết quả tốt nhất cho tiếng Việt.
(c) Xây dựng từ điển tên riêng các tổ chức, các biểu thức chính quy nhận biết các đơn vị như số đếm, ngày tháng, v.v.
° Nội dung mới, quan trọng nhất, công nghệ chủ yếu: (a), (b)
• Công cụ gán nhãn từ loại (SP8.3)
(a) Bàn bạc và thống nhất về quy tắc và chuẩn phân loại từ tiếng Việt.
(b) Xây dựng các hệ phân lớp từ loại từ tiếng Việt dựa trên lý thuyết về MaxEnt và CRFs ở mức 1 (mức chưa áp dụng dữ liệu huấn luyện).
(c) Huấn luyện các bộ phân lớp trên tập dữ liệu gắn nhãn (khoảng 2.000 câu).
(d) Huấn luyện bộ phân lớp trên tập dữ câu gắn nhãn sẵn (khoảng 5000 câu).
(e) Huấn luyện bộ phân lớp trên tập dữ câu gắn nhãn sẵn cuối cùng (khoảng 10.000 câu).
(f) Huấn luyên bộ phân lớp tăng cường và bán giám sát để đạt thêm 10.000 câu gắn nhãn).
° Nội dung mới, quan trọng nhất, công nghệ chủ yếu: (b) phát triên hệ gắn nhãn từ loại tiếng Việt.. Nội dung tiếp tục thực hiện sau hai năm đầu: (f)
• Công cụ gộp nhóm từ (SP8.4)
(a) Xác định tập gán nhãn chuẩn.
(b) Xây dựng tập gán nhãn dung lượng bé (2000 câu).
(c) Triển khai việc vận dụng CRFs và SVMs cho gán nhãn từ tiếng Việt.
(d) Xây dựng bộ công cụ đánh giá và dữ liệu test khoảng 400 câu.
(e) Triển khai việc thử nghiệm mô hình trên tập dữ liệu gán nhãn rất lớn. Xây dựng bộ dữ liệu thử nghiệm chuẩn.
(f) Xây dựng giao diện thân thiện với người sử dụng.

° Nội dung mới, quan trọng nhất, công nghệ chủ yếu: (c), (d), (e), nhằm xây dựng một hệ thống gộp nhóm từ bằng tiếng Việt với độ chính xác đạt chuẩn thế giới, vận dụng linh hoạt phương pháp CRFs cho gộp nhóm từ Việt.
° Nội dung thực hiện từ sau hai năm đầu: (f), nhằm xây dựng cơ chế tương tác giữa quá trình huấn luyện gộp nhóm từ Việt với người nhập liệu. và tiếp tục cải tiến và hoàn thiện phương pháp gộp nhóm từ Việt, tăng độ chính xác hơn nữa.

• Công cụ phân tích cú pháp câu tiếng Việt (SP8.5)
(a) Xây dựng tập các quy tắc ngữ pháp tiếng Việt dùng cho xử lý tự động ngôn ngữ
(b) Tìm hiểu các các giải pháp và thành bại trong việc xử lý các ngôn ngữ khác, đặc biệt các ngôn ngữ gần với tiếng Việt
(c) Đề xuất một số cách tiếp cận trong việc phân tích cú pháp phù hợp với tiếng Việt: 
– PTCP dựa trên bộ luật theo văn phạm LCFG (Lexicalized Context Free Grammar).
– PTCP dựa trên kho ngữ liệu đã được gán nhãn cú pháp, theo tiếp cận thống kê sử dụng văn phạm LPCFG (Lexicalized Probabilistic Context Free Grammar).
– Ngoài ra chúng tôi sẽ xác định 1 cách tiếp cận khác không dùng văn phạm phi ngữ cảnh (văn phạm truyền thống được sử dụng trong PTCP tiếng Việt). Chúng tôi dự kiến sẽ dùng văn phạm phụ thuộc (Dependency Grammar) cho cách tiếp cận này. 
– PTCP kết hợp cả phương pháp dựa trên luật và kho ngữ liệu.
(d) Nghiên cứu và xây dựng bộ phân tích cú pháp dựa trên bộ luật theo văn phạm LCFG (Lexicalized Context Free Grammar). Bộ PTCP này cho phép xử lý các câu đúng qui tắc ngữ pháp tiếng Việt (chưa xét đến các câu sử dụng trong hội thoại). 
(e) Nghiên cứu và đề xuất phương pháp đánh giá độ hoàn thiện của bộ phân tích cú pháp dựa trên kho ngữ liệu. 
(f) Đánh giá độ chính xác của bộ PTCP ở mục (d) bằng cách so sánh câu sản sinh bởi bộ PTCP và các câu đã được PTCP trong kho ngữ liệu SP7.3. 
(g) Nghiên cứu các phương pháp xây dựng bộ phân tích cú pháp dựa trên kho ngữ liệu đã được gán nhãn cú pháp, theo tiếp cận thống kê sử dụng văn phạm LPCFG (Lexicalized Probabilistic Context Free Grammar).
(h) Xây dựng bộ PTCP theo tiếp cận thống kê sử dụng văn phạm LPCFG, dựa trên kho ngữ liệu SP7.3. Đánh giá độ chính xác của bộ PTCP này. 
(i) Nghiên cứu cách tiếp cận đề xuất ở (c.3) và các phương pháp PTCP dựa trên cách tiếp cận này.
(j) Xây dựng bộ PTCP dựa trên cách tiếp cận đề xuất ở (c.3). Đánh giá độ chính xác của bộ PTCP này. 
(k) Nghiên cứu và xây dựng bộ PTCP kết hợp cả việc dựa trên luật và kho ngữ liệu. Đánh giá độ chính xác của bộ PTCP này. 
(l) Nghiên cứu và cài đặt các phương pháp xử lý nhập nhằng trong PTCP tiếng Việt. Đánh giá độ chính xác của bộ PTCP này. 
(m) Nghiên cứu và xây dựng tập luật để phân tích các trường hợp câu đặc biệt (câu hỏi, câu cảm thán, câu thiếu thành phần, v.v.) 
(n) Lựa chọn một bộ PTCP tốt nhất trong các bộ PTCP đã xây dựng. Cài đặt modul xử lý các trường hợp câu đặc biệt vào bộ PTCP này. 

° Nội dung mới, quan trọng nhất, công nghệ chủ yếu: (c), (e) đến (n).
° Nội dung thực hiện 2 năm đầu: (a) đến (f). (Do SP8.4 thừa kế các sản phẩm SP7.2, SP7.3, SP8.2, SP8.3, SP8.4, tiến độ thực hiện và độ hoàn thiện của SP8.5 chịu ảnh hưởng của các sản phẩm đó.)
° Nội dung tiếp tục thực hiện sau hai năm đầu từ (g) đến (n)|.|Nghiên cứu và xây dựng một số sản phẩm tiêu biểu về xử lý tiếng nói và văn bản tiếng Việt, nhằm cho đông đảo người sử dụng máy tính và Internet.
Xây dựng các tài nguyên và công cụ thiết yếu nhất cho xử lý tiếng nói và văn bản tiếng Việt, nhằm thực hiện mục tiêu 1 và dùng cho nghiên cứu-phát triển lâu dài.

Các sản phẩm chính:

SP1 Nhóm hệ chuyên dụng dùng công nghệ nhận dạng và tổng hợp tiếng Việt với từ vựng hạn chế
SP2 Hệ thống nhận dạng tiếng nói có thanh điệu với từ vựng lớn 
SP3 Hệ dịch văn bản tiếng Anh sang tiếng Việt
SP4 Hệ trợ giúp tìm kiếm và đọc thông tin trên Internet cho người không biết tiếng Anh
SP5 Hệ kiểm tra chính tả tiếng Việt
SP6 Các kho ngữ liệu cho xử lý tiếng nói tiếng Việt
SP7 Các kho ngữ liệu cho xử lý văn bản tiếng Việt và các từ điển dùng cho máy tính
SP8 Các công cụ thiết yếu của xử lý tiếng nói và văn bản tiếng Việt.

Project leaders
PGS. CN. Đỗ Văn Vũ
Project duration
2007-2009
Funding sources
Bộ Khoa học Công nghệ