The Unicode cookbook for linguists: Managing writing systems using orthography profiles

Loại tài liệu: Tài liệu số - Tài nguyên giáo dục mở / Bộ sưu tập: Ngôn ngữ

Tác giả: Steven Moran, Michael Cysouw

Nhà xuất bản: Language Science Press

Năm xuất bản: 2018

Tải ứng dụng tại các liên kết sau để xem đầy đủ tài liệu.

Tóm tắt nội dung

Văn bản này là hướng dẫn thực tế dành cho các nhà ngôn ngữ học và lập trình viên, những người làm việc với dữ liệu trong môi trường tính toán đa ngôn ngữ. Chúng tôi giới thiệu các khái niệm cơ bản cần thiết để hiểu cách hoạt động của hệ thống chữ viết và mã hóa ký tự cũng như cách chúng hoạt động cùng nhau tại điểm giao thoa giữa Tiêu chuẩn Unicode và Bảng chữ cái Phiên âm Quốc tế. Mặc dù các tiêu chuẩn này thường khiến người dùng thất vọng nhưng chúng vẫn cung cấp cho các nhà nghiên cứu và lập trình viên ngôn ngữ một kiến trúc tính toán nhất quán cần thiết để xử lý, xuất bản và phân tích dữ liệu từ vựng từ các ngôn ngữ trên thế giới. Vì vậy, chúng tôi đưa ra ánh sáng những cạm bẫy phổ biến nhưng không phải lúc nào cũng minh bạch mà các nhà nghiên cứu gặp phải khi làm việc với Unicode và IPA. Sau khi xác định và khắc phục những cạm bẫy này liên quan đến việc tạo ra các hệ thống chữ viết và mã hóa ký tự có thể tương tác về mặt cú pháp và ngữ nghĩa (trong phạm vi có thể), chúng tôi đã tạo ra một bộ công cụ Python và R mã nguồn mở để làm việc với các ngôn ngữ sử dụng hồ sơ chính tả mô tả tác giả. - hoặc các quy ước chính tả dành riêng cho tài liệu.

Abstract:

This text is a practical guide for linguists, and programmers, who work with data in multilingual computational environments. We introduce the basic concepts needed to understand how writing systems and character encodings function, and how they work together at the intersection between the Unicode Standard and the International Phonetic Alphabet. Although these standards are often met with frustration by users, they nevertheless provide language researchers and programmers with a consistent computational architecture needed to process, publish and analyze lexical data from the world's languages. Thus we bring to light common, but not always transparent, pitfalls which researchers face when working with Unicode and IPA. Having identified and overcome these pitfalls involved in making writing systems and character encodings syntactically and semantically interoperable (to the extent that they can be), we created a suite of open-source Python and R tools to work with languages using orthography profiles that describe author- or document-specific orthographic conventions.

Ngôn ngữ:En
Tác giả:Steven Moran, Michael Cysouw
Thông tin nhan đề:The Unicode cookbook for linguists: Managing writing systems using orthography profiles
Nhà xuất bản:Language Science Press
Loại hình:Tài nguyên giáo dục mở / Bộ sưu tập: Ngôn ngữ
Bản quyền:https://creativecommons.org/share-your-work/use-remix/cc-licenses/#by
Nguồn gốc:https://open.umn.edu/opentextbooks/textbooks/the-unicode-cookbook-for-linguists-managing-writing-systems-using-orthography-profiles
Mô tả vật lý:132p.
Năm xuất bản:2018

Sử dụng ứng dụng Libol Bookworm quét QRCode này để mượn và đọc tài liệu)

(Lưu ý: Sử dụng ứng dụng Bookworm để xem đầy đủ tài liệu. Bạn đọc có thể tải Bookworm từ App Store hoặc Google play với từ khóa "Libol Bookworm”)