Text Mining with R

Loại tài liệu: Tài liệu số - Tài nguyên giáo dục mở / Bộ sưu tập: Công nghệ thông tin

Tác giả: Julia Silge, David Robinson

Nhà xuất bản: O'Reilly Media

Năm xuất bản: 2017

Tải ứng dụng tại các liên kết sau để xem đầy đủ tài liệu.

Tóm tắt nội dung

Phần lớn dữ liệu hiện có ngày nay không có cấu trúc và nặng về văn bản, khiến các nhà phân tích gặp khó khăn trong việc áp dụng các công cụ sắp xếp và hiển thị dữ liệu thông thường của họ. Với cuốn sách thực tế này, bạn sẽ khám phá các kỹ thuật khai thác văn bản với gọn gàng, một gói mà các tác giả Julia Silge và David Robinson đã phát triển bằng cách sử dụng các nguyên tắc gọn gàng đằng sau các gói R như ggraph và dplyr. Bạn sẽ tìm hiểu cách gọn gàng và các công cụ gọn gàng khác trong R có thể giúp việc phân tích văn bản trở nên dễ dàng và hiệu quả hơn. Các tác giả chứng minh cách xử lý văn bản dưới dạng khung dữ liệu cho phép bạn thao tác, tóm tắt và trực quan hóa các đặc điểm của văn bản. Bạn cũng sẽ học cách tích hợp xử lý ngôn ngữ tự nhiên (NLP) vào quy trình làm việc hiệu quả. Các ví dụ mã thực tế và khám phá dữ liệu sẽ giúp bạn tạo ra những hiểu biết thực tế từ tài liệu, tin tức và mạng xã hội. - Tìm hiểu cách áp dụng định dạng văn bản gọn gàng cho NLP; - Sử dụng phân tích tình cảm để khai thác nội dung cảm xúc của văn bản; - Xác định các thuật ngữ quan trọng nhất của tài liệu bằng phép đo tần số; - Khám phá mối quan hệ và kết nối giữa các từ với gói ggraph và widyr; - Chuyển đổi qua lại giữa các định dạng văn bản gọn gàng và không gọn gàng của R; - Sử dụng mô hình chủ đề để phân loại các tập tài liệu thành các nhóm tự nhiên; - Kiểm tra các nghiên cứu điển hình so sánh các kho lưu trữ Twitter, tìm hiểu siêu dữ liệu của NASA và phân tích hàng nghìn tin nhắn Usenet.

Abstract:

Much of the data available today is unstructured and text-heavy, making it challenging for analysts to apply their usual data wrangling and visualization tools. With this practical book, you'll explore text-mining techniques with tidytext, a package that authors Julia Silge and David Robinson developed using the tidy principles behind R packages like ggraph and dplyr. You'll learn how tidytext and other tidy tools in R can make text analysis easier and more effective. The authors demonstrate how treating text as data frames enables you to manipulate, summarize, and visualize characteristics of text. You'll also learn how to integrate natural language processing (NLP) into effective workflows. Practical code examples and data explorations will help you generate real insights from literature, news, and social media. - Learn how to apply the tidy text format to NLP; - Use sentiment analysis to mine the emotional content of text; - Identify a document's most important terms with frequency measurements; - Explore relationships and connections between words with the ggraph and widyr packages; - Convert back and forth between R's tidy and non-tidy text formats; - Use topic modeling to classify document collections into natural groups; - Examine case studies that compare Twitter archives, dig into NASA metadata, and analyze thousands of Usenet messages.

Ngôn ngữ:En
Tác giả:Julia Silge, David Robinson
Thông tin nhan đề:Text Mining with R
Nhà xuất bản:O'Reilly Media
Loại hình:Tài nguyên giáo dục mở / Bộ sưu tập: Công nghệ thông tin
Bản quyền:https://creativecommons.org/licenses/by-nc-sa/4.0/
Nguồn gốc:https://www.dbooks.org/text-mining-with-r-1491981652/
Mô tả vật lý:194p.
Năm xuất bản:2017

Sử dụng ứng dụng Libol Bookworm quét QRCode này để mượn và đọc tài liệu)

(Lưu ý: Sử dụng ứng dụng Bookworm để xem đầy đủ tài liệu. Bạn đọc có thể tải Bookworm từ App Store hoặc Google play với từ khóa "Libol Bookworm”)