Data Science at the Command Line: Obtain, Scrub, Explore, and Model Data with Unix Power Tools

Loại tài liệu: Tài liệu số - Tài nguyên giáo dục mở / Bộ sưu tập: Công nghệ thông tin

Tác giả: Jeroen Janssens

Nhà xuất bản: O'Reilly Media

Năm xuất bản: 2021

Tải ứng dụng tại các liên kết sau để xem đầy đủ tài liệu.

Tóm tắt nội dung

Hướng dẫn được sửa đổi kỹ lưỡng này cho thấy tính linh hoạt của dòng lệnh có thể giúp bạn trở thành nhà khoa học dữ liệu hiệu quả và năng suất hơn như thế nào. Bạn sẽ tìm hiểu cách kết hợp các công cụ dòng lệnh nhỏ nhưng mạnh mẽ để nhanh chóng lấy, lọc, khám phá và lập mô hình dữ liệu của bạn. Để giúp bạn bắt đầu, tác giả Jeroen Janssens cung cấp hình ảnh Docker chứa hơn 100 công cụ năng lượng Unix - hữu ích cho dù bạn làm việc với Windows, macOS hay Linux. Bạn sẽ nhanh chóng khám phá lý do tại sao dòng lệnh là một công nghệ linh hoạt, có thể mở rộng và có thể mở rộng . Ngay cả khi bạn cảm thấy thoải mái khi xử lý dữ liệu bằng Python hoặc R, bạn sẽ học cách cải thiện đáng kể quy trình làm việc về khoa học dữ liệu của mình bằng cách tận dụng sức mạnh của dòng lệnh. Cuốn sách này lý tưởng cho các nhà khoa học dữ liệu, nhà phân tích, kỹ sư, quản trị viên hệ thống và nhà nghiên cứu. - Lấy dữ liệu từ các trang web, API, cơ sở dữ liệu và bảng tính; - Thực hiện các thao tác chà trên các tệp văn bản, CSV, HTML, XML và JSON; - Khám phá dữ liệu, tính toán số liệu thống kê mô tả và tạo trực quan hóa; - Quản lý quy trình làm việc khoa học dữ liệu của bạn; - Tạo các công cụ của riêng bạn từ một lớp lót và mã Python hoặc R hiện có; - Song song hóa và phân phối các đường ống sử dụng nhiều dữ liệu; - Mô hình dữ liệu với các thuật toán giảm chiều, hồi quy, phân loại; - Tận dụng dòng lệnh từ Python, Jupyter, R, RStudio và Apache Spark.

Abstract:

This thoroughly revised guide demonstrates how the flexibility of the command line can help you become a more efficient and productive data scientist. You'll learn how to combine small yet powerful command-line tools to quickly obtain, scrub, explore, and model your data. To get you started, author Jeroen Janssens provides a Docker image packed with over 100 Unix power tools - useful whether you work with Windows, macOS, or Linux.You'll quickly discover why the command line is an agile, scalable, and extensible technology. Even if you're comfortable processing data with Python or R, you'll learn how to greatly improve your data science workflow by leveraging the command line's power. This book is ideal for data scientists, analysts, engineers, system administrators, and researchers. - Obtain data from websites, APIs, databases, and spreadsheets; - Perform scrub operations on text, CSV, HTML, XML, and JSON files; - Explore data, compute descriptive statistics, and create visualizations; - Manage your data science workflow; - Create your own tools from one-liners and existing Python or R code; - Parallelize and distribute data-intensive pipelines; - Model data with dimensionality reduction, regression, and classification algorithms; - Leverage the command line from Python, Jupyter, R, RStudio, and Apache Spark.

Ngôn ngữ:En
Tác giả:Jeroen Janssens
Thông tin nhan đề:Data Science at the Command Line: Obtain, Scrub, Explore, and Model Data with Unix Power Tools
Nhà xuất bản:O'Reilly Media
Loại hình:Tài nguyên giáo dục mở / Bộ sưu tập: Công nghệ thông tin
Bản quyền:https://creativecommons.org/share-your-work/use-remix/cc-licenses/#by-nc-nd
Nguồn gốc:https://www.dbooks.org/data-science-at-the-command-line-1492087912/
Mô tả vật lý:282p.
Năm xuất bản:2021

Sử dụng ứng dụng Libol Bookworm quét QRCode này để mượn và đọc tài liệu)

(Lưu ý: Sử dụng ứng dụng Bookworm để xem đầy đủ tài liệu. Bạn đọc có thể tải Bookworm từ App Store hoặc Google play với từ khóa "Libol Bookworm”)