Hướng dẫn python for data analysis o reilly - python để phân tích dữ liệu o reilly

Mô tả cuốn sách

Nhận đầy đủ các hướng dẫn để thao tác, xử lý, làm sạch và các bộ dữ liệu khủng hoảng trong Python. Được cập nhật cho Python 3.6, phiên bản thứ hai của hướng dẫn thực hành này được đóng gói với các nghiên cứu trường hợp thực tế cho bạn thấy cách giải quyết một bộ các vấn đề phân tích dữ liệu rộng rãi một cách hiệu quả. Bạn sẽ học các phiên bản mới nhất của Pandas, Numpy, Ipython và Jupyter trong quá trình này.

Được viết bởi Wes McKinney, người tạo ra dự án Python Pandas, cuốn sách này là một giới thiệu hiện đại, thiết thực về các công cụ khoa học dữ liệu trong Python. Nó rất lý tưởng cho các nhà phân tích mới đối với Python và cho các lập trình viên Python mới đối với khoa học dữ liệu và điện toán khoa học. Tệp dữ liệu và tài liệu liên quan có sẵn trên GitHub.

  • Sử dụng máy tính xách tay Ipython và Jupyter để tính toán khám phá
  • Tìm hiểu các tính năng cơ bản và nâng cao trong Numpy (Python số)
  • Bắt đầu với các công cụ phân tích dữ liệu trong thư viện Pandas
  • Sử dụng các công cụ linh hoạt để tải, làm sạch, biến đổi, hợp nhất và định hình lại dữ liệu
  • Tạo trực quan hóa thông tin với matplotlib
  • Áp dụng cơ sở Pandas Groupby để cắt lát, xúc xắc và tóm tắt các bộ dữ liệu
  • Phân tích và thao tác dữ liệu chuỗi thời gian thường xuyên và bất thường
  • Tìm hiểu cách giải quyết các vấn đề phân tích dữ liệu trong thế giới thực với các ví dụ kỹ lưỡng, chi tiết

Mô tả cuốn sách

Nhận sổ tay dứt khoát để thao tác, xử lý, làm sạch và crunching bộ dữ liệu trong Python. Được cập nhật cho Python 3.10 và Pandas 1.4, phiên bản thứ ba của hướng dẫn thực hành này được đóng gói với các nghiên cứu trường hợp thực tế cho bạn biết cách giải quyết một bộ rộng các vấn đề phân tích dữ liệu một cách hiệu quả. Bạn sẽ tìm hiểu các phiên bản mới nhất của Pandas, Numpy và Jupyter trong quá trình này.

Tài nguyên nhà xuất bản

Xem/Gửi Errata

Tải xuống mã ví dụ

Phiên bản web truy cập mở này của Python để phân tích dữ liệu Phiên bản thứ 3 hiện có sẵn như là bạn đồng hành với các phiên bản in và kỹ thuật số. Nếu bạn gặp bất kỳ lỗi nào, xin vui lòng báo cáo chúng ở đây.

Nếu bạn thấy phiên bản trực tuyến của cuốn sách hữu ích, vui lòng xem xét đặt hàng một bản sao giấy hoặc ebook không có DRM để hỗ trợ tác giả.

Nội dung từ trang web này có thể không được sao chép hoặc sao chép. Các ví dụ mã được cấp phép MIT và có thể được tìm thấy trên GitHub hoặc Gitee.

Phiên bản đầu tiên của cuốn sách này được xuất bản vào năm 2012, trong thời gian mà các thư viện phân tích dữ liệu nguồn mở cho Python, đặc biệt là gấu trúc, rất mới và phát triển nhanh chóng. Khi thời điểm viết phiên bản thứ hai vào năm 2016 và 2017, tôi cần cập nhật cuốn sách không chỉ cho Python 3.6 (phiên bản đầu tiên sử dụng Python 2.7) mà còn cho nhiều thay đổi trong gấu trúc đã xảy ra trong năm năm trước. Bây giờ vào năm 2022, có ít thay đổi ngôn ngữ Python hơn (chúng tôi hiện đang ở Python 3.10, với 3.11 sắp ra mắt vào cuối năm 2022), nhưng Pandas đã tiếp tục phát triển.

Trong phiên bản thứ ba này, mục tiêu của tôi là đưa nội dung cập nhật với các phiên bản hiện tại của Python, Numpy, Pandas và các dự án khác, đồng thời vẫn còn tương đối bảo thủ về việc thảo luận về các dự án Python mới hơn đã xuất hiện trong vài năm qua. Vì cuốn sách này đã trở thành một nguồn tài nguyên quan trọng cho nhiều khóa học đại học và các chuyên gia làm việc, tôi sẽ cố gắng tránh các chủ đề có nguy cơ bị lỗi thời trong vòng một hoặc hai năm. Bằng cách đó, các bản sao giấy sẽ không quá khó để theo dõi vào năm 2023 hoặc 2024 hoặc hơn thế nữa.

Một tính năng mới của phiên bản thứ ba là phiên bản trực tuyến truy cập mở được lưu trữ trên trang web của tôi tại https://wesmckinney.com/book, để phục vụ như một tài nguyên và sự tiện lợi cho chủ sở hữu phiên bản in và kỹ thuật số. Tôi dự định sẽ giữ cho nội dung được cập nhật một cách hợp lý ở đó, vì vậy nếu bạn sở hữu cuốn sách giấy và chạy vào một cái gì đó không hoạt động đúng, bạn nên kiểm tra ở đó để biết các thay đổi nội dung mới nhất.

Các quy ước được sử dụng trong cuốn sách này

Các quy ước đánh máy sau đây được sử dụng trong cuốn sách này:

Chữ in nghiêng

Cho biết các điều khoản mới, URL, địa chỉ email, tên tệp và phần mở rộng tệp.

Constant width

Được sử dụng cho danh sách chương trình, cũng như trong các đoạn văn để chỉ các thành phần chương trình như tên biến hoặc tên chức năng, cơ sở dữ liệu, kiểu dữ liệu, biến môi trường, câu lệnh và từ khóa.

Constant width bold

Hiển thị các lệnh hoặc văn bản khác nên được người dùng gõ theo nghĩa đen.

Hiển thị văn bản nên được thay thế bằng các giá trị do người dùng cung cấp hoặc bằng các giá trị được xác định bởi bối cảnh.

Yếu tố này biểu thị một mẹo hoặc đề xuất.

Phần tử này biểu thị một ghi chú chung.

Yếu tố này cho thấy một cảnh báo hoặc thận trọng.

Sử dụng các ví dụ mã

Bạn có thể tìm thấy các tệp dữ liệu và tài liệu liên quan cho mỗi chương trong kho Github của cuốn sách này tại https://github.com/wesm/pydata-book, được nhân đôi cho gitee (cho những người không thể truy cập github) tại https: // gitee .com/wesmckinn/pydata-sách.

Cuốn sách này ở đây để giúp bạn hoàn thành công việc của mình. Nói chung, nếu mã ví dụ được cung cấp với cuốn sách này, bạn có thể sử dụng nó trong các chương trình và tài liệu của mình. Bạn không cần liên hệ với chúng tôi để được phép trừ khi bạn tái tạo một phần đáng kể của mã. Ví dụ: viết một chương trình sử dụng một số đoạn mã từ cuốn sách này không cần sự cho phép. Bán hoặc phân phối các ví dụ từ O hèReilly Books không cần sự cho phép. Trả lời một câu hỏi bằng cách trích dẫn cuốn sách này và trích dẫn mã ví dụ không yêu cầu cho phép. Kết hợp một số lượng đáng kể mã ví dụ từ cuốn sách này vào tài liệu sản phẩm của bạn không cần phải có sự cho phép.

Chúng tôi đánh giá cao, nhưng không yêu cầu, quy kết. Một sự phân bổ thường bao gồm tiêu đề, tác giả, nhà xuất bản và ISBN. Ví dụ: Hồi Python để phân tích dữ liệu của Wes McKinney (O hèReilly). Bản quyền 2022 Wes McKinney, 978-1-098-10403-0.

Nếu bạn cảm thấy việc bạn sử dụng các ví dụ mã nằm ngoài việc sử dụng hợp lý hoặc sự cho phép ở trên, vui lòng liên hệ với chúng tôi tại.

Học tập trực tuyến O'Reilly

Trong hơn 40 năm, O'Reilly Media đã cung cấp công nghệ và đào tạo kinh doanh, kiến ​​thức và hiểu biết sâu sắc để giúp các công ty thành công.

Mạng lưới chuyên gia và nhà đổi mới độc đáo của chúng tôi chia sẻ kiến ​​thức và chuyên môn của họ thông qua sách, bài báo và nền tảng học tập trực tuyến của chúng tôi. Nền tảng học tập trực tuyến của O hèReilly, cung cấp cho bạn quyền truy cập theo yêu cầu vào các khóa đào tạo trực tiếp, đường dẫn học tập chuyên sâu, môi trường mã hóa tương tác và một bộ sưu tập văn bản và video khổng lồ từ O'Reilly và hơn 200 nhà xuất bản khác. Để biết thêm thông tin, hãy truy cập http://orilly.com.

Liên lạc với chúng tôi bằng cách nào

Vui lòng giải quyết các nhận xét và câu hỏi liên quan đến cuốn sách này cho nhà xuất bản:

O hèReilly Media, Inc.

1005 đường cao tốc Gravenstein phía bắc

Sebastopol, CA 95472

800-998-9938 (ở Hoa Kỳ hoặc Canada)

707-829-0515 (quốc tế hoặc địa phương)

707-829-0104 (fax)

Chúng tôi có một trang web cho cuốn sách này, nơi chúng tôi liệt kê errata, ví dụ và bất kỳ thông tin bổ sung nào. Bạn có thể truy cập trang này tại https://oreil.ly/python-data-analysis-3e.

Email để bình luận hoặc đặt câu hỏi kỹ thuật về cuốn sách này.

Để biết tin tức và thông tin về sách và khóa học của chúng tôi, hãy truy cập http://orilly.com.

Tìm chúng tôi trên LinkedIn: https://linkedin.com/company/orilly-media.

Theo dõi chúng tôi trên Twitter: http://twitter.com/orillymedia.

Xem chúng tôi trên YouTube: http://youtube.com/orillymedia.

Sự nhìn nhận

Công việc này là sản phẩm của nhiều năm thảo luận và hợp tác hiệu quả, và hỗ trợ từ nhiều người trên thế giới. Tôi muốn cảm ơn một vài người trong số họ.

Trong Memoriam: John D. Hunter (1968 Từ2012)

Người bạn thân và đồng nghiệp thân yêu của chúng tôi John D. Hunter đã qua đời sau trận chiến với căn bệnh ung thư ruột kết vào ngày 28 tháng 8 năm 2012. Đây chỉ là một thời gian ngắn sau khi tôi hoàn thành bản thảo cuối cùng cho phiên bản đầu tiên của cuốn sách này.

Tác động và di sản của John trong các cộng đồng dữ liệu và khoa học Python sẽ khó có thể nói quá. Ngoài việc phát triển matplotlib vào đầu những năm 2000 (thời điểm Python gần như không quá phổ biến), ông đã giúp định hình văn hóa của một thế hệ quan trọng của các nhà phát triển nguồn mở, những người đã trở thành trụ cột của hệ sinh thái Python mà chúng ta thường coi là .

Tôi đã may mắn kết nối với John sớm trong sự nghiệp nguồn mở của mình vào tháng 1 năm 2010, ngay sau khi phát hành Pandas 0,1. Cảm hứng và sự cố vấn của anh ấy đã giúp tôi thúc đẩy, ngay cả trong thời kỳ đen tối nhất, với tầm nhìn của tôi về Gandas và Python như một ngôn ngữ phân tích dữ liệu hạng nhất.

John đã rất thân thiết với Fernando Pérez và Brian Granger, những người tiên phong của Ipython, Jupyter và nhiều sáng kiến ​​khác trong cộng đồng Python. Chúng tôi đã hy vọng làm việc trên một cuốn sách cùng nhau, bốn người chúng tôi, nhưng cuối cùng tôi đã trở thành người có thời gian rảnh nhất. Tôi chắc chắn anh ấy sẽ tự hào về những gì chúng tôi đã đạt được, với tư cách cá nhân và là một cộng đồng, trong chín năm qua.

Lời cảm ơn cho phiên bản thứ ba (2022)

Nó đã có hơn một thập kỷ kể từ khi tôi bắt đầu viết phiên bản đầu tiên của cuốn sách này và hơn 15 năm kể từ khi tôi bắt đầu hành trình của mình với tư cách là một Python Prorammer. Rất nhiều đã thay đổi kể từ đó! Python đã phát triển từ một ngôn ngữ tương đối thích hợp để phân tích dữ liệu đến ngôn ngữ phổ biến và được sử dụng rộng rãi nhất cung cấp năng lượng cho đa số (nếu không phải là đa số!) Của khoa học dữ liệu, học máy và công việc trí tuệ nhân tạo.

Tôi không phải là người đóng góp tích cực cho dự án nguồn mở của Pandas kể từ năm 2013, nhưng cộng đồng nhà phát triển trên toàn thế giới của nó đã tiếp tục phát triển mạnh, đóng vai trò là mô hình phát triển phần mềm nguồn mở tập trung vào cộng đồng. Nhiều dự án Python "thế hệ tiếp theo" liên quan đến dữ liệu bảng đang mô hình hóa giao diện người dùng của họ trực tiếp sau gấu trúc, do đó, dự án đã được chứng minh là có ảnh hưởng lâu dài đến quỹ đạo trong tương lai của hệ sinh thái khoa học dữ liệu Python.

Tôi hy vọng rằng cuốn sách này tiếp tục phục vụ như một nguồn tài nguyên quý giá cho các sinh viên và cá nhân muốn tìm hiểu về việc làm việc với dữ liệu trong Python.

Tôi đặc biệt biết ơn O'Reilly vì đã cho phép tôi xuất bản phiên bản "truy cập mở" của cuốn sách này trên trang web của tôi tại https://wesmckinney.com/book, nơi tôi hy vọng nó sẽ tiếp cận nhiều người hơn và giúp mở rộng cơ hội Trong thế giới phân tích dữ liệu. J.J. Allaire là một cứu cánh trong việc biến điều này thành có thể bằng cách giúp tôi "cảng" cuốn sách từ Docbook XML đến Quarto, một hệ thống xuất bản khoa học và kỹ thuật mới tuyệt vời để in và web.

Đặc biệt cảm ơn các nhà đánh giá kỹ thuật của tôi Paul Barry, Jean-Christophe Leyder, Abdullah Karasan và William Jamir, người có phản hồi kỹ lưỡng đã cải thiện rất nhiều khả năng đọc, rõ ràng và dễ hiểu của nội dung.

Lời cảm ơn cho phiên bản thứ hai (2017)

Đã năm năm gần như cho đến ngày kể từ khi tôi hoàn thành bản thảo cho phiên bản đầu tiên của cuốn sách này vào tháng 7 năm 2012. Rất nhiều điều đã thay đổi. Cộng đồng Python đã phát triển vô cùng và hệ sinh thái của phần mềm nguồn mở xung quanh nó đã phát triển mạnh mẽ.

Phiên bản mới này của cuốn sách sẽ không tồn tại nếu không phải vì những nỗ lực không mệt mỏi của các nhà phát triển Pandas Core, những người đã phát triển dự án và cộng đồng người dùng của nó thành một trong những nền tảng của hệ sinh thái khoa học dữ liệu Python. Chúng bao gồm, nhưng không giới hạn ở Tom Augspurger, Joris van den Bossche, Chris Bartak, Phillip Cloud, Gfyoung, Andy Hayden, Masaaki Horikoshi, Stephan Hoyer, Adam Klein, Wouter Overmeire, Jeff Reback, Chang She, Skipper Seabold, Jeff Tratner, và Y-P.

Trên văn bản thực tế của phiên bản thứ hai này, tôi xin cảm ơn các nhân viên của O'Reilly, người đã giúp tôi kiên nhẫn với quá trình viết. Điều này bao gồm Marie Beaugureau, Ben Lorica và Colleen Toporek. Tôi một lần nữa có những người đánh giá kỹ thuật xuất sắc với Tom Augspurger, Paul Barry, Hugh Brown, Jonathan Coe và Andreas Müller đóng góp. Cảm ơn bạn.

Phiên bản đầu tiên của cuốn sách này đã được dịch sang nhiều ngôn ngữ nước ngoài, bao gồm Trung Quốc, Pháp, Đức, Nhật Bản, Hàn Quốc và Nga. Dịch tất cả nội dung này và làm cho nó có sẵn cho một đối tượng rộng lớn hơn là một nỗ lực rất lớn và thường vô ơn. Cảm ơn bạn đã giúp nhiều người trên thế giới học cách lập trình và sử dụng các công cụ phân tích dữ liệu.

Tôi cũng may mắn vì đã có được sự hỗ trợ cho những nỗ lực phát triển nguồn mở tiếp tục của tôi từ Cloudera và hai khoản đầu tư Sigma trong vài năm qua. Với các dự án phần mềm nguồn mở được cung cấp lại mỏng hơn bao giờ hết so với quy mô của các cơ sở người dùng, việc các doanh nghiệp ngày càng trở nên quan trọng để cung cấp hỗ trợ cho việc phát triển các dự án nguồn mở chính. Đó là điều đúng đắn để làm.

Lời cảm ơn cho phiên bản đầu tiên (2012)

Tôi sẽ rất khó để viết cuốn sách này mà không cần sự hỗ trợ của một số lượng lớn người.

Trong đội ngũ nhân viên của O hèReilly, tôi rất biết ơn các biên tập viên của tôi, Meghan Blanchette và Julie Steele, người đã hướng dẫn tôi trong suốt quá trình. Mike Loukides cũng làm việc với tôi trong các giai đoạn đề xuất và giúp biến cuốn sách thành hiện thực.

Tôi đã nhận được rất nhiều đánh giá kỹ thuật từ một dàn nhân vật lớn. Cụ thể, Martin Blais và Hugh Brown rất hữu ích trong việc cải thiện các ví dụ, sự rõ ràng và tổ chức của cuốn sách từ trang bìa đến trang bìa. James Long, Drew Conway, Fernando Pérez, Brian Granger, Thomas Kluyver, Adam Klein, Josh Klein, Chang She và Stéfan van der Walt mỗi người đã xem xét một hoặc nhiều chương, cung cấp phản hồi rõ ràng từ nhiều quan điểm khác nhau.

Tôi đã có nhiều ý tưởng tuyệt vời cho các ví dụ và bộ dữ liệu từ bạn bè và đồng nghiệp trong cộng đồng dữ liệu, trong số đó: Mike Dewar, Jeff Hammerbacher, James Johndrow, Kristian Lum, Adam Klein, Hilary Mason, Chang She và Ashley Williams.

Tất nhiên tôi đã mang ơn nhiều nhà lãnh đạo trong cộng đồng Python khoa học nguồn mở, những người đã xây dựng nền tảng cho công việc phát triển của tôi và đã khuyến khích trong khi tôi đang viết cuốn sách này: Nhóm Ipython Core (Fernando Pérez, Brian Granger, Min Ragan- Kelly, Thomas Kluyver, và những người khác), John Hunter, Skipper Seabold, Travis Oliphant, Peter Wang, Eric Jones, Robert Kern, Josef Perktold, Francesc Alted, Chris Fonnesbeck, và quá nhiều người khác đề cập đến. Một số người khác đã cung cấp rất nhiều sự hỗ trợ, ý tưởng và khuyến khích trên đường đi: Drew Conway, Sean Taylor, Giuseppe Paleologo, Jared Lander, David Epstein, John Krowas, Joshua Bloom, Den Pilsworth, John Myles-White, và nhiều người khác Tôi quên mất rồi.

Tôi cũng muốn cảm ơn một số người từ những năm hình thành của tôi. Đầu tiên, các đồng nghiệp AQR cũ của tôi đã cổ vũ tôi trong công việc của tôi trong nhiều năm qua: Alex Reyfman, Michael Wong, Tim Sargen, Oktay Kurbanov, Matthew Tschantz, Roni Israelov, Michael Katz, Ari Levine, Chris Uga, Prasad Ramanan, Quảng trường Ted, và Hoon Kim. Cuối cùng, các cố vấn học tập của tôi Haynes Miller (MIT) và Mike West (Duke).

Tôi đã nhận được sự giúp đỡ đáng kể từ Phillip Cloud và Joris Van Den Bossche vào năm 2014 để cập nhật các ví dụ về mã của cuốn sách và khắc phục một số điểm không chính xác khác do những thay đổi trong gấu trúc.

Về phía cá nhân, Casey cung cấp hỗ trợ hàng ngày vô giá trong quá trình viết, chấp nhận mức cao và mức thấp của tôi khi tôi cùng nhau hack bản nháp cuối cùng trên một lịch trình đã quá cố. Cuối cùng, bố mẹ tôi, Bill và Kim, đã dạy tôi luôn theo đuổi ước mơ của mình và không bao giờ giải quyết ít hơn.

Python có tốt để phân tích dữ liệu không?

Python là một ngôn ngữ lập trình đa năng phổ biến được sử dụng rộng rãi cho tính linh hoạt của nó, cũng như bộ sưu tập các thư viện rộng rãi của nó, có giá trị cho các phân tích và tính toán phức tạp.valuable for analytics and complex calculations.

Làm thế nào để bạn phân tích dữ liệu trong Python?

Phân tích dữ liệu sử dụng thư viện Python, gấu trúc và matplotlib..
Nhập thư viện ..
Tải dữ liệu bằng hàm pandas read_csv () ..
Hiển thị đầu của bộ dữ liệu bằng hàm đầu () ..
Hiển thị 5 hàng dưới cùng từ bộ dữ liệu bằng hàm đuôi () ..

R để phân tích dữ liệu là gì?

R Analytics là phân tích dữ liệu sử dụng ngôn ngữ lập trình R, ngôn ngữ nguồn mở được sử dụng để tính toán thống kê hoặc đồ họa.Ngôn ngữ lập trình này thường được sử dụng trong phân tích thống kê và khai thác dữ liệu.Nó có thể được sử dụng để phân tích để xác định các mẫu và xây dựng các mô hình thực tế.R programming language, an open-source language used for statistical computing or graphics. This programming language is often used in statistical analysis and data mining. It can be used for analytics to identify patterns and build practical models.