Bảng cheat Spark DataFrame Scala

mergeSchema (mặc định là giá trị được chỉ định trong spark. sql. sàn gỗ. hợp nhấtSchema). đặt xem chúng ta có nên hợp nhất các lược đồ được thu thập từ tất cả các tệp phần Parquet hay không. Điều này sẽ ghi đè spark. sql. sàn gỗ. hợp nhấtSchema

Nội dung chính Show

Hai cách để xác định Schema
Nguồn dữ liệu - ghi
Loại dữ liệu
biểu thức
Chuyển đổi sang các loại Spark - chức năng
Thay đổi kiểu dữ liệu cột - Column
tổ chức. apache. tia lửa. sql. Bộ dữ liệu - những người khác
tổ chức. apache. tia lửa. sql - Chuyển đổi
Làm việc với Booleans - Cột
Làm việc với Booleans - chức năng
Làm việc với Số - Cột
Làm việc với số - hàm
Làm việc với Chuỗi - Cột
Làm việc với chuỗi - hàm
Làm việc với Ngày/Giờ - các hàm
Làm việc với Null/NaN - Cột
Làm việc với Null/NaN - chức năng
Làm việc với Null/NaN - DataFrameNaFunctions
Làm việc với Sắp xếp - Cột
Làm việc với chức năng Sắp xếp
Làm việc với các hàm tổng hợp
Làm việc với Tổng hợp - RelationalGroupedDataset
Làm việc với Bộ sưu tập - chức năng
Làm cách nào để đọc dữ liệu từ DataFrame trong Scala?
Làm cách nào để đọc dữ liệu trong Spark DataFrame?
Làm cách nào để tạo DataFrame mẫu trong Scala?
Sự khác biệt giữa DataFrame và Dataset trong Spark là gì?

orc

jdbc

url. URL JDBC cho Spark để kết nối với. Ở mức tối thiểu, nó phải chứa tên máy chủ, cổng và cơ sở dữ liệu. Đối với MySQL, nó có thể trông giống như thế này. jdbc. mysql. //máy chủ cục bộ. 3306/hoang.
bảng db. Tên của bảng cơ sở dữ liệu để Spark đọc dữ liệu từ hoặc ghi dữ liệu vào.
người dùng
mật khẩu
trình điều khiển. Tên lớp của trình điều khiển JDBC mà Spark sẽ khởi tạo để kết nối với URL trước đó. Tham khảo tài liệu trình điều khiển JDBC mà bạn đang sử dụng. Đối với trình điều khiển MySQL Connector/J, tên lớp là com. mysql. jdbc. tài xế.

lược đồ

có thể sử dụng """. """ xác định lược đồ, cần sử dụng kiểu dữ liệu scala.
e. g. schema("""stockticker STRING, tradedate INT, openprice FLOAT""")

______1
val movieSchema = StructType(Array(StructField("stockticker", StringType, true), StructField("tradedate", IntegerType, true), StructField("openprice", FloatType, true)))

// Mode 2: equivalent to mode 1
val movieSchema = """stockticker STRING, tradedate INT, openprice FLOAT"""

DataFrameReader.format(...).option("key", "value").schema(...).load(paths: String*)
có thể đưa ra nhiều đường dẫn, có thể đưa ra đường dẫn thư mục để đọc tất cả các tệp trong thư mục, có thể sử dụng ký tự đại diện "*" trong đường dẫn
To get a DataFrameReader, use spark.read

Hai cách để xác định Schema

Xác định một lược đồ theo chương trình

val schema = StructType(Array(StructField("author", StringType, false), StructField("title", StringType, false), StructField("pages", IntegerType, false)))

Xác định lược đồ với Chuỗi DDL

________số 8

Nguồn dữ liệu - ghi

định dạng

"csv", "text", "json", "parquet" (mặc định), "orc", "jdbc"

chế độ

"ghi đè", "chắp thêm", "bỏ qua", "lỗi/lỗiIfExists" (mặc định)

quyền mua

csv

sep (mặc định ,). đặt một ký tự đơn làm dấu phân cách cho từng trường và giá trị.
trích dẫn (mặc định "). đặt một ký tự đơn được sử dụng để thoát các giá trị được trích dẫn trong đó dấu phân cách có thể là một phần của giá trị. Nếu một chuỗi trống được đặt, nó sẽ sử dụng u0000 (ký tự null).
escape (mặc định \). đặt một ký tự được sử dụng để thoát dấu ngoặc kép bên trong một giá trị đã được trích dẫn. charToEscapeQuoteEscaping (thoát mặc định hoặc \0). đặt một ký tự đơn được sử dụng để thoát lối thoát cho ký tự trích dẫn. Giá trị mặc định là ký tự thoát khi ký tự thoát và ký tự trích dẫn khác nhau, \0 nếu không.
escapeQuotes (mặc định là đúng). một cờ cho biết liệu các giá trị chứa dấu ngoặc kép có phải luôn được đặt trong dấu ngoặc kép hay không. Mặc định là thoát khỏi tất cả các giá trị chứa ký tự trích dẫn.
quoteAll (mặc định là sai). một lá cờ cho biết liệu tất cả các giá trị có phải luôn được đặt trong dấu ngoặc kép hay không. Mặc định là chỉ thoát các giá trị có chứa ký tự trích dẫn.
tiêu đề (mặc định là sai). viết tên của các cột như dòng đầu tiên.
nullValue (chuỗi rỗng mặc định). đặt biểu diễn chuỗi của một giá trị null.
nén (mặc định null). codec nén để sử dụng khi lưu vào tệp. Đây có thể là một trong những tên rút gọn không phân biệt chữ hoa chữ thường đã biết (none, bzip2, gzip, lz4, snappy và deflate).
dateFormat (mặc định là yyyy-MM-dd). đặt chuỗi cho biết định dạng ngày. Định dạng ngày tùy chỉnh tuân theo các định dạng tại java. văn bản. Định dạng ngày đơn giản. Điều này áp dụng cho loại ngày.
Định dạng dấu thời gian (mặc định yyyy-MM-dd'T'HH. mm. ss. SSSXXX). đặt chuỗi cho biết định dạng dấu thời gian. Định dạng ngày tùy chỉnh tuân theo các định dạng tại java. văn bản. Định dạng ngày đơn giản. Điều này áp dụng cho loại dấu thời gian.
ignoreLeadingWhiteSpace (mặc định là đúng). một cờ cho biết có nên bỏ qua các khoảng trắng đầu từ các giá trị đang được viết hay không.
ignoreTrailingWhiteSpace (mặc định là đúng). một cờ cho biết xác định có nên bỏ qua các khoảng trắng ở cuối các giá trị đang được ghi hay không.

chữ

nén (mặc định null). codec nén để sử dụng khi lưu vào tệp. Đây có thể là một trong những tên rút gọn không phân biệt chữ hoa chữ thường đã biết (none, bzip2, gzip, lz4, snappy và deflate)

json

nén (mặc định null). codec nén để sử dụng khi lưu vào tệp. Đây có thể là một trong những tên rút gọn không phân biệt chữ hoa chữ thường đã biết (none, bzip2, gzip, lz4, snappy và deflate).
dateFormat (mặc định là yyyy-MM-dd). đặt chuỗi cho biết định dạng ngày. Định dạng ngày tùy chỉnh tuân theo các định dạng tại java. văn bản. Định dạng ngày đơn giản. Điều này áp dụng cho loại ngày.
Định dạng dấu thời gian (mặc định yyyy-MM-dd'T'HH. mm. ss. SSSXXX). đặt chuỗi cho biết định dạng dấu thời gian. Định dạng ngày tùy chỉnh tuân theo các định dạng tại java. văn bản. Định dạng ngày đơn giản. Điều này áp dụng cho loại dấu thời gian.

sàn gỗ

nén (mặc định là giá trị được chỉ định trong spark. sql. sàn gỗ. nén. giải mã). codec nén để sử dụng khi lưu vào tệp. Đây có thể là một trong những tên rút gọn không phân biệt chữ hoa chữ thường đã biết (none, snappy, gzip và lzo). Điều này sẽ ghi đè spark. sql. sàn gỗ. nén. giải mã

orc

nén (mặc định là giá trị được chỉ định trong spark. sql. orc. nén. giải mã). codec nén để sử dụng khi lưu vào tệp. Đây có thể là một trong những tên rút gọn không phân biệt chữ hoa chữ thường đã biết (none, snappy, zlib và lzo). Điều này sẽ ghi đè orc. nén và tia lửa. sql. orc. nén. giải mã. Nếu orc. nén được đưa ra, nó sẽ ghi đè spark. sql. orc. nén. giải mã

jdbc

cắt bớt (mặc định là sai). sử dụng TRUNCATE TABLE thay vì DROP TABLE.
Trong trường hợp không thành công, người dùng nên tắt tùy chọn cắt ngắn để sử dụng lại DROP TABLE. Ngoài ra, do hành vi khác nhau của TRUNCATE TABLE giữa các DBMS, việc sử dụng cái này không phải lúc nào cũng an toàn. MySQLDialect, DB2Dialect, MsSqlServerDialect, DerbyDialect và OracleDialect hỗ trợ điều này trong khi PostgresDialect và JDBCDirect mặc định thì không. Đối với JDBCDirect không xác định và không được hỗ trợ, tùy chọn người dùng cắt bớt bị bỏ qua.

saveAsTable(tên bảng. Chuỗi). Bài học

Lưu nội dung của DataFrame dưới dạng bảng đã chỉ định.

Trong trường hợp bảng đã tồn tại, hành vi của chức năng này phụ thuộc vào chế độ lưu, được chỉ định bởi chức năng chế độ (mặc định là đưa ra một ngoại lệ). Khi chế độ Ghi đè, lược đồ của DataFrame không cần phải giống với lược đồ của bảng hiện có.

Khi ở chế độ Nối, nếu có bảng hiện có, chúng tôi sẽ sử dụng định dạng và tùy chọn của bảng hiện có. Thứ tự cột trong lược đồ của DataFrame không cần giống với thứ tự của bảng hiện có. Không giống như insertInto, saveAsTable sẽ sử dụng tên cột để tìm đúng vị trí cột. Ví dụ.

______9
+---+---+
. tôi. j.
+---+---+
. 1. 2.
. 4. 3.
+---+---+
Trong phương pháp này, chế độ lưu được sử dụng để xác định hành vi nếu bảng nguồn dữ liệu tồn tại trong danh mục Spark. Chúng tôi sẽ luôn ghi đè lên dữ liệu cơ bản của nguồn dữ liệu (e. g. một bảng trong nguồn dữ liệu JDBC) nếu bảng không tồn tại trong danh mục Spark và sẽ luôn nối vào dữ liệu cơ bản của nguồn dữ liệu nếu bảng đã tồn tại.

Khi DataFrame được tạo từ HadoopFsRelation không được phân vùng với một đường dẫn đầu vào duy nhất và nhà cung cấp nguồn dữ liệu có thể được ánh xạ tới SerDe dựng sẵn Hive (i. e. ORC và Parquet), bảng được duy trì ở định dạng tương thích với Hive, có nghĩa là các hệ thống khác như Hive sẽ có thể đọc bảng này. Mặt khác, bảng được duy trì ở định dạng cụ thể của Spark SQL.

insertInto(tên bảng. Chuỗi). Bài học

Chèn nội dung của DataFrame vào bảng đã chỉ định. Nó yêu cầu lược đồ của DataFrame giống với lược đồ của bảng.

Không giống như saveAsTable, insertInto bỏ qua tên cột và chỉ sử dụng độ phân giải dựa trên vị trí. Ví dụ.

______10
+---+---+
. tôi. j.
+---+---+
. 5. 6.
. 3. 4.
. 1. 2.
+---+---+

Vì thao tác này chèn dữ liệu vào bảng hiện có nên định dạng hoặc tùy chọn sẽ bị bỏ qua.

// Mode 11
// Mode 12
Để lấy DataFrameWriter, hãy sử dụng // Mode 13

Loại dữ liệu

tia lửa

Scala

Java

Loại byte

byte

byte hoặc byte

Loại ngắn

Ngắn ngủi

ngắn hoặc ngắn

Kiểu số nguyên

số nguyên

int hoặc số nguyên

Loại dài

Dài

dài hay dài

Loại phao

Trôi nổi

nổi hoặc nổi

Loại kép

Gấp đôi

gấp đôi hoặc gấp đôi

Loại thập phân

java. toán học. BigDecimal

java. ,toán. BigDecimal

Loại chuỗi

Chuỗi

Loại nhị phân

Mảng [Byte]

byte[]

BooleanType

Boolean

boolean hoặc Boolean

Loại ngày

java. sql. Ngày

Loại dấu thời gian

java. sql. dấu thời gian

Kiểu mảng

scala. bộ sưu tập. tuần tự

java. sử dụng. Danh sách

Loại bản đồ

scala. bộ sưu tập. Bản đồ

java. sử dụng. Bản đồ

Loại cấu trúc

tổ chức. apache. tia lửa. sql. Chèo thuyền

Trường cấu trúc

biểu thức

biểu thức tính toán

// Mode 14

biểu thức quan hệ

// Mode 15

Một biểu thức là một tập hợp các phép biến đổi trên một hoặc nhiều giá trị trong một bản ghi trong DataFrame. Hãy nghĩ về nó giống như một hàm lấy một hoặc nhiều tên cột làm đầu vào, giải quyết chúng và sau đó có khả năng áp dụng nhiều biểu thức hơn để tạo một giá trị duy nhất cho mỗi bản ghi trong tập dữ liệu. Điều quan trọng là “giá trị đơn lẻ” này thực sự có thể là một loại phức tạp như Bản đồ hoặc Mảng

Chuyển đổi sang các loại Spark - chức năng

thắp sáng (nghĩa đen. Bất kỳ). Cột

Tạo một cột có giá trị bằng chữ.
Đối tượng được truyền vào được trả về trực tiếp nếu nó đã là một Cột. Nếu đối tượng là Biểu tượng Scala, nó cũng được chuyển đổi thành Cột. Mặt khác, một Cột mới được tạo để biểu thị giá trị bằng chữ.

tổ chức. apache. tia lửa. sql. chức năng

Thay đổi kiểu dữ liệu cột - Column

truyền (để. Chuỗi). Cột

Chuyển cột sang kiểu dữ liệu khác, sử dụng biểu diễn chuỗi chuẩn của kiểu. Các loại được hỗ trợ là. chuỗi, boolean, byte, ngắn, int, dài, float, double, thập phân, ngày, dấu thời gian.
______16
// Mode 17

truyền (để. Loại dữ liệu). Cột

Chuyển cột sang kiểu dữ liệu khác.
______18

e. g. // Mode 19

tổ chức. apache. tia lửa. sql. Bộ dữ liệu - những người khác

đầu tiên(). t

Trả về hàng đầu tiên. Bí danh cho đầu()

đầu(). t

Trả về hàng đầu tiên

cái đầu(n). số nguyên). Mảng[T]

Trả về n hàng đầu tiên

Lấy. số nguyên). Mảng[T]

Trả về n hàng đầu tiên trong Tập dữ liệu

takeAsList(n. số nguyên). Danh sách[T]

Trả về n hàng đầu tiên trong Tập dữ liệu dưới dạng danh sách

sưu tầm(). Mảng[T]

Trả về một mảng chứa tất cả các hàng trong Tập dữ liệu này

collAsList(). Danh sách[T]

Trả về một danh sách Java chứa tất cả các hàng trong Tập dữ liệu này

đếm(). Dài

Trả về số hàng trong Dataset

chỉ(). Bài học

Hiển thị 20 hàng trên cùng của Tập dữ liệu ở dạng bảng. Các chuỗi hơn 20 ký tự sẽ bị cắt bớt và tất cả các ô sẽ được căn phải

hiển thị (numRows. số nguyên). Bài học

Hiển thị Tập dữ liệu ở dạng bảng. Các chuỗi hơn 20 ký tự sẽ bị cắt bớt và tất cả các ô sẽ được căn phải

hiển thị (cắt bớt. Boolean). Bài học

Hiển thị 20 hàng trên cùng của Tập dữ liệu ở dạng bảng

hiển thị (numRows. Int, cắt ngắn. Boolean). Bài học

Hiển thị Tập dữ liệu ở dạng bảng

printSchema(). Bài học

In lược đồ ra bàn điều khiển ở định dạng cây đẹp

giải thích(). Bài học

In sơ đồ vật lý ra bàn điều khiển cho mục đích gỡ lỗi

giải thích (mở rộng. Boolean). Bài học

In các kế hoạch (logic và vật lý) ra bàn điều khiển cho mục đích gỡ lỗi

lược đồ. Loại cấu trúc

Trả về lược đồ của Tập dữ liệu này

cột. Mảng[Chuỗi]

Trả về tất cả các tên cột dưới dạng một mảng

mô tả (cols. Chuỗi*). Khung dữ liệu

Tính toán số liệu thống kê cơ bản cho các cột số và chuỗi, bao gồm số lượng, giá trị trung bình, tiêu chuẩn, tối thiểu và tối đa.
val movieSchema = StructType(Array(StructField("stockticker", StringType, true),   StructField("tradedate", IntegerType, true),   StructField("openprice", FloatType, true)))0

val movieSchema = StructType(Array(StructField("stockticker", StringType, true),   StructField("tradedate", IntegerType, true),   StructField("openprice", FloatType, true)))1
val movieSchema = StructType(Array(StructField("stockticker", StringType, true),   StructField("tradedate", IntegerType, true),   StructField("openprice", FloatType, true)))2
val movieSchema = StructType(Array(StructField("stockticker", StringType, true),   StructField("tradedate", IntegerType, true),   StructField("openprice", FloatType, true)))3
val movieSchema = StructType(Array(StructField("stockticker", StringType, true),   StructField("tradedate", IntegerType, true),   StructField("openprice", FloatType, true)))4
val movieSchema = StructType(Array(StructField("stockticker", StringType, true),   StructField("tradedate", IntegerType, true),   StructField("openprice", FloatType, true)))5
val movieSchema = StructType(Array(StructField("stockticker", StringType, true),   StructField("tradedate", IntegerType, true),   StructField("openprice", FloatType, true)))6
val movieSchema = StructType(Array(StructField("stockticker", StringType, true),   StructField("tradedate", IntegerType, true),   StructField("openprice", FloatType, true)))7

tóm tắt (thống kê. Chuỗi*). Khung dữ liệu

Tính toán số liệu thống kê được chỉ định cho các cột số và chuỗi. số liệu thống kê có sẵn là.
- đếm - trung bình - stddev - tối thiểu - tối đa - phần trăm gần đúng tùy ý được chỉ định dưới dạng phần trăm (ví dụ: 75%)
val movieSchema = StructType(Array(StructField("stockticker", StringType, true),   StructField("tradedate", IntegerType, true),   StructField("openprice", FloatType, true)))8

val movieSchema = StructType(Array(StructField("stockticker", StringType, true),   StructField("tradedate", IntegerType, true),   StructField("openprice", FloatType, true)))1
val movieSchema = StructType(Array(StructField("stockticker", StringType, true),   StructField("tradedate", IntegerType, true),   StructField("openprice", FloatType, true)))2
val movieSchema = StructType(Array(StructField("stockticker", StringType, true),   StructField("tradedate", IntegerType, true),   StructField("openprice", FloatType, true)))3
val movieSchema = StructType(Array(StructField("stockticker", StringType, true),   StructField("tradedate", IntegerType, true),   StructField("openprice", FloatType, true)))4
val movieSchema = StructType(Array(StructField("stockticker", StringType, true),   StructField("tradedate", IntegerType, true),   StructField("openprice", FloatType, true)))5
val movieSchema = StructType(Array(StructField("stockticker", StringType, true),   StructField("tradedate", IntegerType, true),   StructField("openprice", FloatType, true)))6
// Mode 2: equivalent to mode 15
// Mode 2: equivalent to mode 16
// Mode 2: equivalent to mode 17
val movieSchema = StructType(Array(StructField("stockticker", StringType, true),   StructField("tradedate", IntegerType, true),   StructField("openprice", FloatType, true)))7

// Mode 2: equivalent to mode 19

val movieSchema = StructType(Array(StructField("stockticker", StringType, true),   StructField("tradedate", IntegerType, true),   StructField("openprice", FloatType, true)))1
val movieSchema = StructType(Array(StructField("stockticker", StringType, true),   StructField("tradedate", IntegerType, true),   StructField("openprice", FloatType, true)))2
val movieSchema = StructType(Array(StructField("stockticker", StringType, true),   StructField("tradedate", IntegerType, true),   StructField("openprice", FloatType, true)))3
val movieSchema = StructType(Array(StructField("stockticker", StringType, true),   StructField("tradedate", IntegerType, true),   StructField("openprice", FloatType, true)))4
val movieSchema = StructType(Array(StructField("stockticker", StringType, true),   StructField("tradedate", IntegerType, true),   StructField("openprice", FloatType, true)))6
// Mode 2: equivalent to mode 15
// Mode 2: equivalent to mode 17
val movieSchema = StructType(Array(StructField("stockticker", StringType, true),   StructField("tradedate", IntegerType, true),   StructField("openprice", FloatType, true)))7

To do a summary for specific columns first select them:

______48

bộ đệm (). tập dữ liệu. cái này. loại

Duy trì Tập dữ liệu này với mức lưu trữ mặc định (MEMORY_AND_DISK)

kiên trì(). tập dữ liệu. cái này. loại

Duy trì Tập dữ liệu này với mức lưu trữ mặc định (MEMORY_AND_DISK)

kiên trì (newLevel. Mức lưu trữ). tập dữ liệu. cái này. loại

Duy trì Tập dữ liệu này với mức lưu trữ nhất định.
Cấp độ mới
Một trong số. MEMORY_ONLY, MEMORY_AND_DISK, MEMORY_ONLY_SER, MEMORY_AND_DISK_SER, DISK_ONLY, MEMORY_ONLY_2, MEMORY_AND_DISK_2, v.v.

không tồn tại (). tập dữ liệu. cái này. loại

Đánh dấu Bộ dữ liệu là không liên tục và xóa tất cả các khối cho nó khỏi bộ nhớ và đĩa

không tồn tại (chặn. Boolean). tập dữ liệu. cái này. loại

Đánh dấu Tập dữ liệu là không liên tục và xóa tất cả các khối dành cho Tập dữ liệu đó khỏi bộ nhớ và ổ đĩa.
chặn. Có chặn cho đến khi tất cả các khối bị xóa hay không.

cấp lưu trữ. Mức độ lưu trữ

Nhận mức lưu trữ hiện tại của Dataset hoặc StorageLevel. KHÔNG nếu không được duy trì

thứ ba. RDD[T]

Thể hiện nội dung của Tập dữ liệu dưới dạng RDD của T

toDF(). Khung dữ liệu

Chuyển đổi bộ sưu tập dữ liệu được gõ mạnh này thành Dataframe chung

toDF(colNames. Chuỗi*). Khung dữ liệu

Chuyển đổi bộ sưu tập dữ liệu được gõ mạnh này thành DataFrame chung với các cột được đổi tên. val movieSchema = """stockticker STRING, tradedate INT, openprice FLOAT"""9

hợp nhất (numPartitions. số nguyên). Tập dữ liệu[T]

Trả về một Tập dữ liệu mới có chính xác các phân vùng numPartitions, khi có ít phân vùng hơn được yêu cầu

phân vùng lại (numPartitions. số nguyên). Tập dữ liệu[T]

Trả về một Tập dữ liệu mới có chính xác các phân vùng numPartitions

phân vùng lại (numPartitions. Int, phân vùngExprs. Cột*). Tập dữ liệu[T]

Trả về một Tập dữ liệu mới được phân vùng bởi các biểu thức phân vùng đã cho thành numPartitions. Tập dữ liệu kết quả được phân vùng băm

phân vùng lại (phân vùngExprs. Cột*). Tập dữ liệu[T]

Trả về một Tập dữ liệu mới được phân vùng theo các biểu thức phân vùng đã cho, sử dụng spark. sql. xáo trộn. phân vùng như số lượng phân vùng

tổ chức. apache. tia lửa. sql - Chuyển đổi

chọn (col. Chuỗi, cols. Chuỗi*). Khung dữ liệu

Chọn một nhóm cột.
______50

chọn (cột. Cột*). Khung dữ liệu

Chọn một tập hợp các biểu thức dựa trên cột.
______51

selectExpr(exprs. Chuỗi*). Khung dữ liệu

Chọn một tập hợp các biểu thức SQL.
_______52
DataFrameReader.format(...).option("key", "value").schema(...).load(paths: String*)3
DataFrameReader.format(...).option("key", "value").schema(...).load(paths: String*)4

DataFrameReader.format(...).option("key", "value").schema(...).load(paths: String*)5

ở đâu (điều kiệnExpr. Chuỗi). Tập dữ liệu[T]

Lọc các hàng bằng cách sử dụng biểu thức SQL đã cho.
Để lọc một DataFrame, bạn cũng có thể chỉ định một cột Boolean. DataFrameReader.format(...).option("key", "value").schema(...).load(paths: String*)6
DataFrameReader.format(...).option("key", "value").schema(...).load(paths: String*)7

ở đâu (điều kiện. Cột). Tập dữ liệu[T]

Lọc hàng theo điều kiện đã cho.
______58

bộ lọc(điều kiệnExpr. Chuỗi). Tập dữ liệu[T]

Lọc các hàng bằng cách sử dụng biểu thức SQL đã cho.
______59

bộ lọc (điều kiện. Cột). Tập dữ liệu[T]

Lọc hàng theo điều kiện đã cho.
// Những điều sau đây là tương đương.
______60
DataFrameReader.format(...).option("key", "value").schema(...).load(paths: String*)8

bộ lọc (chức năng. (T) ⇒ Boolean). Tập dữ liệu[T]

Trả về một Tập dữ liệu mới chỉ chứa các phần tử mà func trả về true

orderBy(sortExprs. Cột*). Tập dữ liệu[T]

Trả về Tập dữ liệu mới được sắp xếp theo các biểu thức đã cho. Đây là bí danh của chức năng sắp xếp.
______62

orderBy(sortCol. Chuỗi, sortCols. Chuỗi*). Tập dữ liệu[T]

Trả về một Tập dữ liệu mới được sắp xếp theo các biểu thức đã cho. Đây là bí danh của chức năng sắp xếp

sắp xếp(sortExprs. Cột*). Tập dữ liệu[T]

Trả về Tập dữ liệu mới được sắp xếp theo các biểu thức đã cho.
e. g. spark.read3

sắp xếp(sortCol. Chuỗi, sortCols. Chuỗi*). Tập dữ liệu[T]

Trả về Tập dữ liệu mới được sắp xếp theo cột đã chỉ định, tất cả theo thứ tự tăng dần.
_______64
spark.read5
spark.read6
spark.read7

khác biệt(). Tập dữ liệu[T]

Trả về một Tập dữ liệu mới chỉ chứa các hàng duy nhất từ Tập dữ liệu này. Đây là bí danh cho dropDuplicates

dropDuplicates(). Tập dữ liệu[T]

Trả về một Tập dữ liệu mới chỉ chứa các hàng duy nhất từ Tập dữ liệu này. Đây là bí danh để phân biệt

dropDuplicates(col1. Chuỗi, cols. Chuỗi*). Tập dữ liệu[T]

Trả về Tập dữ liệu mới đã loại bỏ các hàng trùng lặp, chỉ xem xét tập hợp con của các cột.
______68

dropDuplicates(colNames. Thứ tự [Chuỗi]). Tập dữ liệu[T]

Trả về một Tập dữ liệu mới đã loại bỏ các hàng trùng lặp, chỉ xem xét tập hợp con của các cột

dropDuplicates(colNames. Mảng[Chuỗi]). Tập dữ liệu[T]

Trả về một Tập dữ liệu mới đã loại bỏ các hàng trùng lặp, chỉ xem xét tập hợp con của các cột

giới hạn (n. số nguyên). Tập dữ liệu[T]

Trả về một Tập dữ liệu mới bằng cách lấy n hàng đầu tiên. Sự khác biệt giữa chức năng này và head là head là một hành động và trả về một mảng (bằng cách kích hoạt thực thi truy vấn) trong khi giới hạn trả về một Tập dữ liệu mới

withColumn(colName. Chuỗi, col. Cột). Khung dữ liệu

Trả về Tập dữ liệu mới bằng cách thêm một cột hoặc thay thế cột hiện tại có cùng tên.
Tuy nhiên, nếu tên cột đã cho khớp với một trong các tên hiện có, thì cột đó được thay thế bằng biểu thức cột đã cho.
______69

withColumnRenamed(tên hiện tại. Chuỗi, tên mới. Chuỗi). Khung dữ liệu

Trả về Tập dữ liệu mới với cột được đổi tên. Đây là một lệnh cấm nếu lược đồ không chứa tên hiện tại.
Lưu ý rằng nếu ColName hiện có được cung cấp không tồn tại trong lược đồ, Spark sẽ không đưa ra lỗi và nó sẽ âm thầm không làm gì cả.
______70

drop(colName. Chuỗi). Khung dữ liệu

Trả về Tập dữ liệu mới với các cột bị loại bỏ. Đây là lệnh cấm nếu lược đồ không chứa (các) tên cột.
______71

drop(colNames. Chuỗi*). Khung dữ liệu

Trả về Tập dữ liệu mới với các cột bị loại bỏ. Đây là lệnh cấm nếu lược đồ không chứa (các) tên cột.
Bạn có thể chỉ định loại bỏ một hoặc nhiều tên cột, nhưng chỉ những cái tồn tại trong lược đồ mới bị loại bỏ và những cái không tồn tại sẽ bị bỏ qua một cách âm thầm.
______72

thả (cột. Cột). Khung dữ liệu

Trả về Tập dữ liệu mới với một cột bị loại bỏ. Phiên bản thả này chấp nhận Cột thay vì tên. Đây là lệnh cấm nếu Tập dữ liệu không có cột có biểu thức tương đương.
______73

công đoàn (khác. Tập dữ liệu[T]). Tập dữ liệu[T]

Trả về một Tập dữ liệu mới chứa tập hợp các hàng trong Tập dữ liệu này và một Tập dữ liệu khác.
Điều này tương đương với UNION ALL trong SQL. Để thực hiện liên kết tập hợp kiểu SQL (không trùng lặp các phần tử), hãy sử dụng hàm này theo sau là một dấu phân biệt.
Lưu ý rằng các vị trí cột trong lược đồ không nhất thiết phải khớp với các trường trong các đối tượng được nhập mạnh trong Tập dữ liệu. Hàm này giải quyết các cột theo vị trí của chúng trong lược đồ, không phải các trường trong các đối tượng được nhập mạnh. Sử dụng unionByName để giải quyết các cột theo tên trường trong các đối tượng đã nhập.
val schema = StructType(Array(StructField("author", StringType, false), StructField("title", StringType, false),   StructField("pages", IntegerType, false)))4
val schema = StructType(Array(StructField("author", StringType, false), StructField("title", StringType, false),   StructField("pages", IntegerType, false)))5
val schema = StructType(Array(StructField("author", StringType, false), StructField("title", StringType, false),   StructField("pages", IntegerType, false)))6

val schema = StructType(Array(StructField("author", StringType, false), StructField("title", StringType, false),   StructField("pages", IntegerType, false)))7
val schema = StructType(Array(StructField("author", StringType, false), StructField("title", StringType, false),   StructField("pages", IntegerType, false)))8
val schema = StructType(Array(StructField("author", StringType, false), StructField("title", StringType, false),   StructField("pages", IntegerType, false)))9
val schema = StructType(Array(StructField("author", StringType, false), StructField("title", StringType, false),   StructField("pages", IntegerType, false)))8
val schema = “author STRING, title STRING, pages INT”1
val schema = “author STRING, title STRING, pages INT”2
val schema = StructType(Array(StructField("author", StringType, false), StructField("title", StringType, false),   StructField("pages", IntegerType, false)))8

unionByName(khác. Tập dữ liệu[T]). Tập dữ liệu[T]

Trả về một Tập dữ liệu mới chứa tập hợp các hàng trong Tập dữ liệu này và một Tập dữ liệu khác.
Điều này khác với cả UNION ALL và UNION DISTINCT trong SQL. Để thực hiện liên kết tập hợp kiểu SQL (không trùng lặp các phần tử), hãy sử dụng hàm này theo sau là một dấu phân biệt.
Sự khác biệt giữa hàm này và hàm union là hàm này phân giải các cột theo tên (không phải theo vị trí).
_______74
val schema = StructType(Array(StructField("author", StringType, false), StructField("title", StringType, false),   StructField("pages", IntegerType, false)))5
val schema = “author STRING, title STRING, pages INT”6

val schema = StructType(Array(StructField("author", StringType, false), StructField("title", StringType, false),   StructField("pages", IntegerType, false)))7
val schema = StructType(Array(StructField("author", StringType, false), StructField("title", StringType, false),   StructField("pages", IntegerType, false)))8
val schema = StructType(Array(StructField("author", StringType, false), StructField("title", StringType, false),   StructField("pages", IntegerType, false)))9
val schema = StructType(Array(StructField("author", StringType, false), StructField("title", StringType, false),   StructField("pages", IntegerType, false)))8
val schema = “author STRING, title STRING, pages INT”1
scala> Seq((1, 2)).toDF("i", "j").write.mode("overwrite").saveAsTable("t1") scala> Seq((3, 4)).toDF("j", "i").write.mode("append").saveAsTable("t1") scala> sql("select * from t1").show2
val schema = StructType(Array(StructField("author", StringType, false), StructField("title", StringType, false),   StructField("pages", IntegerType, false)))8

giao nhau (khác. Tập dữ liệu[T]). Tập dữ liệu[T]

Trả về một Tập dữ liệu mới chỉ chứa các hàng trong cả Tập dữ liệu này và Tập dữ liệu khác. Điều này tương đương với INTERSECT trong SQL

Làm việc với Booleans - Cột

===(khác. Bất kỳ). Cột

Kiểm tra đẳng thức.
______94

bằng (khác. Bất kỳ). Cột

Kiểm tra đẳng thức.
______95

<=>(khác. Bất kỳ). Cột

Kiểm tra đẳng thức an toàn cho các giá trị null

=. =(khác. Bất kỳ). Cột

Kiểm tra bất đẳng thức.
______96

<(other: Any): Column

Ít hơn

<=(other: Any): Column

Ít hơn hoặc bằng

>(khác. Bất kỳ). Cột

Lớn hơn

>=(khác. Bất kỳ). Cột

Lớn hơn hoặc bằng một biểu thức

&&(khác. Bất kỳ). Cột

Boolean AND

(khác. Bất kỳ). Cột

Boolean HOẶC

làNaN. Cột

Đúng nếu biểu thức hiện tại là NaN

isNotNull. Cột

Đúng nếu biểu thức hiện tại KHÔNG rỗng

làNull. Cột

True nếu biểu thức hiện tại là null

isin(danh sách. Bất kỳ*). Cột

Một biểu thức boolean được đánh giá là đúng nếu giá trị của biểu thức này được chứa bởi các giá trị được đánh giá của các đối số.
Theo tài liệu, isin lấy một vararg, không phải một danh sách. Danh sách thực sự là một cái tên khó hiểu ở đây.
______97
scala> Seq((1, 2)).toDF("i", "j").write.mode("overwrite").saveAsTable("t1") scala> Seq((3, 4)).toDF("j", "i").write.mode("append").saveAsTable("t1") scala> sql("select * from t1").show8
hoặc
scala> Seq((1, 2)).toDF("i", "j").write.mode("overwrite").saveAsTable("t1") scala> Seq((3, 4)).toDF("j", "i").write.mode("append").saveAsTable("t1") scala> sql("select * from t1").show9

thích (nghĩa đen. Chuỗi). Cột

biểu thức giống SQL. Trả về một cột boolean dựa trên đối sánh SQL LIKE.

Ký tự đại diện SQL
%. Đại diện cho không hoặc nhiều ký tự, e. g. // Mode 100 tìm thấy bl, đen, xanh lam và blob
_. Đại diện cho một ký tự đơn, e. g. // Mode 101 thấy hấp dẫn, mũ và hit
[]. Đại diện cho bất kỳ ký tự đơn nào trong ngoặc đơn, e. g. // Mode 102 thấy nóng đội mũ mà không trúng
^. Đại diện cho bất kỳ ký tự nào không có trong ngoặc, e. g. // Mode 103 tìm thấy hit, nhưng không nóng và mũ
-. Đại diện cho một loạt các ký tự, e. g. // Mode 104 tìm thấy con mèo và cbt

rlike (nghĩa đen. Chuỗi). Cột

Biểu thức SQL RLIKE (THÍCH với Regex)

startedWith(nghĩa đen. Chuỗi). Cột

Chuỗi bắt đầu bằng một chuỗi ký tự khác. Trả về một cột boolean dựa trên khớp chuỗi

startedWith(khác. Cột). Cột

Chuỗi bắt đầu bằng

kết thúcWith(nghĩa đen. Chuỗi). Cột

Chuỗi kết thúc bằng một chuỗi ký tự khác. Trả về một cột boolean dựa trên khớp chuỗi

kết thúcWith(khác. Cột). Cột

Chuỗi kết thúc bằng. Trả về một cột boolean dựa trên khớp chuỗi

chứa (khác. Bất kỳ). Cột

Chứa phần tử khác. Trả về một cột boolean dựa trên khớp chuỗi

tổ chức. apache. tia lửa. sql. cột

Làm việc với Booleans - chức năng

Ghi chú. Cột). Cột

Đảo ngược biểu thức boolean, i. e. KHÔNG PHẢI

isnan(e). Cột). Cột

Trả về true nếu cột là NaN

isnull(e. Cột). Cột

Trả về true nếu cột là null

tổ chức. apache. tia lửa. sql. chức năng

Làm việc với Số - Cột

+(khác. Bất kỳ). Cột

Tổng của biểu thức này và biểu thức khác

-(khác. Bất kỳ). Cột

phép trừ. Trừ biểu thức khác khỏi biểu thức này

*(khác. Bất kỳ). Cột

Nhân biểu thức này với biểu thức khác

/(khác. Bất kỳ). Cột

Chia biểu thức này cho biểu thức khác

%(khác. Bất kỳ). Cột

Modulo (a. k. a.
取余数, e. g. // Mode 105

tổ chức. apache. tia lửa. sql. cột

Làm việc với số - hàm

cơ bụng (e. Cột). Cột

Tính giá trị tuyệt đối

tròn (e. Cột). Cột

Trả về giá trị của cột e được làm tròn đến 0 chữ số thập phân với chế độ làm tròn HALF_UP

tròn (e. Cột, tỷ lệ. số nguyên). Cột

Làm tròn giá trị của e để chia tỷ lệ các vị trí thập phân với chế độ làm tròn HALF_UP nếu tỷ lệ lớn hơn hoặc bằng 0 hoặc ở phần nguyên khi tỷ lệ nhỏ hơn 0

màu nâu đất (e. Cột). Cột

Trả về giá trị của cột e được làm tròn đến 0 chữ số thập phân với chế độ làm tròn HALF_EVEN.
HALF_EVEN làm tròn về phía "hàng xóm gần nhất" trừ khi cả hai hàng xóm cách đều nhau, trong trường hợp đó, làm tròn về phía hàng xóm chẵn.

màu nâu đất (e. Cột, tỷ lệ. số nguyên). Cột

Làm tròn giá trị của e để chia tỷ lệ các vị trí thập phân với chế độ làm tròn HALF_EVEN nếu tỷ lệ lớn hơn hoặc bằng 0 hoặc ở phần nguyên khi tỷ lệ nhỏ hơn 0

bột (l. Nhân đôi, đúngTên. Chuỗi). Cột