পাইস্পার্ক চিটশিট

PySpark হল Apache Spark-এর Python API, এটি ওপেন সোর্স, distributed computing framework এবং রিয়েল-টাইম, large-scale data processing এর কাজে ব্যবহৃত হয়

কন্ট্রিবিউটর

  • MoshiulRabbi
  • iamraufu

শেয়ার করুন

SparkSession সেটআপ/চালু করা

  • SparkSession এ Pyspark initialize করুন

    from pyspark.sql import SparkSessionspark = SparkSession.builder.appName('randomName').getOrCreate()

Data Modify রিলেটেড কমান্ড সমুহ

  • Data ফিল্টার করা

    df.filter(df['age']>24).show()
  • Data lambda ফাংশন দিয়ে Sort করা

    df.sortBy(lambda x: x[1]).collect()
  • Duplicate Data ড্রপ করা

    df.dropDuplicates()
  • null Data সরানো

    df.na.drop().show()
  • null value replace করা

    df.na.fill(50).show()
  • নির্দিষ্ট কলাম show করা

    df.select('columnName').show()

Convert ও Output রিলেটেড কমান্ড সমুহ

  • DataFrame কে RDD তে রূপান্তর করা

    rdd1 = df.rdd
  • Repartition করা

    df.repartition(4)
  • df এর কনটেন্ট Pandas Dataframe এ করে দেখা

    df.toPandas()
  • ফাইল Write ও Save করা

    RDD.write.option('header',True).csv('/home/Data')
  • Text ফাইল Save করা

    textRdd.saveAsTextFile('/home/Data')

ডাটাফ্রেম তৈরী ও লোড করা

  • ডাটাফ্রেম তৈরী করা

    from pyspark.sql.types import*spark.createDataFrame([(1, 'a'), (2, 'b')], ['num', 'letter'])
  • CSV file লোড করা

    df = spark.read.load('/home/Dataset/Case.csv', format = 'csv', sep = ',', inferScheme = True, header = True)
  • Txt file লোড করা

    df = spark.read.text('people.txt')
  • JSON file লোড করা

    df = spark.read.json('customer.json')

Data Inspect রিলেটেড কমান্ড সমুহ

  • কলামের নাম ও ডাটা টাইপ দেখা

    df.dtypes
  • df এর কনটেন্ট show করা

    df.show()
  • df এর প্রথম ১০টি row দেখা

    df.head(10)
  • df এর প্রথম row দেখা

    df.first()
  • Row এর সংখ্যা দেখা

    df.count()
  • df এর Schema দেখা

    df.printSchema()
  • df এর logical ও physical plan দেখা

    df.explain()

SparkSession Close করা

  • তৈরিকৃত Session Close করা

    spark.stop()