Breaking News
Showing posts with label R. Show all posts
Showing posts with label R. Show all posts

Monday, March 19, 2018

Market Basket Analisys (MBA) dengan Association Rule

[INFO STATISTICS]

Hallo sobat Info Statistics, Pada kesempatan kali ini saya ingin berbagi mengenai penggunaan Metode MBA ( Market Basket Analisys) dengan menggunakan Algoritma Apriori Association Rule. Metode ini merupakan bagian dari data mining. Metode ini biasanya digunakan pada sebuah data transaksi di swalayan/pertokoan. Metode ini bagian dari data mining. Mari kita kenali terlebih dahulu  tentang apa itu data mining.

What is Data Mining ?

Sebenernya pengertian data mining ini sudah banyak dijelaskan oleh para ahli. Data mining merupakan sebuah cabang ilmu yang mempelajari bagaimana cara untuk mengekstrak suatu data yang berukuran/ berjumlah besar. Menurut wikipedia Data Mining merupakan sebuah proses menemukan sebuah pola data didalam kumpulan data yang besar yang melibatkan beberapa metode analisis seperti mechine learning, statistics, matemathics dan sebuah sistem database. Berikut ini adalah alur dari proses Data Mining


Dalam data mining terdapat beberapa banyak metode yang sering digunakan oleh ahli data untuk menyelesaikan permasalahannya  contohnya,  Clustering, Regression, Classification, Market basket analisys (MBA), Forecasting, dan sebagainya. Salah satu penerapan dari data mining ini dapat di aplikasikan di swalayan dengan menggunakan metode MBA dengan Algoritma Apriori Association Rule. Metode ini biasa digunakan pada data transaksi pada sebuah supermarket/swalayan.

Association rule merupakan suatu metode data mining yang beertujuan untuk mencari sekumpulan item yang sering muncul bersamaan. Pada umumnya metode ini dianalogikan sebagai keranjang belanjaan. Dari kerajang belanjaan para pengunjung swalayan/supermarket tersebut dapat diketahui pola pembeliannya, dengan melihat barang apa saja yang sering dibeli bersamaan dan barang mana saja yang tidak. Dalam association rule terdapat beberapa hal yang digunakan untuk mmengukut apakah sekumpulan item seing muncul bersamaan atau tidak yaitu nilai Support, Confidence dan Lift rasio

1. Nilai Support merupakan persentase dari semua transaksi yang terjadi yang mengandung itemset tersebut. Adapun rumusnya sebagai berikut : 
2. Nilai Confidence merupakan perbandingan antara nilai support dari himpunan items  yang terdapat di dalam rule dan nilai support himpunan items yang mendahuluinya. Adapun rumusnya sebagai berikut :
3. Nilai lift rasio merupakan suatu ukuran dalam mengetahui kekuatan suatu aturan asosiasi. Adapun rumusnya sebagai berikut :
Untuk lebih jelasnya disini saya memberikan studi kasus sederhana mengenai penjualan suatu produk di sebuah mini market X. Diberikan data transaksi sebagai berikut :
Berdasarkan gambar diatas terdapat 6 ID transaksi, ini artinya terdapat 6 konsumen yang berbelanja di super market X. Seperti biasa kita menggunakan R studio sebagai tools dalam analisis ini. 

Biar tidak terlalu lama, lets do it : 

1. Buka R studio anda

2. Buka lembar kerja baru dengan cara ketik file, new file, dan R Script

3. Selanjutnya Kita akan menggunakan beberapa packages (Paket) yang dibutuhkan dalam analisis ini. berikut packagesnya :
library (arules)
library (arulesViz)
library (grid)
library (Matrix)

3. Buat list dataset dari transaksi diatas.
#membuat simulasi data
data = list(c("pena","roti","mentega"),
            c("mentega", "roti", "telur","susu"),
            c("buncis","telur","susu"),
            c("roti","mentega"),
            c("roti","mentega","kecap","telur","susu"),
            c("kecap","buncis","telur"),
            c("pena","buku","pensil"))

4. Ubah data tersebut menjadi data transaksi.
#Ubah data tersebut menjadi data transaksi 
data_trans = as(data, "transactions")
data_trans

5. Jika ingin melihat jumlah itemset yang terjual maka dapat menggunakan script berikut ini :
#Total Itemset yang terjual
itemFrequencyPlot(data_trans,type="absolute", 
                  col=12, main="Jumlah Frekuensi Item")

Jika di running maka akan menghasilkan plot dibawah ini 

6. Selanjutya kita akan memulai analisis association rule dengan memberikan minimum nilai support 0.2 dan confidence 0.2. 
#melakukan analisis association rule
aturan.ap<-apriori(aturan, 
                   parameter = list(supp=0.2,conf=0.2))
View(inspect(aturan.ap))

Script di atas menunjukan metode ini menggunakan nilai minimum support 0.2 dan confidance 0.2. Jika ingin memunculkan hasil dari analisis ini dapat digunakan perintah "inspect" seperti yang ditunjukan pada gambar diatas. maka hasil dari analisis ini sebagai berikut : 


Dari gambar diatas terlihat bahwa dengan menggunakan nilai nilai minimum support 0.2 dan confidance 0.2 menghasilkan aturan sebanyak 39 aturan.
Bagaimana cara membaca data tersebut :
  • Kita ambil contoh saja pada baris ke-8, interpretasi yang dapat kita lakukan pada hasil ini adalah jika konsumen membeli "buncis" maka dia akan membeli "telur" dengan nilai support 0.285 = 28,5%  , nilai confidence 1  = 100 %, dan nilai lift = 1,75

7. Didalam penentuan nilai support dan confidence itu menggunakan metode trial and error (coba-coba) untuk mendapatkan nilai support dan confidence yang maksimum. 

8. Kita juga dapat menentukan berapa jumlah kombinasi itemset yang diinginkan pada aturan asosiasi yang sudah terbentuk. Anda dapat menuliskan script R berikut :
#melakukan analisis association rule dengan kombinasi 3 itemset
aturan.ap<-apriori(data_trans, 
                 parameter = list(supp=0.2,conf=0.2, minlen=3))
View(inspect(aturan.ap))

Dari script diatas maka menghasilkan output seperti berikut : 

Gambar diatas menunjukan aturan asosiasi yang tebentuk sebanyak 16 aturan dengan menggunakan niali support 0.2, nilai confidence 0.2, dan menggunakan minimal kombinasi 3 itemset. 
Nah bagaimana cara untuk interpretasinya :
  • Kita ambil contoh pada baris pertama, jika konsumen membeli "mentega" dan "susu" kemudian dia akan membeli "roti" dengan nilai support 0.285 = 28,5%  , nilai confidence 1  = 100 %, dan nilai lift = 1,75

9. Kita juda bisa melihat grafik dari hasil aturan tersebut dengan menggunakan perintah berikut :
#Pembuatan plot aturan asosiasi
plot(aturan.ap2, method = "graph", 
     main = " Plot Asscoiation Rule Kombinasi 3 itemset")
Maka hasilnya seperti berikut : 

Jika dilihat dari gambar bahwa nilai bulat merah tersebut merupakan nilai support dari ke 4 produk tersebut. Semakin kontrasnya warna merah terebut maka nilai support nya akan semakin besar begtupun sebaliknya, semakin pudar warna dari bulatan tersebut maka nilai support nya kecil. 


Mungkin cukup sekian dulu tutorial MBA Association Rule dengan menggunakan R studio, semoga bermanfaat bagi anda yang ingin belajar. 

Jangan lupa bisa dilihat juga video recommended banget nih 
contoh MBA dengan R dan arules : Youtube : RB. Fajriya Hakim  


Dont forget to like, comment, and share . 
Have a nice Day
Thanks a lot :)

Read more ...

Friday, February 9, 2018

Double Moving Average menggunakan R

[INFO STATISTICS]
Hai sobat Info Statistics, gimana kabarnya ???

Melanjutkan postingan sebelumnya yaitu (Single Moving Average menggunakan R), Pada kesempatan kali ini kita akan belajar menyelesaikan analisis Double Moing Average dengan menggunakan R / R Studio. Namun sebelum itu kita harus tahu terlebih dahulu apa itu Double Moing Average. 

Double Moving Average adalah salah satu peramalan time series dengan melihat data trend adalah peramalan dengan metode double moving average. Pertama kali dilakukan moving average kemudian baru dilakukan lagi moving average untuk data yang tadi yang sudah di moving average pertama kali. Berikuti ni adalah rumus yang dipakai pada peramalan ini yaitu


Dimana :
Mt     = Moving Average periode t
Ft+1   = Ramalan Periode  t + 1
Yt      = Nilai Riil periode ke t
n       = Jumlah batas dalam moving average
m      = Jumlah periode yang akan diramalkan

Supaya tidak berlama-lama, mari kita langsung dengan studi kasus kita.

[STUDI KASUS]
Sebuah perusahaan jersey Chelsea FC menghasilkan data penjualan dalam periode juli 2013 sampai februari 2016 sebagai berikut : 
Lakukan Forecast dengan metode Double Moving Average orde 3x3 untuk 3 periode kedepan.
Ikuti langkah-langkah berikut ini : 

1. Pastikan R/R Studio anda sudah bekerja.

2. Buat New Project, dengan klik file> new file > r script.

3. Download data berikut : Data Penjualan

4. Input Data dengan menuliskan script berikut : 
#Double MA
#input data, run X=scan() kemudian copy data pada R console 
X=scan()
n=length(X)
k=3

5. Sebelum melakukan  MA (3X3) anda harus melakukan prediksi menggunakan MA terlebih dahulu. Kali ini saya menggunakan K=3 yaitu MA(3) seperti yang sudah di tunjukan gambar di atas. 

6. Untuk memunculkan MA(3) dapat digunakan script berikut :
#Peramalan dengan MA(3)
MA=array(NA,dim=c(n))
for(i in 1:n){
  MA[i+(k-1)]=mean(X[i:(i+(k-1))])}
MA
View(MA)

7. Melakukan peramalan MA(3X3). Namun ini belum dapat dilakukan sebagai prediksi karena harus mencari nilai at (koefisien intersept) dan nilai bt (Koefisien Trend). 
m=3
DMA=array(NA,dim=c(n))
for(i in 1:n){
  DMA[i+(m-1)+(k-1)]=mean(MA[(i+(k-1)):(i+(m-1)+(k-1))])}
DMA
View(DMA)

8. Cari nilai a(koefisien intersept) dengan menuliskan script berikut :
#Mencari nilai a
a=array(NA,dim=c(n))
for(i in 1:n){
  a[i+(m-1)+(k-1)]=2*MA[i+(m-1)+(k-1)]-DMA[i+(m-1)+(k-1)]}
a

9. Mencari nilai b(Koefisien Trend).
#mencari nilai b
b=array(NA,dim=c(n))
for(i in 1:n){
  b[i+(m-1)+(k-1)]=(2/(m-1))*(MA[i+(m-1)+(k-1)]-DMA[i+(m-1)+(k-1)])}
b

10. Melakukan Prediksi dengan memunculkan hasil prediksi 
#Prediksi
Prediksi=array(NA,dim=c(n))
for(i in 1:n){
  Prediksi[i+(m-1)+(k-1)+1]=a[i+(m-1)+(k-1)]+b[i+(m-1)+(k-1)]
}
Prediksi

11. Untuk melihat akurasi peramalan tersebut dapat dilakukan dengan melihat nilai MSE dan MAPE : 
#error
e=array(NA,dim=c(n))
for(i in 1:n){
  e[i]=(X[i]-Prediksi[i])^2
}
MSE=mean(e,na.rm=TRUE)
MSE

#MAPE
PE=array(NA, dim=c(n))
for(i in 1:n){
  PE[i]=abs((X[i]-Prediksi[i])/X[i])}
PE
MAPE=mean(PE,na.rm=TRUE)
MAPE

12. Lakukan Forecast untuk 3 periode kedepan.
#forecast 3 periode kedepan
Forecast=function(h){
  a[n]+b[n]*h 
}
Ramalan=Forecast(1:4)
Ramalan
dari script diatas menghasilkan output :
[1] 136.6667 137.6667 138.6667 139.6667

13. Untuk lebih mempermudah melakukan peramalan maka dapat digunakan script dibawah ini :
######## data time series #######
Ramalan=c(Prediksi[48],Ramalan)
X=ts(X, start=c(2013,7), end=c(2016,2), freq=12)
Prediksi=ts(Prediksi, start=c(2013,7), end=c(2016,2), freq=12)
Ramalan=ts(Ramalan, start=c(2016,2), end=c(2016,5), freq=12)
Ramalan
Maka output yang dihasilkan sebagai berikut :
> Ramalan
          Feb      Mar      Apr      May
2016 136.6667 137.6667 138.6667 139.6667

14. Kemudian langkah terakhir membuat plot data actual dan prediksi dari kasus tersebut : 
########## plot data ################
plot(X, type="l", col="red",lwd=2, xlim=c(2013,2016), ylim=c(100,300), xlab="Tahun", ylab="Jumlah Penjualan", main="Plot Data Asli dan Ramalan MA(3x3)")
lines(Prediksi, col="blue", lwd=2)
limitDate=end(X)[1]+(end(X)[2]-1)/frequency(X)
abline(v=limitDate ,lty=4)
lines(Ramalan,col="green", lwd=2)
legend("topleft", c("Asli", "Prediksi", "Ramalan"), bty="n", lwd=2, col=c("red", "blue","green"))

15. Lihat hasil plot berikut :
Berdasarkan gambar diatas garis berwarna merah menunjukan data actual dari penjualan jersey tersebut. Kemudian garis berwarna biru menunjukan hasil prediksi menggunakan MA (3X3), dan garis hijau kecil menunjukan hasil forecasting 3 periode kedepan yaitu Maret = 138 pcs, April = 139 pcs, dan Mei =140 pcs. 

Cukup mudah kan sobat. Baik cukup disini dulu postingan kali ini , kita akan lanjutkan di postingan selanjutnya. 

Terimakasih, jangan lupa like & share !!!


Read more ...

Sunday, January 28, 2018

Single Moving Average Menggunakan R

[INFO STATISTICS]
Hello sobat info statistics, kembali lagi di postingan baru nih,  kali ini kita akan mencoba untuk membahas analisis runtun waktu (Forecasting) menggunakan R.

Analisi Runtun Waktu merupakan metode analisis kuantitatif yang mempertimbangkan adanya suatu pengaruh waktu. Jenis data yang biasanya digunakan dalam analisis ini yaitu data time series. Data time series merupakan data yang dikumpulkan secara periodik berdasarkan urutan waktu, bisa dalam jam, hari, minggu, bulan, kuartal dan tahun. 

Beberapa analisis runtun waktu yang biasa digunakan dalam penelitian yaitu Moving Average, Double Moving Average, Exponential Smoothing, Double dan Triple Exponential Smoothing, Arima, Sarima, dan masih banyak lagi. Asumsi yang harus dipenuhi dalam analisis ini yaitu asumsi kestasioneran artinya sifat-sifat yang mendasari proses tidak dipengaruhi oleh waktu atau proses dalam keseimbangan. Apabila asumsi stasioner belum dipenuhi maka deret belum dapat dimodelkan. Namun, deret yang nonstasioner dapat ditransformasikan menjadi deret yang stasioner. 

Analisis runtun waktu selalu berkaitan dengan jenis pola data. ini merupakan salah satu aspek yang paling penting dalam penyeleksian metode peramalan yang sesuai untuk data runtun waktu. Ada 4 macam jenis pola data dalam runtun waktu.perhatikan gambar berikut : 


  1. Pola data Horizontal : Ketika data observasi berubah-ubah di sekitar tingkatan atau rata-rata yang konstan. sebagai contoh : penjualan tiap bulan suatu produk tidak meningkat atau menurun secara konsisten pada suatu waktu dapat dipertimbangkan untuk pola horizontal.
  2. Pola data Siklis : Pola cyclical ditandai dengan adanya fluktuasi bergelombang data yang terjadi di sekitar garis trend.
  3. Pola data Trend : Pola data trend terjadi bilamana data pengamatan mengalami kenaikan atau penurunan selama periode jangka panjang.
  4. Pola data MusimanPola data musiman terjadi  bilamana suatu deret dipengaruhi oleh faktor musiman. Pola data musiman dapat mempunyai pola musim yang berulang dari periode ke periode berikutnya. Misalnya pola yang berulang setiap bulantertentu, tahun tertentu  atau pada minggu tertentu.
Single Moving Average
Rata-rata bergerak tunggal (Moving average) untuk periode t adalah nilai rata-rata untuk n jumlah data terbaru. Dengan munculnya data baru, maka nilai rata-rata yang baru dapat dihitung dengan menghilangkan data yang terlama dan menambahkan data yang terbaru. Moving average ini digunakan untuk memprediksi nilai pada periode berikutnya. Model ini sangat cocok digunakan pada data yang stasioner atau data yang konstant terhadap variansi, tetapi tidak dapat bekerja dengan data yang mengandung unsur trend atau musiman.

Rata-rata bergerak pada orde 1 akan menggunakan data terakhir (Ft), dan menggunakannya untuk memprediksi data pada periode selanjutnya. Metode ini sering digunakan pada data kuartalan atau bulanan untuk membantu mengamati komponen-komponen suatu runtun waktu. Semakin besar orde rata-rata bergerak, semakin besar pula pengaruh pemulusan (smoothing).

Dibanding dengan rata-rata sederhana (dari satu data masa lalu) rata-rata bergerak berorde T mempunyai karakteristik sebagai berikut :
  • Hanya menyangkut T periode tarakhir dari data yang diketahui.
  • Jumlah titik data dalam setiap rata-rata tidak berubah dengan berjalannya waktu.
Kelemahan dari metode ini adalah :
  • Metode ini memerlukan penyimpanan yang lebih banyak karena semua T pengamatan terakhir harus disimpan , tidak hanya nilai rata-rata. 
  • Metode ini tidak dapat menanggulangi dengan baik adanya trend atau musiman, walaupun metode ini lebih baik dibanding rata-rata total
Diberikan N titik data dan diputuskan untuk menggunakan T pengamatan pada setiap rata-rata (yang disebut dengan rata-rata bergerak orde (T) atau MA(T), sehingga keadaannya adalah sebagai berikut : 
Secara singkat perhitungan metode ini sebagai berikut :

Ukuran Akurasi Peramalan
Dalam metode analisis runtun waktu ada beberapa ukuran untuk menentukan bagus tidaknya sebuah metode peramalan tersebut. 
  1. Mean Absolute Error (MAE)rata-rata absolute dari kesalahan meramal, tanpa menghiraukan tanda positif maupun negatif. 
  2. Mean Square Error (MSE) : kuadrat rata-rata kesalahan meramal
  3. Mean Absolute Percentage Error (MAPE): nilai tengah kesalahan persentase absolute dari suatu peramalan. 
  4. Percentage Error (PE) : Kesalahan persentase dari suatu peramalan. 
    dimana :
     xt =nilai data ke periode ke-t
     ft =nilai ramalan periode ke-t
     n =banyaknya data
Setelah kita mengetahui dasar dari Analisis runtun waktu maka kita akan coba melakukan analisis sederhana kita yaitu dengan menggunakan Single Moving Average dengan menggunakan bantuan R. 

Studi Kasus :
Perusahaan A ingin meramalkan pendapatan berdasarkan jumlah produk susu kaleng. Metode yang digunakan pada peramalan ini yaitu Single Moving Average dengan membandingkan MA (3) dan MA (5). Berikut adalah langkah analisisnya :

1. Pada kesempatan ini saya menggunakan R studio dalam menyelesaikan masalahini, ya supaya lebih asyik aja gitu :D.Pastikan program R anda telah terbuka.
2. Buat New Project, dengan klik file> new file > r script
3. Download Data Berikut : Download
4. Input data dengan menuliskan script berikut :
#input data
X=scan()
n=length(X)
k=3

5. Memunculkan hasil dari MA(3) gunakan script berikut :
#Peramalan dengan menggunakan MA(3)
MA=array(NA,dim=c(n))
for(i in 1:n){
  MA[i+k]=mean(X[i:(i+(k-1))])}
MA
View(MA)

6. Untuk mengukur akurasi peramalan kita gunakan dua yaitu MSE dan MAPE
##MSE##
e=array(NA,dim=c(n))
for(i in 1:n){
  e[i]=(X[i]-MA[i])^2
}
e
SSE=sum(e,na.rm=TRUE)#NA.RM=TRUE = NILAI KOSONG DI REMOVE
SSE
MSE=mean(e,na.rm=TRUE)
MSE
##MAPE##
PE=array(NA, dim=c(n))
for(i in 1:n){
  PE[i]=abs((X[i]-MA[i])/X[i])}
PE
MAPE=mean(PE,na.rm=TRUE)
MAPE

7. Untuk memudahkan dalam pembuatan plot maka kita tulis script berikut ini :
##data time series##
X=ts(X, start=1, end=31, freq=1)
X
MA5=ts(MA, start=1, end=31, freq=1)
MA5
pred=ts(MA[32], start=32, freq=1)
pred

8. Tuliskan Script berikut untuk mebuat Plot time series :
##plot tipe titik##
plot = plot(X, type="p", col="red",lwd=2, xlim=c(1,31), ylim=c(1000000,12000000), xlab="Tanggal", ylab="Rupiah", main="Plot Data Asli dan Ramalan Produk Susu ")
plot
lines(MA5, col="blue", lwd=2, type="p")
limitDate=end(X)[1]+(end(X)[2]-1)/frequency(X)
abline(v=limitDate,lty=4)
lines(pred,col="green", lwd=2, type="p")
legend("bottomleft", c("Asli", "Prediksi", "Ramalan"), pch=21, bty="n", lwd=2, col=c("red", "blue","green"))

9. Lakukan langkah yang sama untuk melakukan analisis SMA dengan MA(5) hanya dengan menggantia nilai k menjadi 5. 

[ANALISIS]
Berdasarkan dari beberapa langkah diatas, didapatkan hasil sebagai berikut : 
a. Hasil Forecast 

Gambar diatas menunjukan hasil analisis SMA dengan menggunakan MA (3) dan MA(5). Untuk menentukan manakah hasil peramalan yang paling baik diantara keduanya dengan cara melihat ukuran akurasi peramalan yang lebih kecil. pada postingan ini saya menggunakan MAPE untuk melihat tingkat akurasi peramalannya. Jika dilihat dari hasil analisisnya dengan melihat akurasi peramalan dengan metode MAPE, MA (5) lebih kecil dibandingkan dengan MA(3) ini artinya hasil peramalan dengan MA (5) lebih baik. Namun ketika anda ingin mencoba untuk melakukan peramalan dengan membandingkan beberapa MA , anda hanya tinggal mengganti nilai K saja pada bagian langka ke-4. 

b. Plot Hasil Forecasting
Untuk interpretasi mungkin bisa kawan kawan explore sendiri ya hehehe :D

Mungkin untuk postingan kali ini sampai disini dulu, untuk selanjutnya kita bakalan membahas Double Moving Average dan Exponential Smoothing. 

Terimakasih atas perhatiannya, [HAVE A NICE DAY ]
Read more ...

Tuesday, January 2, 2018

One Sample T Test in R

[WELCOME TO INFO STATISTICS]
Let's start this year by sharing knowledge about Statistics. 

I would like to share about, how to use one sample t-test  in an inferensia statistical analisys and apply in R software. Did you know about one sample t-test before ?,  following that statement below :

One sample t test is analytical technique to compare one independent variable. This technique is used to test whether a particular value differs significantly or not with the average of a sample. In t-test, there is an assumption that must be fulfilled is normal distributed sample data. 

There are two kinds of hypothesis in t-test :
  1. One Tailed
    One tailed is usually used to see if the average of the sample is more than or less than the reference average.

    a. The Right Hypothesis
    H0 :  µ ≤ µ0 ( Average Sample ≤ Reference Average )
    H1 :  
    µ > µ( Average Sample > Reference Average )

    b. The left Hypothesis
    H0 :  µ ≥ µ0 ( Average Sample ≥ Reference Average )
    H1 :  
    µ < µ( Average Sample < Reference Average )
  2. Two Tailed
    Two tailed is is used to see if the average value of a single sample equals (=) the reference value or not
    H0 :  µ = µ0 ( Average Sample ≥ Reference Average )
    H1 :  µ ≠ µ0 ( Average Sample < Reference Average )
In testing the hypothesis, the criterion of rejection or acceptance of H0 is based on the value of P-Value or T-table value.
  • use p-value

    If the value of P-value (Sig.) < a = 5%, then H0 is rejected,
    If the value of P-value (Sig.) > a = 5%, then H0 is accepted.
  • Use T-table
    If the value of t-count > t-table, then H0 is rejected,

    If the value of t-count < t-table then H0 is accepted
Case study :
Question :
Based on data from a company A about the number of bicycle sales for a month, it turns out that in a month the average sales is 70 peaces of laptops, test the hypothesis of whether the statement is true !. the data can be download in ( Data trainning )



Based on the above data, we will try to how to apply this analisys in R software. let's do it.

  • open R or R studio in your PC 
  • if it's opened, Klik file >> new file >> R script 
  • write your script in R script, you can copy this script below in your worksheet :
#using read.delim function
##you have to copy the data first in your file have been downloaded, 
##then write the following script

data=read.delim("clipboard")
data
  • If you want to see the data, you can write the script below :  
#to see the data in R   
View(data)
  • Now we start to analisys. R provide a function to perform T-test. The function is "T.test". we will use this function to finishing the case. 
 t.test(data1$Sales,mu=70)

Following the result of one sample t-test analisys  :


Based on the above output, we can see that the mean sales of laptops for the sample is 61. The two-sided 95% confidence interval tells us that mean sum of sales between 53,19 and 68,80. The p-value of 0.0255 tells us that the p-value (0.0255 ) < a (0,05)  which mean H0 is rejected. So that,the conculsion is the average sales of Laptops not equal to 70 peaces. 

if you wanna get more information you can choose this link below :

Thanks for attention and see you next post :)
Read more ...

Tuesday, December 5, 2017

Compare Means With R

"Hallo Gaes welcome back to my Blog"

Today i will show you about how to analisys compere means analisys using R Studio.
but before we start this analisys, i wanna explain about what is the compare means analisys.

Compare Means analysis is used for compares the mean between two or more groups of data samples. Fundamental assumptions in the comparison analysis is that the data variable to be compared should be following a normal distribution. 
     The first step to this comparison method is to collect data (sample) of each object per group of variables. Measurements are quantitative or minimum interval scale. Next recognize what is called a t test statistic and variance analysis (ANOVA). T test statistics and ANOVA are used as statistics test for comparison of two or more groups of data samples. The t test is used for compare the two samples to be compared, whereas ANOVA is used for the comparison test of more than two groups of data samples then used the analysis variance.

There are four point in Compare Means that is : 

  • One Sample T-Test : analytical technique to compare one independent variable. This technique is used to test whether a particular value differs significantly or not with the average of a sample.
  • Independent Sample T-Test : This test is used to determine whether or not there is an average difference between the two unrelated sample groups
  • Paired Sample T-Test : Different test of two paired samples. Paired samples are the same subjects but undergo different treatments
  • Anova : Anova stands for Analysis of variance. It is a statistical test procedure similar to t test. But the advantage of Anova is that it can test the differences of more than two groups. 
The above discussion on compare means briefly. if you want to learn more then click every point above.

Thank you very much for visiting the blog, if any question please comment below.
Have a nice day :)

Read more ...

Wednesday, November 29, 2017

Descriptive Statistics With R Studio

Hallo Guys, How are you today ? 

On this Occasion, we will learn how to analisys Statistics Descriptive with R Studio. Descriptive statistics is the term given to the analysis of data that helps describe, show or summarize data in a meaningful way such that, for example, patterns might emerge from the data. 

Oke now lets try in your R Studio  : 

  • First, open your R Studio >> File >> New File >> R Script.
  • Download the following of data set (Download : Data train
  • you can enter the data set to R script below :
#using read.delim function
##you have to copy the data first in your file have been downloaded, 
##then write the following script

data=read.delim("clipboard")
data
  • If you want to summarize the data set, write the following script :
#mean,median,25th and 75th quartiles,min,max
summary(data)

There are also numerous R functions designed to provide a range of descriptive statistics at once. For example :
  • Using Library(pastecs)
library(pastecs)
stat.desc(data) 
# nbr.val, nbr.null, nbr.na, min max, range, sum, 
# median, mean, SE.mean, CI.mean, var, std.dev, coef.var
  • Using Library(psych)
library(psych)
describe(data)
# item name ,item number, nvalid, mean, sd, 
# median, mad, min, max, skew, kurtosis, se

If you are not satisfied, see also : (https://www.statmethods.net/stats/descriptives.html )

"Thanks for visiting , don't forget to like and comment 
Have a nice day :)" 
Read more ...
Copyright by INFO STATISTICS