Basic technique of Web scraping

Cara scraping Web



Web scraping adalah metode yang sangat berguna dalam bisnis online, baik itu untuk riset pasar, riset kompetitor, atau mencari leads. Namun, manfaatnya lebih dari sekedar itu.

Dalam artikel ini, Anda akan mempelajari pengertian dari metode ini serta seluruh manfaatnya. Tak hanya itu, Anda pun akan diajak mengenali teknik-tekniknya secara umum. Selamat membaca!

Apa itu web scraping

Dalam menjalankan bisnis online, pastinya Anda pernah mendata kompetitor-kompetitor Anda beserta informasi penting mengenai produk atau layanan mereka.

Kemudian, Anda menyimpan data tersebut di dalam sebuah spreadsheet — baik itu menggunakan Microsoft Excel, Google Sheet atau aplikasi sejenisnya. Proses inilah yang disebut sebagai web scraping.

Dengan kata lain, web scraping dapat didefinisikan sebagai proses pengambilan data dari sebuah website.

Secara umum, ada dua cara yang bisa Anda gunakan untuk melakukannya:

Manual — metode di mana Anda menyalin data dengan cara copy paste dari sebuah website
Otomatis — metode yang menggunakan koding, aplikasi, atau extension browser

Teknik web scraping

Web scraping kini dimudahkan dengan bantuan browser extension dan aplikasi. Namun, hasilnya masih belum sebaik cara manual dan koding. Dalam artikel ini  kami akan membahas enam teknik web scraping yang umum dilakukan, yaitu:

Menyalin data secara manual
Menggunakan regular expression
Parsing HTML
Menganalisa DOM
Menggunakan XPath
Menggunakan Google Sheet

Menyalin data secara manual

Cara web scraping yang paling sederhana adalah menyalin data website secara manual. Karena Anda harus mengambil dan menyimpan informasi yang diperlukan satu per satu, teknik ini memakan waktu lama.

Akan tetapi, metode ini paling efektif dari segi pencarian data. Tidak seperti tool atau bot, Anda sudah tahu letak informasi yang ingin disalin dari suatu website. Dengan demikian, hasil web scraping dengan cara ini sangat akurat.

Teknik manual ini dianjurkan jika jumlah website atau blog yang ingin Anda saring terbatas.

Regular expression adalah baris kode yang digunakan dalam algoritma pencarian untuk menemukan tipe data tertentu dari sebuah file. Dalam konteks web scraping, file yang dimaksud adalah file-file penunjang sebuah website.

Keuntungan utama menggunakan regular expression untuk web scraping adalah konsistensi syntaxnya di dalam berbagai bahasa pemrograman. Oleh karena itu, teknik ini sangat fleksibel.

Ditambah lagi, regular expression dapat digunakan untuk mencari data berdasarkan jenisnya, seperti nama produk, harga, dan alamat email.

3. Parsing HTML
Pada dasarnya, parsing HTML adalah metode yang dilakukan dengan mengirimkan HTTP request kepada server yang menyimpan data website yang datanya ingin Anda ekstrak.

Dengan teknik ini, Anda dapat melakukan web scraping tidak hanya pada halaman website yang bersifat statis, tetapi juga dinamis. Selain itu, parsing HTML juga memungkinkan Anda untuk menyalin data dalam jumlah yang besar dalam waktu singkat.

Sayangnya, parsing HTML dapat dicegah dengan proteksi website. Tak hanya itu, Anda bisa diblokir dari suatu situs jika terlalu sering melakukan teknik ini.

4. Menganalisa DOM
DOM atau document object model adalah representasi struktur sebuah halaman website yang ditulis dengan HTML.

Ketika melakukan parsing HTML, DOM dari halaman yang ingin diekstrak datanya akan dimuat terlebih dahulu. Untungnya, DOM juga membawa data yang ada pada file HTML.

Oleh karena itu, analisa DOM bisa dijadikan alternatif untuk melakukan web scraping terhadap halaman situs dinamis jika parsing HTML tidak membuahkan hasil.

Untuk membantu proses ini, Anda bisa mencari informasi yang diinginkan dengan regular expression (poin nomor 2).

5. Menggunakan XPath
XPath adalah bahasa query yang digunakan untuk memilih node dari struktur file XML dan HTML.

Implementasinya tidak jauh berbeda dengan analisa DOM. Anda menggunakannya untuk mencari data dari struktur file penunjang halaman.

Selain itu, XPath juga dapat digunakan untuk mencari data pada elemen teks dalam file XML dan HTML. Dengan demikian, teknik web scraping ini bisa Anda pilih ketika analisa DOM kurang efektif.

6. Menggunakan Google Sheet
Google Sheet adalah aplikasi web milik Google yang biasanya digunakan untuk membuat spreadsheet. Akan tetapi, aplikasi ini ternyata juga bisa digunakan untuk melakukan web scraping dengan mudah.

Di samping Google Sheet, Anda hanya memerlukan browser yang memiliki fitur inspect element. Setelah itu, tinggal mengopi expression XPath dari elemen halaman website yang datanya ingin Anda salin ke dalam command IMPORTXML yang ada di Google Sheet.

Manfaat Web Scraping
Seperti yang telah disebutkan di awal artikel, penggunaan web scraping menawarkan beberapa manfaat. Berikut ini adalah empat keuntungan utamanya.

Mendapatkan Leads
Dalam berburu leads untuk bisnis baru, tidak ada salahnya jika Anda mendekati follower akun media sosial kompetitor. Bahkan, kemungkinan mereka berkemungkinan besar untuk tertarik dengan produk atau layanan Anda.

Nah, web scraping dilakukan untuk memudahkan proses ini. Dengannya, Anda bisa menyalin daftar follower masing-masing kompetitor dan mengopi alamat email mereka. Tak lupa, Anda dapat menggunakan data lain seperti demografi follower untuk jadi bahan segmentasi.