Tarayıcıda Hızlı Veri Kazıma (Web Scraping)

tarayicida-hizli-veri-kazima-web-scraping

2 yıl önce giriştiğim ama daha sonra peşini bıraktığım, okuduğum kitapların listesini tutmak için oluşturduğum kitaplar sitesini tekrar devreye aldım. Sorun şu ki öncesinde pek fazla içerik eklememiştim ve şimdi eskiye nazaran daha fazla içerik oluşmuştu.

Okuduğum kitapların listesini bir süre Goodreads’te tutmaya çalıştım, arayüzü çok kıytırık ve aşırı yoğun geldiği için bir süre sonra kullanmamaya başladım. Daha sonra Türk alternatif 1000Kitap’ı buldum ve 2015 yılında onu kullanmaya başladım (bir kaç tane aklıma gelen kitap ekledim diyelim). Daha sonra onu da bir süre kullanmadım fakat 2018’de düzenli bir şekilde kullanmaya başladım. İşin özü düzenli olarak tuttuğum liste orada olduğu için yeni siteye ekleyeceğim kitapların listesini oradan almam gerekiyordu. Sadece okuduğum kitapları ekleyecek olsam altı üstü 125 tane kitap var, tek tek elle girebilirim fakat bunların yanında eklediğim alıntılar da var ve bunların sayısı 864. Yani tek tek elle girmeme imkan yok. Bunun için hızlıca siteden verileri çekebilmem gerekiyordu. Ne yazık ki 1000K’da verileri indirme gibi bir seçenek yok.

Bu noktada Web Scrapper’ı buldum. Tarayıcı eklentisi olarak çalışıyor. Chrome (ve Chromium tabanlı tarayıcılar) ve Firefox için eklentiler mevcut.

Web Scrapper eklentisini kurduktan sonra Firefox için F12 veya Ctrl+Shift+I (Chrome için de aynı tuş kombinasyonu geçerli) ile geliştirici seçeneklerini (Developer Tools) açmanız ve Web Scrapper sekmesine geçmeniz gerekiyor.

Eklenti Sekmesi

Şimdi verileri çekeceğimiz site için bir sitemap oluşturmamız gerekiyor. Menüden “Create new sitemap” > “Create Sitemap” seçeneğini seçiyoruz. Sitemap name kısmına herhangi bir isim verebilirsiniz fakat Start URL kısmına kazıyacağımız sayfanın linkini eklememiz gerekiyor.

Sitemap

Ekledikten sonra sayfada kazınacak bölümleri ekleyeceğimiz kısım geliyor. Buraya daha sonra “Sitemaps” menüsünden isim verdiğimiz sitemapsi seçerek de ulaşabiliriz. Burada “Add new selector” butonuna basıyoruz. “ID”, “Type”, “Selector” gibi seçenekler çıkıyor. “ID” kısmına tanımlayıcı bir isim vermelisiniz. “Type” kısmında seçeceğimiz alanın türünü belirliyoruz. Bunları açıklamak gerekirse;

Type	Açıklaması
Text	Metin seçimi için
Link	Bağlantı yolları için
Sitemap.xml links	Sitedeki tüm linkleri sitemap.xml’den çekmek için
Popup link	Aynı Link gibi fakat yeni pencere açan bağlantılar için
Image	Resim bağlantı yollarını seçmek için
Table	Tablo Seçimi için
Element attribute	Bir HTML öğesinin değerlerini çekmek için
HTML	Seçilen öğenin içindeki HTML ve metinleri çekmek için
Grouped	Bir çok öğeden tek bir grup olarak (json formatında) metin çekmek için
Element	Birden çok veri içeren öğeleri seçmek için
Element scroll down	Kaydırdıkça yüklenen sayfalardaki öğeleri seçmek için
Element click	Sayfanın yüklenmesi için tıklama gereken sayfalarda öğe seçmek için

Hepsini tek tek detaylı anlatma şansım yok, kurcalamak gerekiyor ben sadece “Element scroll down”, “Text” ve “Image” türlerini anlatacağım çünkü kullandıklarım onlar.

ID kısmına bir isim verdikten ve türü seçtikten sonra kazıyacağımız alanı belirlememiz gerekiyor. 1000K sitesi kaydırdıkça yüklenen bir site olmasından ve seçeceğim bölümün birden fazla bilgi içermesinden dolayı ilk kullandığım tür “Element scroll down” olacak. “Selector” bölümünden “Select” butonuna basarak seçim yapmayı aktif hale getiriyoruz ve ilgili bölüme tıklıyoruz. Eklenti ilgili bölümü işaretleyerek bize id’sini veya class’ını belirliyor fakat her zaman doğru olanı seçemeyebiliyor, bundan dolayı kendiniz bulmanız gerekebilir. Örneğin 1000K’da gönderileri li[data-id:'123123'] şeklinde gösteriyor ki bu yanlış ve içerisinde data-id bulunmasından dolayı tüm gönderileri değil tek bir gönderiyi hedef almış oluyor. Doğrusu .kitap.butonlu olması gerekiyordu. Hatalı olanları elle düzeltmek gerekiyor “Done selecting” dedikten sonra. Sonrasında hedef tek mi yoksa bu hedeften birden fazla mı var onu belirlemek gerekiyor. Eğer tek bir hedef varsa aslında kazımaya da gerek yok ama “Multiple” seçeneğini seçmiyoruz. Eğer birden fazla seçenek varsa ki yüzlerce seçenek olduğu için benim durumum bu, “Multiple” seçeneğini aktif hâle getirmemiz gerekiyor.

Seçim ekranı

Seçimlerimizi yaptıktan sonra test etmek amaçlı “Element preview” tuşuna basabiliriz. Eğer her şey doğruysa ayarladığımız gibi tüm seçenekleri işaretlemesi gerekiyor. Bunların yanında “Element scroll down” ile gelen bir seçenek daha var, o da “Delay”. Bununla kaydırma gecikmesini mili saniye cinsinden belirliyoruz. Varsayılan ayar 2000 fakat yüklenme uzun sürüyorsa artırılabilir.

Son seçenek de “Parent selectors”. Burada yaptığımız seçimin başka bir seçimin bir altı mı yoksa tepede mi duruyor bunu belirliyoruz. İlk seçimim birden fazla bilgi içeriyordu ve diğer yapacağım seçimler de buna göre belirlenecekti. Dolayısıyla bu yaptığım ilk ayar en tepede yani _root’ta olması gerekiyor. “Save selector” diyerek bu ilk ayarımızı kaydediyoruz.

Daha sonra bu elementten verileri çekmeye başlayabiliriz. İlk seçenek gönderinin kedisiydi. Şimdi bu gönderiden kitap adı, yazar adı, kitap kapağı, ne zaman okundu ve kaç puan verildi gibi bilgileri çekmeye başlayabiliriz. Kitap kapağı için “Image” türünü diğerleri için de “Text” türünü kullanıyorum. Her şey yaptığımız ilk seçimle aynı. Tek fark bu seferkileri _root altına değil bir önceki belirlediğimiz ID altına koymamız gerekiyor ki bu ID’deki bilgileri çeksin ve de “Multiple” seçeneğini aktif etmiyoruz. Ben multiple seçeneğini alt öğeler için de aktif ettiğimden uzun süre kazıma işlemini beceremedim ama sonuçta bir elementten sadece bir veri çektiğimiz için multiple değil tek seçim yapmam gerekiyordu. Çoklu seçim yaptığımız sadece gönderilerdi ve bu gönderilerden de sadece tek bir bilgi çekiyoruz.

Tüm her şeyi ayarladıktan sonra haritayı “Sitemap verdiğiniz sitemap adı” menüsünden “Selector graph“‘e girerek görebiliriz.

Bağlantı haritası

Son olarak kazıma işlemini başlatmak kaldı. “Sitemap verdiğiniz sitemap adı” menüsünden “Scrape” seçeneğine tıklıyoruz. Burada başlamadan önce mili saniye cinsinden “Request interval (istek aralığı)” ve “Page load delay (sayfa yükleme gecikmesi)” seçenekleriniz ayarlamamız gerekiyor. Başlangıç için olduğu gibi bırakabiliriz, eğer sorun yaşanırsa bu süreler artırılabilir. “Start scraping” tuşuna basarak kazıma işlemini başlatıyoruz. Eklenti sitenin bağlantısını yeni pencerede açacak ve eğer kaydırmalı bir tür varsa tüm sayfayı kaydırarak eğer yoksa da açılan sayfadaki tüm bilgileri olduğu gibi çekip pencereyi kapatacaktır.

Kazıma işlemi

Ekran kapandığında sonuçlar görünmezse “Refresh” tuşuna basarak yenileyebilirsiniz ya da “Sitemap verdiğiniz sitemap adı” menüsünden “Browse” seçeneğine basabilirsiniz. Çektiği tüm bilgileri tablo halinde karşınıza getirecektir. “Sitemap verdiğiniz sitemap adı” menüsünden “Export data as CSV” seçeneğini seçerek tablo dosyası olarak bilgisayarınız indirebilirsiniz.

Sonuç listesi

Bu oluşturduğunuz sitemap tarayıcınızda saklanacak ama yedeklemek isterseniz “Sitemap verdiğiniz sitemap adı” menüsünden “Export Sitemap” seçeneğini seçerek açılan ekrandan Json formatındaki kodu alıp yedekleyebilirsiniz. Bunu daha sonra “Create new sitemap” menüsünden “Import sitemap” diyerek kullanabilirsiniz. 1000K için kullandığım sitemap şu şekilde:

1
{
2
  "_id": "kitaplar",
3
  "startUrl": ["https://1000kitap.com/taylantatli/kitaplari/okuduklari"],
4
  "selectors": [
5
    {
6
      "id": "gonderi",
7
      "type": "SelectorElementScroll",
8
      "parentSelectors": ["_root"],
9
      "selector": ".kitap.butonlu",
10
      "multiple": true,
11
      "delay": "3000"
12
    },
13
    {
14
      "id": "yazar",
15
      "type": "SelectorText",
16
      "parentSelectors": ["gonderi"],
17
      "selector": "div.bilgi:nth-of-type(4) a:nth-of-type(1)",
18
      "multiple": false,
19
      "regex": "",
20
      "delay": 0
21
    },
22
    {
23
      "id": "isim",
24
      "type": "SelectorText",
25
      "parentSelectors": ["gonderi"],
26
      "selector": ".baslik a",
27
      "multiple": false,
28
      "regex": "",
29
      "delay": 0
30
    },
31
    {
32
      "id": "resim",
33
      "type": "SelectorImage",
34
      "parentSelectors": ["gonderi"],
35
      "selector": ".resim > a > img",
36
      "multiple": false,
37
      "delay": 0
38
    },
39
    {
40
      "id": "puan",
41
      "type": "SelectorText",
42
      "parentSelectors": ["gonderi"],
43
      "selector": "div.ekBilgi",
44
      "multiple": false,
45
      "regex": "([^\\s]+)/([^\\s]+) puan",
46
      "delay": 0
47
    },
48
    {
49
      "id": "tarih",
50
      "type": "SelectorText",
51
      "parentSelectors": ["gonderi"],
52
      "selector": ".ekBilgi a",
53
      "multiple": false,
54
      "regex": "",
55
      "delay": 0
56
    }
57
  ]
58
}

Puan kısmı için regex kullandım fakat regex işine burada girersem sonunu getiremem, kaldı ki ben de çoğu şey için sürekli İnternet’e bakmak durumunda kalıyorum.

Son olarak burada yazılanlar bilgi amaçlıdır, anlatımımın mükemmel olduğunu düşünmüyorum bundan dolayı gerçekten kullanabilmek için kendinizin kurcalaması gerekiyor (benim yaptığım gibi). 👨‍💻