NO.1
Metode untuk melakukan IR
1. Metode Pencocokan (Boolean)
2. Nilai kesamaan query (vector space model)
3. Nilai kecocokan berdasar kepentingan
dokumen (PageRank)
4. Metode Kombinasi
NO.2
Perbedaan cara kerja Precision dan Recall
Precision dapat
diartikan sebagai kepersisan atau kecocokanantara permintaan informasi dengan
jawaban terhadap permintaan itu
Rumus
:
Jumlah dokumen relevan yang ditemukan
/ Jumlah semua dokumen yang ditemukan
Recall adalah proporsi jumlah dokumen
yang dapat ditemukan-kembali oleh sebuah proses pencarian di sistem IR.
Rumus
:
Jumlah dokumen relevan yang ditemukan
/ Jumlah semua dokumen relevan di dalam
koleksi
CONTOH:
Jika ada 1000judul buku di dalam sebuah sistem
perpustakaan
Dan seorang user ingin mencari buku dengan
tema “Sistem Informasi”, Ternyata sistem berhasil menemukan 50 buku yang
mengandung tema “Sistem Informasi”
IDEAL
Search : Sistem
akan menampilkan 50 judul buku tersebut
ACTUAL
Search : Sistem
mendapat 30 judul buku, 15 judul relevan, 15 judul tidak
Maka nilai :
Precision
: Jumlah
dokumen relevan yang ditemukan / Jumlah semua dokumen yang ditemukan
: 15 / 30 * 100 =
50%
Recall
: Jumlah
dokumen relevan yang ditemukan / Jumlah semua dokumen relevan di dalam koleksi
: 15 / 50 * 100 =
30%
NO.3
Algoritma Web-Crawler
web crawler adalah Program atau script yang dapat mengambil sejumlah
besar halaman Web dengan menelususri World Wide Web(www) dengan cepat. Lalu
menyimpannya ke dalam suatu tempat penyimpanan lokal dan mengindeksnya berdasar
sejumlah kata kunci.
Algoritma sederhana web-crawler:
1. Program crawler mengunduh (download) *.html dari url website yang diinginkan.
2. Program crawler menyimpan *.html dari url tersebut, kemudian mengekstrak
semua url yang ada di
html dengan menggunakan filtering yang dikehendaki
3. Url-url
yang telah
terekstrak disimpan dalam sebuah list
4. Program
akan mengambil 1 url
lagi dari list, dan url yang belum dijelajahi akan
diterapkan lagi langkah ke langkah 1
CONTOH:
Jika ada 10 page (Home,
Produk, Profile, Content, dll) dalam sebuah website, maka program web crawler akan menyimpan pertama kali
adalah indeks
*htmlnya (biasanya page Home). Program akan
mengekstraknya dan mengambil semua url dari page yang ada di page Home tersebut. Selanjutnya url-url yang didapat akan kembali
dijelajah dan didownload seperti di langkah awal. Sehingga otomatis page lainnya (page Produk, Profile, Content, dll) akan terjelajah dan
terdownload juga.