3D ECA Design: Information retrieval UAS 2013

NO.1

Metode untuk melakukan IR

1. Metode Pencocokan (Boolean)

2. Nilai kesamaan query (vector space model)

3. Nilai kecocokan berdasar kepentingan dokumen (PageRank)

4. Metode Kombinasi

NO.2

Perbedaan cara kerja Precision dan Recall

Precision dapat diartikan sebagai kepersisan atau kecocokanantara permintaan informasi dengan jawaban terhadap permintaan itu

Rumus :

Jumlah dokumen relevan yang ditemukan / Jumlah semua dokumen yang ditemukan

Recall adalah proporsi jumlah dokumen yang dapat ditemukan-kembali oleh sebuah proses pencarian di sistem IR.

Rumus :

Jumlah dokumen relevan yang ditemukan / Jumlah semua dokumen relevan di dalam koleksi

CONTOH:

Jika ada 1000judul buku di dalam sebuah sistem perpustakaan

Dan seorang user ingin mencari buku dengan tema “Sistem Informasi”, Ternyata sistem berhasil menemukan 50 buku yang mengandung tema “Sistem Informasi”

IDEAL Search : Sistem akan menampilkan 50 judul buku tersebut

ACTUAL Search : Sistem mendapat 30 judul buku, 15 judul relevan, 15 judul tidak

Maka nilai :

Precision

: Jumlah dokumen relevan yang ditemukan / Jumlah semua dokumen yang ditemukan

: 15 / 30 * 100 = 50%

Recall

: Jumlah dokumen relevan yang ditemukan / Jumlah semua dokumen relevan di dalam koleksi

: 15 / 50 * 100 = 30%

NO.3

Algoritma Web-Crawler

web crawler adalah Program atau script yang dapat mengambil sejumlah besar halaman Web dengan menelususri World Wide Web(www) dengan cepat. Lalu menyimpannya ke dalam suatu tempat penyimpanan lokal dan mengindeksnya berdasar sejumlah kata kunci.

Algoritma sederhana web-crawler:

1. Program crawler mengunduh (download) *.html dari url website yang diinginkan.

2. Program crawler menyimpan *.html dari url tersebut, kemudian mengekstrak semua url yang ada di html dengan menggunakan filtering yang dikehendaki

3. Url-url yang telah terekstrak disimpan dalam sebuah list

4. Program akan mengambil 1 url lagi dari list, dan url yang belum dijelajahi akan diterapkan lagi langkah ke langkah 1

CONTOH:

Jika ada 10 page (Home, Produk, Profile, Content, dll) dalam sebuah website, maka program web crawler akan menyimpan pertama kali adalah indeks *htmlnya (biasanya page Home). Program akan mengekstraknya dan mengambil semua url dari page yang ada di page Home tersebut. Selanjutnya url-url yang didapat akan kembali dijelajah dan didownload seperti di langkah awal. Sehingga otomatis page lainnya (page Produk, Profile, Content, dll) akan terjelajah dan terdownload juga.

3D ECA Design

Kamis, 14 Februari 2013

Information retrieval UAS 2013

Tidak ada komentar:

Posting Komentar

Entri Populer

My name is BKR