Posts Tagged ‘google’

Google kini bisa membaca dokumen hasil scan

Posted by kamal on October 31st, 2008 under web knowledge, web news
Tags: , , , , , , , ,  •  1,533 Comments

Kemampuan pencarian mesin mencari yang satu ini memang makin lama makin tak tertandingi. Dia bisa mengindex jutaan website dengan sangat cepat. Dia bisa mengindex dokumen PDF. Dan yang terbaru, dia juga bisa mengindex dokumen hasil scan!

Hari kamis lalu google telah mengumumkan bahwa kini mesin pencarinya itu bisa membaca dokumen hasil scan. Itu berarti mesin pencari google kini bisa membaca teks yang terdapat dalam suatu dokumen image. Google kini bisa beraksi dengan sistem OCR (Optical Character recognition).

Dengan begitu jangkauan hasil pencarian kita akan semakin akurat. Pasalany, banyak juga paper-paper ilmiah yang di-upload dalam bentuk PDF yang merupakan hasil scan dari versi cetaknya. Tanpa teknologi OCR ini, kita tidak akan pernah bisa menemukan dokumen tersebut dengan Google.

Ini dia beberapa contoh:

Web2.0 itu bukan teknologi baru

Posted by kamal on September 19th, 2008 under web knowledge
Tags: , , , , , , , , , , , , , ,  •  No Comments

Banyak orang yang mengatakan bahwa web 2.0 itu adalah teknologi versi baru dari web. Banyak yang menyangka bahwa web2.0 merupakan wujud web yang lebih canggih dengan berbagai macam kemampuan-kemampuan yang belum ada pada web versi sebelumnya, web 1.0 tentunya. Tahukah Anda bahwa ternyata, semua itu Salah! Web 2.0 bukanlah teknologi baru. Web 2.0 sudah ada bahkan sejak awal mula internet muncul.

Kenyataannya web 2.0 hanyalah sebuah terminologi baru dalam dunia web yang digembar-gemborkan. Web 2.0 hanyalah sebuah metode atau cara baru dalam memberdayakan web. Terminologi web 2.0 ini pertama kali dicetuskan oleh o’reilly media pada tahun 2003. Terminologi ini mengacu pada pemanfaatan web yang belakangan semakin meluas. Dulu, web hanya berisi setumpuk informasi-informasi statis yang hanya bisa dibaca oleh pengunjung. Sekarang, web telah berubah menjadi dunia interaktif yang melibatkan partisipasi aktif dari pengunjung website yang bersangkutan. Contoh: pengunjung bisa ikut memasukkan konten, bermain game, memberi komentar dan sebagainya. Intinya, web 2.0 adalah sebuah terminologi yang dibuat untuk memberi istilah pada arus baru penggunaan web yang ada belakangan ini.

Lalu bagaimana dengan pernyataan bahwa web 2.0 adalah sebuah teknologi baru didunia web. Pernyataan itu jelas salah. Teknologi adri web itu sendiri masih belum banyak berubah sejak awal mula munculnya web. HTML, CSS, javascript dan AJAX dsb itu sebenarnya sudah ada sejak lama. Teknologinya sudah ada sejak lama, namun pemanfaatan teknologi tersebut baru akhir-akhir ini saja bergerak kearah pembentukan aplikasi web yang interaktif. AJAX sendiri baru dipopulerkan oleh Google dengan Google Suggest-nya.

Web 2.0 itu hanya sebuah istilah marketing. Tim berners lee (sang pencipta web) sendiri mengatakan bahwa web 2.0 itu hanyalah sebuah “piece of jargon“. Berikut kutipan perkataannya tim berners lee dalam sebuah wawncara podcast:

“Nobody really knows what it means, if Web 2.0 for you is blogs and wikis, then that is people to people. But that was what the Web was supposed to be all along.”

Intinya, web 2.0 bukanlah sebuah teknologi baru. Web 2.0 hanyalah sebuah terminologi baru.

Cara Kerja Google

Posted by admin on September 19th, 2008 under web knowledge
Tags: , , , , , , , , , , , , , , , , , , , , , , ,  •  No Comments

Kita sama-sama tahu bahwa google adalah rajanya mesin pencari. Google bisa memberikan hampir segala macam informasi yang kita inginkan dengan tepat. Google bisa menjadi “mbah dukun” buat kita, google bisa jadi “profesor”, google juga bisa jadi “ustadz” buat kita. Yang perlu kita lakukan hanyalah sedikit bertanya pada google tentang suatu informasi yang ingin kita dapatkan. Kita cukup melakukannya dengan cara mengisi kotak ajaib google dengan beberapa “mantra” sakti dan…… dor!! Google bisa memberikan jawaban yang tepat pada kita dalam hitungan detik (Itu kalo akses internetnya kenceng ya… :p)

Dengan kesaktiannya itu? pernahkah Anda terpikir, bagaimana sebenarnya cara kerja Google. Dimanakah sang dukun Google itu berguru? Universitas apakah yang jadi tempat profesor Google itu menimba ilmu? Ngaji ama siapa sih ustadz Google itu?

Ini dia gambaran besar cara kerjanya…

Ada 3 proses utama yang memungkinkan Google memberikan hasil pencarian terbaik, yaitu:

  1. Crawling, apakah Google tahu tentang website kita? Bagaimana Google bisa mencari tahu?
  2. Indexing, Bisakah Google meng-index situs kita?
  3. Serving, Apakah situs terkait memiliki konten yang baik dan bermanfaat serta cocok dengan apa yang dicari oleh user?

Crawling

Crawling adalah proses dimana para Googlebot menemukan halaman baru untuk dimasukkan kedalam index Google.

Orang-orang Google itu mengaku mereka menggunakan komputer super canggih untuk “merayapi” miliaran halaman-halaman yang ada di jagad web. Program yang “merayap” itu mereka sebut Googlebot (dikenal juga dengan istilah robot, bot atau spider). Googlebot ini menggunakan suatu algoritma tertentu. Program ini menentukan situs mana yang mau didatangi, seberapa sering, dan berapa banyak halaman yang harus dilihat untuk setiap website.

Proses crawling Google ini dimulai dengan sebuah daftar URL web, yang dihasilkan dari proses crawling yang sebelumnya. Daftar URL ini kemudian ditambahkan dengan data sitemap yang diberikan oleh webmaster. Setiap kali sang Googlebot ini datang ke sebuah website, maka dia akan mendata semua link yang ada dihalaman yang dikunjunginya itu untuk kemudian dia kunjungi lagi satu persatu. Website baru, perubahan pada sebuah website dan link yang gak ada sambungannya itu dicatat oleh Google dan dipakai untuk meng-update index Google.

Indexing

Googlebot memproses (apa memroses sih? ~halah…) setiap halaman yang dikunjunginya untuk membuat sebuah index besar-besaran yang berisi seluruh kata yang ada di halaman tersebut dan juga lokasi dari setiap kata dihalaman tersebut. Sebagai tambahan, Google memproses (apa memroses ya? ~halah, diulang lagi :p) informasi yang dijadikan atribut alias penanda dari suatu konten. Misalnya: Judul dan juga atribut ALT. Googlebot bisa memproses (apa memroses ya? ~plis, jangan lagi..!!!) banyak, tapi tidak semua, tipe konten. Sebaqai contoh, Google tidak bisa memproses (apa memro…… :) ) halaman yang isinya flash semua.

Serving result

Saat pengunjung Google memasukkan sebuah kata kunci ke kotak ajaib Google, mesin Google langsung melihat ke index mereka untuk mencari halaman yang sesuai. Halaman-halaman yang dianggap paling cocok oleh mbah Google ini kemudian ditampilkan ke user. Relevansi dari konten yang disodorkan itu ditentukan oleh lebih dari 200 faktor, salah satu yang peling terkenal adalah PageRank dari halaman tersebut. Jadi Pagerank bukanlah faktor utama loh… banyak orang yang salah kira dengan menganggap PageRank adalah satu-satunya faktor sejauh mana web kita dikenal oleh Google. Lalu apakah gerangan yang dimaksud dengan Pagerank itu?

PageRank adalah sebuah algoritma yang dibuat oleh salah satu pendiri Google, Larry Page. Makanya namanya PageRank. PageRank adalah ukuran penting atau tidaknya suatu halaman website yang ditentukan berdasarkan seberapa banyak link yang diarahkan ke halaman tersebut dari halaman web lainnya. Bahasa gampangnya, setiap link yang ngarah ke situs kita itu akan menambah pagerank dari website kita. Dan tidak semua link dianggap sama oleh Google. Google juga mencoba mengidentifikasi spam link atau upaya-upaya lain yang bisa membuat Google mengeluarkan hasil pencarian yang jelek. Tipe link yang paling bagus adalah link yang dibuat karena memang konten yang berkualitas dari link tersebut.

Dengan 3 proses yang dijelaskan secara singkat diatas akhirnya Google bisa memberikan hasil pencarian yang sangat memuaskan untuk kita semua netter-netter dunia.

Segitu saja mungkin dari saya, semoga bertambah ilmunya. ^_^