Dataset yang disebut Wikilinks Corpus itu terdiri lebih dari 40 juta tautan artikel dari situs Wikipedia berbahasa Inggris.
Dalam blog resminya, Tim Google Research menyebut dataset itu didesain untuk menerjemahkan kata-kata ambigu yang dicari pengguna Internet seperti kata "Mercury" yang dapat merujuk pada planet, mobil, ataupun elemen.
"Perujukan (definisi) ditemukan dengan melihat tautan ke halaman Wikipedia di mana teks pada tautan benar-benar sesuai seperti judul halaman Wikipedia," sebut Tim Google Research.
Dataset Wikilinks Corpus yang dikembangkan Google bersama sejumlah peneliti University of Massachusetts Amherst itu berisi kode-kode tautan dan dibuka gratis untuk para pengembang.
(I026)
Penerjemah: Imam Santoso
Editor: Suryanto
Copyright © ANTARA 2013