Matching, Re-ranking
and Scoring: Learning Textual Similarity by Incorporating Dependency Graph Alignment
and Coverage Features
(Menyamakan, Memberi
Peringkat secara Berulang dan Menilai: Mempelajari Kesamaan secara Tekstual
dengan Menggabungkan Perataan Grafik Ketergantungan dan Fitur Cakupan)
Sarah Kohail dan Chris Biemann
Grup Teknologi Bahasa
Departemen Ilmu KomputerComputer Science
Department
Universitas Hamburg
Hamburg, Jerman
{kohail, biemann}@informatik.uni-hamburg.de
1.
Abstrak
Penulis
memperkenalkan sebuah Supervised Model untuk mempelajari kesamaan secara
tekstual, yang mana dapat mengidentifikasi dan memberi nilai kesamaan antara kumpulan
teks kandidat dan teks kueri yang diberikan.
2.
Intisari
Penulis
membuat sebuah Supervised Model yang dapat mempelajari suatu kesamaan secara
tekstual. Yaitu mempelajari kesamaan dari teks-teks yang dengan menuliskan teks
kueri.
3.
Metode
yang Digunakan
Penggabungan
antara grafik dependensi suatu kesamaan dan fitur cakupan dengan pengukuran
kesamaan leksikal menggunakan jaringan saraf tiruan.
Kesamaan Tekstual Semantik mengukur
tingkat kesetaraan semantik antara pasangan teks yang diberikan. Mengukur kesamaan
tekstual, yang dihasilkan dari parafrase atau peringkasan yang mana dapat
meningkatkan pemahaman bahasa untuk banyak Pemrosesan Bahasa Alami.
Fitur yang digunakan dalam Kesamaan
(Similarity)
- Bag of Words (BOW)
Penulis merepresentasikan
isi dari setiap teks dengan sekumpulan kata. Dalam kasus ini, kesamaan diukur
dengan kosakata yang diukur dengan kosakata antara d dan q. Penulis juga
menggunakan versi kedua dari fitur ini menggunakan kata-kata yang berasal dari
kata kunci.
- Distribusi Topik
Penulis memodelkan setiap
dokumen sebagai vektor topik yang menggunakan Latensi Model dari Alokasi
Dirichlet
- Struktur Dependensi
Penulis menghubungkan
ketergantungan individu yang diperoleh dari pengurai, menimbang dengan Tf-ldf
dan menghasilkan grafik yang berisikan konten kata-kata tingkat tertinggi dan
hubungan ketergantungan antar mereka.
- Named Entities
Penulis mengukur kesamaan
berdasarkan hanya ketentuan entitas yang disebutkan.
- Fitur Ekspansi
Karena banyaknya bahasa
dapat memungkinkan untuk mengekspresikan konsep yang sama, entitas dan fakta
dengan kata yang berbeda, mengukur kesamaan berdasarkan hasil murni dari
pencocokan kata yang tepat, hal ini tidak sepenuhnya menangkap pencocokan
secara konseptual. Maka penulis mengembangkan isi kata seperti kata benda dan
kata kerja di setiap teks menggunakan distribusi Thesaurus
Fitur Cakupan
Dikarenakan
sebuah teks memungkinkan menjadi panjang, istilah faktor frekuensi pun
meningkat, dengan demikian teks yang lebih panjang memiliki nilai kesamaan yang
tinggi daripada teks yang lebih pendek.
- Cakupan
kosa kata
Penulis menghitung kosa kata
dari korespondensi node One-to-One antara grafik ketergantungan q dan d lalu dibagi dengan jumlah seluruh node dalam teks permintaan dari
q.
- Cakupan
relasi
Penulis menghitung cakupan
relasi dengan menghitung jumlah korespondensi
One-to-One (3 kali) antara grafik dependensi q dan d dibagi dengan
jumlah keseluruhan tepi dalam teks kueri q dependensi grafik.
- Cakupan
pasangan
Sama seperti cakupan relasi
namun penulis mengabaikan hubungan jenis dan arah tepi.
4.
Kelebihan
Alat
yang dapat mempelajari kesamaan dalam teks dengan M,enggabungkan perataan
prafik ketergantungan dan fitur cakupan ini kelebihannya yaitu jika kandidat
teks kurang relevan, penilaian kesamaan pada dokumen dapat sangat relevan.
5.
Kekurangan
Jika
teks kandidat jauh lebih relevan maka penilaian kesamaan terhadap kandidat teks
dapat memiliki tumpang tindih yang besar dengan teks kueri.
6.
Konklusi
Penulis
membuat sebuah program yang dapat menyamakan, memberi peringkat secara
berulang, dan menilai sebuah kandidat teks yang diberikan maupun kueri yang
memiliki berbagai tingkat kesamaan ke dalam teks kueri yang diberikan.
Penggabungan
struktur tambahan dan fitur kesamaan konten, pengukuran dalam cakupan dan
kesamaan secara leksikal dari distribusi Thesaurus dapat memproduksi hasil yang
lebih baik daripada jika tigunakan satu per satu (tidak digabungkan).
Algoritma
perataan subgraph untuk dapat mengaktifkan interpretasi pada kesamaan. Hal ini
untuk menemukan subgraph dalam grafik ketergantungan kandidat teks yang mirip
dengan grafik ketergantungan pada kueri teks yang diberikan, hal ini
memungkinkan untuk memvariasikan sintaks.
Metode
penulis menggunakan dua tugas yang berbeda yaitu Re-Rangking (Memberikan
peringkat secara berulang) untuk meningkatkan pengambilan suatu dokumen, dan
penilaian terhadap suatu jawaban singkat.
Hasilnya
menunjukkan bahwa pendekatan penulis memberikan kinerja yang lebih baik atau
sebanding dengan performa Baseline atau pendekatan terbaru.
7.
Saran/pengembangan
berikutnya
Meningkatkan
kualitas dari algoritma perataan atau penyelarasan dengan penggabungan kesamaan
secara semantik, yang mana dapat membantu belajar dan menangkap sinonim dan
parafrase.
Peningkatan
agar lebih dapat mengeksplorasi mekanisme pencocokan yang lebih lunak agar
menangkap atau dapat mengetahui berbagai bentuk kata morfologi atau kesalahan
dalam ejaan kata.