Dandy4ever

Matching, Re-ranking and Scoring: Learning Textual Similarity by Incorporating Dependency Graph Alignment and Coverage Features

(Menyamakan, Memberi Peringkat secara Berulang dan Menilai: Mempelajari Kesamaan secara Tekstual dengan Menggabungkan Perataan Grafik Ketergantungan dan Fitur Cakupan)

Sarah Kohail dan Chris Biemann

Grup Teknologi Bahasa

Departemen Ilmu KomputerComputer Science Department

Universitas Hamburg

Hamburg, Jerman

{kohail, biemann}@informatik.uni-hamburg.de

1. Abstrak

Penulis memperkenalkan sebuah Supervised Model untuk mempelajari kesamaan secara tekstual, yang mana dapat mengidentifikasi dan memberi nilai kesamaan antara kumpulan teks kandidat dan teks kueri yang diberikan.

2. Intisari

Penulis membuat sebuah Supervised Model yang dapat mempelajari suatu kesamaan secara tekstual. Yaitu mempelajari kesamaan dari teks-teks yang dengan menuliskan teks kueri.

3. Metode yang Digunakan

Penggabungan antara grafik dependensi suatu kesamaan dan fitur cakupan dengan pengukuran kesamaan leksikal menggunakan jaringan saraf tiruan.

Kesamaan Tekstual Semantik mengukur tingkat kesetaraan semantik antara pasangan teks yang diberikan. Mengukur kesamaan tekstual, yang dihasilkan dari parafrase atau peringkasan yang mana dapat meningkatkan pemahaman bahasa untuk banyak Pemrosesan Bahasa Alami.

Fitur yang digunakan dalam Kesamaan (Similarity)

- Bag of Words (BOW)

Penulis merepresentasikan isi dari setiap teks dengan sekumpulan kata. Dalam kasus ini, kesamaan diukur dengan kosakata yang diukur dengan kosakata antara d dan q. Penulis juga menggunakan versi kedua dari fitur ini menggunakan kata-kata yang berasal dari kata kunci.

- Distribusi Topik

Penulis memodelkan setiap dokumen sebagai vektor topik yang menggunakan Latensi Model dari Alokasi Dirichlet

- Struktur Dependensi

Penulis menghubungkan ketergantungan individu yang diperoleh dari pengurai, menimbang dengan Tf-ldf dan menghasilkan grafik yang berisikan konten kata-kata tingkat tertinggi dan hubungan ketergantungan antar mereka.

- Named Entities

Penulis mengukur kesamaan berdasarkan hanya ketentuan entitas yang disebutkan.

- Fitur Ekspansi

Karena banyaknya bahasa dapat memungkinkan untuk mengekspresikan konsep yang sama, entitas dan fakta dengan kata yang berbeda, mengukur kesamaan berdasarkan hasil murni dari pencocokan kata yang tepat, hal ini tidak sepenuhnya menangkap pencocokan secara konseptual. Maka penulis mengembangkan isi kata seperti kata benda dan kata kerja di setiap teks menggunakan distribusi Thesaurus

Fitur Cakupan

Dikarenakan sebuah teks memungkinkan menjadi panjang, istilah faktor frekuensi pun meningkat, dengan demikian teks yang lebih panjang memiliki nilai kesamaan yang tinggi daripada teks yang lebih pendek.

- Cakupan kosa kata

Penulis menghitung kosa kata dari korespondensi node One-to-One antara grafik ketergantungan q dan d lalu dibagi dengan jumlah seluruh node dalam teks permintaan dari q.

- Cakupan relasi

Penulis menghitung cakupan relasi dengan menghitung jumlah korespondensi One-to-One (3 kali) antara grafik dependensi q dan d dibagi dengan jumlah keseluruhan tepi dalam teks kueri q dependensi grafik.

- Cakupan pasangan

Sama seperti cakupan relasi namun penulis mengabaikan hubungan jenis dan arah tepi.

4. Kelebihan

Alat yang dapat mempelajari kesamaan dalam teks dengan M,enggabungkan perataan prafik ketergantungan dan fitur cakupan ini kelebihannya yaitu jika kandidat teks kurang relevan, penilaian kesamaan pada dokumen dapat sangat relevan.

5. Kekurangan

Jika teks kandidat jauh lebih relevan maka penilaian kesamaan terhadap kandidat teks dapat memiliki tumpang tindih yang besar dengan teks kueri.

6. Konklusi

Penulis membuat sebuah program yang dapat menyamakan, memberi peringkat secara berulang, dan menilai sebuah kandidat teks yang diberikan maupun kueri yang memiliki berbagai tingkat kesamaan ke dalam teks kueri yang diberikan.

Penggabungan struktur tambahan dan fitur kesamaan konten, pengukuran dalam cakupan dan kesamaan secara leksikal dari distribusi Thesaurus dapat memproduksi hasil yang lebih baik daripada jika tigunakan satu per satu (tidak digabungkan).

Algoritma perataan subgraph untuk dapat mengaktifkan interpretasi pada kesamaan. Hal ini untuk menemukan subgraph dalam grafik ketergantungan kandidat teks yang mirip dengan grafik ketergantungan pada kueri teks yang diberikan, hal ini memungkinkan untuk memvariasikan sintaks.

Metode penulis menggunakan dua tugas yang berbeda yaitu Re-Rangking (Memberikan peringkat secara berulang) untuk meningkatkan pengambilan suatu dokumen, dan penilaian terhadap suatu jawaban singkat.

Hasilnya menunjukkan bahwa pendekatan penulis memberikan kinerja yang lebih baik atau sebanding dengan performa Baseline atau pendekatan terbaru.

7. Saran/pengembangan berikutnya

Meningkatkan kualitas dari algoritma perataan atau penyelarasan dengan penggabungan kesamaan secara semantik, yang mana dapat membantu belajar dan menangkap sinonim dan parafrase.

Peningkatan agar lebih dapat mengeksplorasi mekanisme pencocokan yang lebih lunak agar menangkap atau dapat mengetahui berbagai bentuk kata morfologi atau kesalahan dalam ejaan kata.

Dandy4ever

Wednesday, January 16, 2019

Matching, Re-ranking and Scoring: Learning Textual Similarity by Incorporating Dependency Graph Alignment and Coverage Features (Indonesia)

Pemodelan Grafik 3D