2ちゃんねる ★スマホ版★ ■掲示板に戻る■ 全部 1- 最新50  

■ このスレッドは過去ログ倉庫に格納されています

■■■ 辞書開発スレッド ■■■

1 :2ゲットできるかな?:04/05/23 16:54
外国語の辞書を相互扶助で作るスレッドを作ってみました。
辞書の形式、仕事の進め方などは、言い出しっぺや参加者にまかせます。
そんなノウハウも、このスレでたまっていくと良いなと思います。
みなさん、よろしくご活用ください。

【注意】他人の著作権は尊重して良識ある行動をお願いします。

2 :2ゲットしたかな?:04/05/23 16:54
【韓国語辞書開発プロジェクト1(1000〜2000語でよいから)】
私自身は、1000〜2000語程度でよいので韓国語の持ち歩ける辞書(あるいはデータ)が
欲しいのですがなかなかみつかりません。英語やドイツ語、フランス語などの
メジャーな言語はいろいろな人の努力で立派なものがすでにあるのですが。

それで、10人いれば1人100語ほど集めてくれば、簡単に1000語の
辞書はできるわけで、だれか賛同していただける人がいないでしょうか?


3 :2:04/05/23 16:58
それで、やり方ですが、
・基本的に辞書をまる写しするなどはしないでください。一応、辞書を参考にしても
良いですが、それは一旦勉強して、自分なりに咀嚼して、それを書くように
してください。
・今回の1000語程度の辞書は、できるだけ固有語をあつめるようにしてください。
漢字語を多量に含め始めると、1000語程度では到底、役には立たない辞書に
なりますので。ただし、特に重要なものは含めてもらって結構です。
・各見出しごとに100語くらいあつめて投稿してください。
・重複を避けるために、どの見出しのものをやるか、あらかじめ宣言してから
はじめていただけると嬉しいです。
・先頭に
【韓国語辞書開発プロジェクト1(1000〜2000語でよいから)】
をいれて、あとは
韓国語:説明(品詞も含んでよい。一行形式)
 の繰り返しにしてください。2行目に見出し語などの補助情報を含めても結構です。
投稿されたデータの編纂は皆様自身にお任せします。


4 :2:04/05/23 16:59
本格的な辞書つくりも面白そうですが、次回にということで。

では、とりあえず、私はㄱㄲとㄹをやります。

見出し 担当者
ㄱㄲ 2

ㄷㄸ
ㄹ   2

ㅂㅃ
ㅅㅆ

ㅈㅉ







5 :2:04/05/23 17:02
では私は100語ほど集めてきますので、これで。
賛同してくれる人がいたら、どの見出しを入れると宣言してから
はじめておいてください。

6 :∩<`∀´>∩マンセーィ!:04/05/23 18:30
   Λ_Λ    。辞書開発汁
  <丶`∀´> /
  (    つ
  ┌───┐
  │      |

7 :2:04/05/23 19:52
【韓国語辞書開発プロジェクト1(1000〜2000語でよいから)】
【가(1)】
가: (助詞)〜が、
가게: 店
가깝다: 近い
가끔: たまに
가늘다: 細い
가능: 可能
가다: 行く
가득: いっぱい
가로: 横、横に
가루: 粉、パウダー
가르치다: 教える
가리다: 選り分ける
가볍다: 軽い
가슴: 胸
가위: はさみ
가을: 秋
가지: 枝
가지다: 持つ
각각: それぞれ
간장: 醤油
갈매기: カモメ
감: 柿
감히: 敢えて
갑작스럽다: 急だ
강하다: 強い
개: 犬
개구리: カエル

8 :2:04/05/23 19:53
受け付けられる改行はいくつまでなんだろう?
30くらいかな?

9 :2:04/05/23 20:01
【韓国語辞書開発プロジェクト1(1000〜2000語でよいから)】
【가(2)】
개인: 個人
거리: 距離
거미: クモ
거울: 鏡
거북이: カメ
거품: 泡
걱정: 心配
건강: 健康
건달: ごろつき
걷다: 歩く
걸다:掛ける
검다: 黒い
게: カニ
겨우: やっと
겨울: 冬
경작하다: 耕作する
고기: 肉
고맙다: ありがとう
고추: 唐辛子
고치다: 直す
곧바로: 直ちに
곪다: 膿む
곰: 熊
곳: 所
공기: 空気
관광: 観光
괴롭다: つらい
구: 9
구두: 靴
구름: 雲

10 :2:04/05/23 20:02
32行までOKみたい。

11 :2:04/05/23 20:09
【韓国語辞書開発プロジェクト1(1000〜2000語でよいから)】
【가(3)】
구멍: 穴
국민: 国民
국제: 国際
군대: 軍隊
굳어지다: 固まる
굴리다: 転がす
굵다: 太い
굶다: 飢える
궁핍하다: 貧しい
귤: ミカン
귀: 耳
귀엽다: かわいい
그것: それ
그곳: その所
그대로: そのまま
그러나: しかし
그렇네요: そうですね
그리고: そして
그리다: 描く
그리워하다: なつかしがる
그립다: なつかしい
그저께: 一昨日
금년: 今年
금지하다: 禁止する
기다: 這う
기다리다: 待つ
기르다: 飼う
기쁘다: 嬉しい
길: 道
길다: 長い

12 :2:04/05/23 20:12
【韓国語辞書開発プロジェクト1(1000〜2000語でよいから)】
【가(4/4)】
길들이다: 馴らす
기름: 油
김: 海苔
김치: キムチ
까다롭다: 難しい
깎다: 削る
꽃: 花
꽤: かなり
꿈: 夢
꿰매다: 縫う
끄다: (灯を)消す
끈: 紐
끊다: 切る
끝: 終り

13 :2:04/05/23 20:16
私が入れるつもりの가 の項目はとりあえず終わり。適当に集めただけですから
間違いの指摘、追加などありましたら加えてください。

追加は
韓国語:約
を羅列して、変更は
+韓国語:約
削除は
-韓国語:約
にしましょうか?

14 :2:04/05/23 20:18
で、順番ですが、適当に集めたものを、ワードのソート機能を
使ってソートを掛けただけなので、辞書式順列になってない可能性が
あります。だれかよいソータ持ってませんかね?

15 :2:04/05/23 20:20
では次はㄹの項目に行きます(少ないので早いもの勝ち)。
その前に、韓国語関連のスレにご協力の依頼にいってきます。


16 :名無しさん@3周年:04/05/23 20:30
∋8ノハ∧8∈
  <ヽ`∀´>___                −=≡≡≡〜oノハヽo〜
 (つ=つ(   ()−=≡≡ 新スレおめでとうニダ−♪ <ヽ`∀´>つ
  ノ 人ノ  ̄ ̄                   −=≡≡≡__つ
 (___)__)


17 :2:04/05/23 20:53
【韓国語辞書開発プロジェクト1(1000〜2000語でよいから)】
【ㄹ(1/1)正直、何を選んでよいかよく分からん】
-ㄹ(을/를):…を
-ㄹ걸:…だろう、
-ㄹ까:…しようか
-라고:…しろと, …だと, …と
-라기:…しろという事
-라도:…であっても、…でも
-라면:…しろというならば、…だというならば
-러:…しに
-려:…しようと
-려고:…しようとして
-로/으로:…で(手段、材料)、…に(方向)、…から
-로구나:…だなあ
-로서:…として
-를/을:…を


18 :2:04/05/23 20:54
調子にのって協力依頼して、韓国語関係のスレをまとめて
アゲてしまった。

19 :名無しさん@3周年:04/05/23 20:56
ちょっと待った、辞書なら品詞情報がまず不可欠だろう。
孤立語じゃなかったら、動詞の活用・名詞形容詞等の屈折も。
韓国語の語尾なら、何類であるかも重要だ。
あと、使用頻度とか例文とか…

それと、誰でも投稿できるようなWiki型CGIみたいなのが
あったほうがいいんじゃないの?

20 :2:04/05/23 20:56
で、残り、以下の項目をだれかやってくれると有難いのだが。
もう、お風呂にいかなくちゃ。

見出し 担当者

ㄷㄸ

ㅂㅃ
ㅅㅆ

ㅈㅉ






21 :名無しさん@3周年:04/05/23 21:01
あああ、いかにも考え甘杉って感じで見ててイライラする。

22 :2:04/05/23 21:40
>>21 見ないようにしたほうが精神衛生上よいですね。

>>19 テンプレートを作ってくれたらありがたい。
でも、今回は、相互扶助で辞書ができるかというパイロットプロジェクトなので
気軽に参加できるほうがよいと思う。1つの投稿で、20単語くらいいれてもらい、
1000単語/20単語=50回。議論etcで、その3倍
 50回*3=150回
になるとして、さらに少し余裕をみて、200回目くらいで完成するくらいの
可愛い企画にしたいのですが。その経験をもって、もう少し完璧な辞書を
つくれば良いのかと思います(だれかほかの人が)。そのときの参考になるので
是非、テンプレートをください。


23 :2:04/05/23 21:42
貢献しやすくするために、各項目の部分的に辞書を作成していただいても
結構です。例えば、 다 - 더 までとか。そのとき、後の人が作業しやすい
ように、前や後ろ、中間にかためてください。

24 :2:04/05/23 21:43
で、このスレでは韓国語だけでなくほかの言語の辞書作成もOKです。

25 :2:04/05/23 21:44
言い出しっぺなので、 ㄴ の項目もやります。
では。

26 :<ヽ`∀´>ニダ!:04/05/23 21:56
<ヽ`∀´>ご苦労様ニダ
<ヽ`∀´>様ニダ

27 :名無しさん@3周年:04/05/23 22:00
私の韓国語は初級レベルなので、協力すべきか躊躇しています。参加するか
もう少し考えさせて下さい。
多言語についてですが、外国語板全体を一通り見回した感じではフランス語
とポルトガル語の学習者のレベルが比較的高い様なので、この2言語を候補
に挙げたいと思います。


28 :2:04/05/23 22:40
【韓国語辞書開発プロジェクト1(1000〜2000語でよいから)】
【ㄴ(1)】
나: 私
나누다: 分ける
나라: 国を
나른하다: だるい
나름: 次第
나무: 木を
나물: ナムル
나비: 蝶を
나쁘다: 悪い
나오다: 出る
나이: 年
나타나다: あらわれる
낚다: 釣る
낚시: 釣り
날개: 羽
날다: 飛ぶ
날리다: 飛ばす
날씨: 天気
날: 日
날카롭다: 鋭い
낡다: 古い
남기다: 残す
남다: 残る
남자: 男
남쪽: 南側
남편:夫
낮다: 低い
낮: 昼

29 :2:04/05/23 22:49
【韓国語辞書開発プロジェクト1(1000〜2000語でよいから)】
【ㄴ(2)】
낳다: 産む
내리다: 降りる
내일: 明日
냄새: におい
냉면: 冷麺
너: お前
너구리: 狸
너무나: あまりにも
넓다: 広い
넘다: 越える
넘치다: 過ぎる
넣다: 入れる
노란색: 黄色
노랗다: 黄色い
노래: 歌
노래하다: 歌う
노인: 年寄り、老人
녹다: 溶ける
녹색: 緑


30 :2:04/05/23 22:50
【韓国語辞書開発プロジェクト1(1000〜2000語でよいから)】
【ㄴ(3/3)】
논: 田
놀다: 遊ぶ
놀라다: 驚く
농담: 冗談
농업: 農業
높다: 高い
높이: 高さ
놓치다: 逃す
누구: 誰
누르다: 押す
눈물:涙
눈: 目
눈:雪
눈:芽
눕다: 横になる
느끼다: 感じる
느리다: 遅い
늙다: 老ける
늦다: 遅れる


31 :2:04/05/23 23:02
>>27
是非、ご協力を。わたしも韓国語の素人です。
>>19が言ってるように、
> 動詞の活用・名詞形容詞等の屈折も。韓国語の語尾なら、何類であるかも重要だ。
> あと、使用頻度とか例文とか…
なのでしょうが、とりあえず、素人が単語を覚えたり、また、ネットワークに
つながってない状況で単語を引いたりするために最低限のものを作ろうかと思いまして。
一応、私も、データの形式は

> 韓国語:説明(品詞も含んでよい。一行形式)

のように、品詞の情報などもフリーフォーマットで含んでよいことに
しています。こんなものは順をおってやらないとなかなか進まないので。
例えば、1000語レベルの辞書がある状況になれば、そこに何か手を加えようかという余裕も
できてくるでしょうし、もう少し、単語を源泉して、初心者用の単語集に変えてしまおうという
考えも出てくるかもしれません。まずはㄱ〜ㅎのデータがそろえるということを第1目的に。

32 :2:04/05/23 23:08
>>27
ほかの言語のことについて言及されていますが、私自身は、韓国語の
辞書ができたら抜けようと思っています。
それと、ポルトガル語は分かりませんが、フランス語の辞書なら、対英語だったら、
どこかを探せばダウンロード可能なかなり質の良い辞書があると思います。
韓国語は対英語でも探せなかった。日本にたくさん英和のフリーの辞書があるように、
きっと韓国の人も英韓の辞書を作ってるはずですけどね。
もっとも、韓国語は、対英語じゃなくて対日本語の方が役に立つと思います。日本人にとっては。

33 :2:04/05/23 23:10
>>31 間違えました
単語を源泉して --> 単語を厳選して

34 :2:04/05/23 23:13
【韓国語辞書開発プロジェクト1(1000〜2000語でよいから)】
【ㄴ(1)’ 修正 変なところに「を」が入ってましたので削除しました】
나: 私
나누다: 分ける
나라: 国
나른하다: だるい
나름: 次第
나무: 木
나물: ナムル
나비: 蝶
나쁘다: 悪い
나오다: 出る
나이: 年
나타나다: あらわれる
낚다: 釣る
낚시: 釣り
날개: 羽
날다: 飛ぶ
날리다: 飛ばす
날씨: 天気
날: 日
날카롭다: 鋭い
낡다: 古い
남기다: 残す
남다: 残る
남자: 男
남쪽: 南側
남편:夫
낮다: 低い
낮: 昼

35 :2:04/05/23 23:15
【韓国語辞書開発プロジェクト1(1000〜2000語でよいから)】
【ㄴ(3/3)+1】
는/은: (助詞)〜は、

36 :2:04/05/23 23:18
今日は疲れたのでやめますが、そのうち ㄷㄸ の項もやっておきます。
残りは柿のとおりなので、だれか志願してくれると嬉しい。

見出し 担当者

ㅂㅃ
ㅅㅆ

ㅈㅉ






37 :名無しさん@3周年:04/05/23 23:21
http://dic.nate.com/jap/

38 :2:04/05/23 23:53
>>37
うっ。なんだかすごい。ご紹介ありがとうございます。
ところで、この네이트사전って使ってます?

これでPDA (PocketPC)用があれば完璧なんだが。

39 :名無しさん@3周年:04/05/24 00:06
2chでやらなければならない必要があるのか甚だ疑問。
自サイトでやれ。

40 :2:04/05/24 00:10
自サイトもってないもん。相互で助け合ってなにか創作物を作るのを
ここでやっちゃいけないの?

41 :名無しさん@3周年:04/05/24 01:41
漏れ韓国語は非学習者なんだけど、
旅行用に使えそう。
???: 分ける
これだけの内容なんだね。
最近の辞書は解説が多くて。学習者にはいいことだけど・・・

42 :2:04/05/24 07:43
>나누다: 分ける
>これだけの内容なんだね。
そうですね。私もできる範囲でしかやってないので、第2、第3の
意味や、品詞、活用、例文などの情報は入っていません。

皆さんができるところは置き換えてくれると助かります。
#+見出し語:本体
の記号で、もとの項目を置き換えることにしましょう。
で、#-は、もとの項目を取り去ることに。
前に書いていたときは#をつけていなかったんですけど
-ㄹ까:…しようか
みたいに-を接尾の意味で使ってしまったものですから。

43 :2:04/05/24 07:45
で、もうひとつ約束事。

あまり長い行は入らないみたいなので、
行末に「\」があると次の行に続くということにしておきます。



44 :27:04/05/24 21:11
個人的な事なのですが、大学のレポートの提出期限が迫っているので、全ての時間
を今このプロジェクトに割くことが出来ません。あと文学部で言語学を半ば副専攻
にしているので、いい加減なものは作りたくありません。もう少し時間を下さい。
とは言っても大した事は出来ませんが。一応Oの欄を担当させて頂ければと思います。
ちなみに5月20日付で小学館「ポケットプログレッシブ韓日・日韓辞典」が刊行
されました。

45 :名無しさん@3周年:04/05/24 21:21
特定の専門分野(サッカーとかパソコンとか)に関する外国語の用語集を作る程度なら
2ちゃんねるでも成功する可能性は大いにあろうが、ある言語全般を対象とする辞書を
素人が掲示板で作ろうなどとは思い上がりも甚だしい。千語から二千語でよいというが、
コーパスも参照せずにどうやって単語を取捨選択するつもりなのだ?

46 :27:04/05/24 23:05
>>45
外国語板の相当部分が、醜い自己顕示欲から迸った言説で埋め尽くされて
いる中で、何か建設的な事が出来ないかとの思いで2さんに賛同しました。
自らの非力は十二分に承知しています。恐らく極めて稚拙な試みに終わる
でしょうが、他者への揶揄と侮蔑に淫するよりは、遥かに健康的であると
確信しています。


47 :2:04/05/24 23:09
>>44
どうもありがとうございます。Oは、母音から始まるということで、全体の縮図ですね?(意味不明)
私の部分はいいかげんなので、たぶん、一部が立派で、大部分がまだ雑で、
全体をその部分まで引き上げるのに、スレの主導権がいれかわって、最終的には良いものが
できるとよいと思います。

48 :名無しさん@3周年:04/05/24 23:11
「醜い自己顕示欲」の典型が見られるスレはここですか?

49 :2:04/05/24 23:27
>>45
ありがとうございます。

こういう活動をすることにいろいろな考えがあるとは思いますが、ひとつは
結果と同時に体験が重要だということだと思います。産みの苦しみ、楽しみ、
そして改良していくための議論から生まれる数々の有益なノウハウ。こんなものを
手を動かしながら体得することが重要なんだと思います。

さらに、結果は何がしかの役に立つわけですから。きっと、これだけでも嬉しいと
言う人もでてくるだろうし、ここをこうするとこう使えるというアイデアもでてくるだろうし、
拡張して、1万語レベルに引き上げると言う人もでてくるかもしれない。


50 :2:04/05/24 23:35
ちなみに、1000語から2000語って、辞書としては小さすぎるので
本当に第1歩ですね。とりあえずは、そのサブセットを使って、初学者の
単語記憶の練習に巣か得るものができればよいかと考えながら、単語を
集めます(私は)。

51 :<ヽ`∀´>ニダ!:04/05/24 23:36
<ヽ`∀´>もうあきらめてスキャナで辞書を丸写し汁

52 :2:04/05/24 23:39
すみません。タイポでした。
>巣か得るものが
--> 使えるものが

53 :27:04/05/24 23:53
>>48
そうでーす。私のこの文章と、48さんの文が、その典型例です(^^)
2さんスレ汚してごめんね。

54 :2:04/05/25 00:24
>>48
私の場合は、自己顕示欲というより、物欲なのだが。
とりあえず辞書データが欲しい。

55 :41:04/05/25 01:01
>>2
2さんは自身の経験を踏まえて(辞書以外の独自の
資料、実際のねーてぶ表現を参考 等)語の選別をしてるんですか?
そうであれば結構おもしろいかもしれないね。
わたしは中国語がメインですが、現行の中国語辞典が
実際の現場に則してるとはあまり思えないんです。



56 :2:04/05/25 01:24
>>55
いいえ。感覚です。いくつかの辞書といくつかの学習書を参考にしながら、
なんとなく使いでのありそうな固有語を中心に集めているだけです。
漢字語を集め始めるとあっという間に語彙数が膨れ上がるので。日本語もですけど。

>わたしは中国語がメインですが、現行の中国語辞典が
>実際の現場に則してるとはあまり思えないんです。

素人考えでは、十分大きな辞書の場合は語彙の選別はあまり関係ないんじゃ
ないかという気がするのですが、そうでもないのでしょうか?
かなり薄い辞書のとき選別が重要になると思います。

>>45 の発言の
> コーパスも参照せずにどうやって単語を取捨選択するつもりなのだ?
がとってもよいヒントで、うまい形態素解析のソフトがあれば適当な韓国語の
テキストから頻出の語彙を抽出できると思うのですが、いまの私の力では
ムズイですね。逆もあるかも。日本語の文章から頻出の語彙をとりだして、
それに対する韓国語の語彙をあつめる。そうすると、日本人が発言するとき
多く使える語彙が集まるかも。

57 :2:04/05/25 02:37
【韓国語辞書開発プロジェクト1(1000〜2000語でよいから)】
【ㄷㄸ(1)】
다 : すべて
다가 : 〜に(場所)
다가서다: 近寄る
다가오다: 近づく
다니다: 通う
다듬다: 整える、手入れをする
다루다: 処理する、取り扱う
다리: 脚
다리: 橋
다만: ただし、ただ
다섯 : 五つ
다시 한번: もう一度
다음: 次の
다지다: 突き固める
다짐: 確約
다투다: 争う
다하다: 尽きる
단어: 単語
단호히 : きっぱり
닫다: 閉じる
달: 月
달걀:卵
달다:甘い
달리다:及ばない
달리다:走る
닭 : 鶏
닮다:似る
담다:盛る、入れる


58 :2:04/05/25 02:40
【韓国語辞書開発プロジェクト1(1000〜2000語でよいから)】
【ㄷㄸ(2)】
담배:たばこ
담:塀
당기다 : 引く
당신:あなた
대 : 竹
대다:当てる
대로:そのまま
더 : もっと
더럽다 : 汚い

더불다:いっしょに
더욱이:もっと
더하다:よりひどい
던지다:投げる
덥다 : 暑い
데:ところ、場所
도움:加勢、手伝うこと
돌 : 石


59 :2:04/05/25 02:41
【韓国語辞書開発プロジェクト1(1000〜2000語でよいから)】
【ㄷㄸ(3/3)】
돌다 : まわる
돌리다 : まわす
돕다 : 助ける,手伝う
동경하다 : 憧れる
동그랗다 : 丸い
동정 : 同情
돼지 : 豚
되다 : 〜になる
두껍다 : 厚い
두다 : 置く
두르다 : 囲む
둔감 : 鈍感
둘 : 二つ
둘레 : へり
뒤 : うしろ
듣다 : 聞く
들다 : 上げる
들어가다 : 入る
등 : 背中
따뜻하다 : 暖かい
딱딱하다 : 硬い
딸 : 娘
땀 : 汗
떠나다 : 去る
떠오르다 : 浮かぶ
떨리다 : ふるえる
또 : また、ふたたび
뜨겁다 : 熱い
뜰 : 庭
수습하다: 治める

60 :2:04/05/25 02:43
>>59の最後に変なものがはいった。

#-수습하다: 治める

許されよ。



61 :2:04/05/25 07:40
やっぱり「辞書」と言わずに、「単語集」くらいに言っておけば
よかったのかなあ?

今回、私がやれるのは簡易の単語集レベルの仕事だけです。もちろん、
ご協力くださる人が、辞書レベルの記述をしてくださるのは、有難いですし、
一旦作成したものを辞書レベルに押し上げていただくことも良いことだと
思います。

27さん、学業に支障がでない程度にやってください。各自ができる範囲で
貢献するというのがこのスレの趣旨ですから。

62 :名無しさん@3周年:04/05/25 15:29
>>2はやろうとしてることは面白いけど、
みんなの意見をうまくまとめようとせず
自分のやり方を押しつけようとしてるところが
反感買ってる・・・までいかなくてもなんとなく感じの悪い
雰囲気をスレ全体に漂わせてる原因だろうと思うよ。

たしかに多少は決まりごとがないとまとまるものもまとまらないが
同じことを言ってても歓迎される人とそうじゃない人がいるのよね。

あと、ここに協力できそうなレベルの人は
何も知らない初心者さんとか、それこそ上級レベルの人ならいざしらず、
大多数を占めると思われる「ある程度のレベルがある」からこそ
おいそれと参加できない場合もあること、理解できるかしら?

63 :名無しさん@3周年:04/05/25 16:07
>>62
自分こそが最大級に感じの悪い人間だってことに気づきなさい。

64 :名無しさん@3周年:04/05/25 16:10
>>62
性格がゆがんでるから顔もゆがんでるだろうな。

65 :名無しさん@3周年:04/05/25 16:23
>>62
足も臭そう・・・

66 :名無しさん@3周年:04/05/25 18:21
ngram使えないけ?

67 :2:04/05/25 20:04
>>62
面白いと思いますか?
このスレは立てたからといって別にぼくのものというわけじゃないので、
皆さんの興味で、いろいろなことに使って結構ですよ。別の言語の
単語集を作るのもよし、目的別の単語集を作ってもよし、辞書作ることの
難しさを語ってもよし、単語を集めるときのフォーマットを語ってもよし。

その「単語集(辞書)つくりに関することなら何を語ってもよし」の中で、
単に1つの活動をぼくは、やってるだけで、スレ全体を仕切ろうとは思ってないです。
ガヤガヤ、みなが勝手にやってるほうが、こちらの活動が目立たなくて、あまり、
文句を言われないので、精神衛生上よいかも。エサばらまこうかな?

68 :2:04/05/25 20:18
単語集を作ってるとと言うか、辞書をずっと眺めていると面白いですよ。
sound-symbolism というかなんというか、やはり、近くには似た意味の
単語がだいたい配列されていて、それで、ときどき、急に不連続になったりして。

電波と思われるのはいやなんですが、例えば、先に投稿したㄴの項は、
「出る」、「伸びる」、「飛ぶ」といった、外に広がるイメージの語が
多いです。
 날개: 羽、날다: 飛ぶ、나오다: 出る、누르다: 押す、넓다: 広い、
 넘다: 越える、나비: 蝶、높다: 高い、높이: 高さ、냄새: におい
ここらあたりは、直接的にそんなイメージのする語ですね。また、
 나: 私(自分から相手にむかっている感じを考えれば外に向かってそう)
 낮: 顔(これもそとにむかってるよね)
あたりも、こじ付けかもしれないけど、そんな感じがします。

69 :2:04/05/25 20:26
>>66
ngram 、google かけてみました。北陸先端大学で作られたというのが
引っかかってきたんですが、共起、英語用ということで、今回は
使えないかと思います。また、何かよいツールがあったら、ご紹介いただけたら
嬉しいです。どうも、ありがとうございました。

70 :2:04/05/25 20:34
で、残り、だれかやってくれる人はいないでしょうか?
濃音のところでも、激音のところでも良いので。ㅂの項なんて
とっても楽しいですよ。1つ入れるごとにドキドキしちゃう。
私はとりあえず、次はㅎやります。ここも固有語に限れば少ないので。

ㅂㅃ
ㅅㅆ
ㅇ    27さん予約
ㅈㅉ




ㅎ    2予約

71 :2:04/05/25 20:37
#+낮: 顔

72 :2:04/05/29 07:03
【韓国語辞書開発プロジェクト1(1000〜2000語でよいから)】
【ㅎ(1/2)】
하고 : 〜と〜
하나 : ひとつ
하늘 : 空
하다 : する
하도 : とても
하루 : 一日
하물면 : いわんや
하얗다 : とても白い
하품 : あくび
하지만 : けれども
한낮 : 真昼間
한때 : いっとき
한테 : 〜のところに
할머니 : おばあさん
할아버지 : おじいさん
함께 : 一緒に
해 : 太陽
해 : 年
해마다 : 毎年
해보다 : やってみる
햇빛 : 日光
허리 : 腰
허물 : 失敗
허물다 : 壊す
허울 : うわべ
헤매다 : さまよう
형 : 兄
호랑이 : トラ


73 :2:04/05/29 07:05
【韓国語辞書開発プロジェクト1(1000〜2000語でよいから)】
【ㅎ(2/2)】
홀로 : ひとりっきりで
화끈 : かっと、ぽっと
확 : (火などが)ぼっと、ぱっと
혼자서 : ひとりで
훌륭하다 : 立派だ
환하다 : 明るい
훨씬 : はるかに
흐르다 : 流れる
홅다 : むしる
흙 : 土
흩어지다 : 散らばる
희다 : 白い
힘 : 力(ちから)


74 :2:04/05/29 07:09
で、残りのどこかに手を上げてくれる人はいないかな?
濃音とか激音のところだけだと、固有語に限れば20〜30くらいだと
思うんだけど。





ㅇ    27さん予約







75 :2:04/05/29 07:09
あとすでに投稿している部分の見直し、修正、追加でも良いです。

76 :2:04/05/29 07:15
で、私は次は 사〜새をやります。

77 :2:04/05/29 07:18
だから、残りは。だれか手を上げて。Raise your hand!



사〜새  2 予約
서〜시

ㅇ    27さん予約







78 :エヘ:04/05/30 21:41
バビロンと、
http://www.babylon.com/display.php?id=14&tree=3&level=2
バビロンビルダーで作るとか、利用しやすいものでも、ぜひ使いたい。。。。
http://www.babylon.com/display.php?id=15&tree=3&level=2

79 :27:04/06/04 00:08
2さん、ご無沙汰しています。学校のレポートに専心していたので、連絡も入れず
申し訳ありません。週明けまで忙しいので、今は進められません。気長に待っていて
下さると幸いです。
他に協力者まだ見つかりませんか?なるべく多くの人の参加を期待します。
(2人で全部やるのは、ちょっとしんどい。)

80 :名無しさん@3周年:04/06/04 02:27
辞書の見出し語そのまま写してるような作業、誰が協力すんの?



>外国語の辞書を相互扶助で作るスレッドを作ってみました。

外国語/の/辞書/を/相互扶助/で/作る/スレッド/を/作っ/て/み/まし/た。
外国語:
の:
……
作る:
て:
みる:
ます:
た:

こんな感じなら面白いかもしれないけど。

81 :名無しさん@3周年:04/06/04 07:49
>>79
ええ、ありがとうございます。気長に待ってます。

本当は若干失敗したかなと思って、(まだ、ほかの人のデータが書き込まれていないので)
削除依頼しようかなと思ってたのですが、このスレが単語集の核になる可能性があるかぎり、
残しておきましょう。

82 :名無しさん@3周年:04/06/04 07:57
>>80
> 辞書の見出し語そのまま写してるような作業、誰が協力すんの?

ドキッ。  一応、いくつかの辞書を参考にしているけど、まったく
書き写してるわけじゃないよ。自分が単語を知っているわけじゃないので
いろいろな参考書、読み物、辞書から(自分にとって)重要そうな単語を
拾ってきて、リストとしてまとめています。

言われているような方法(形態素解析のソフトを使って、多量の文章を分解して、
使用頻度分析し、重要な単語を知る方法?)も考えたのですが、そういうソフトの
利用もスキルが要るもので。

83 :2:04/06/04 08:16
名前に 2 つけるの忘れてた。一応 81 = 82 = 2 ね。

昔、韓国語を始めたとき、韓国語が日本語と同じく多量の漢字語を持っていることと
その読み方が1感じで一定していることを知って、頻出する漢字やほかの漢字とくっつきやすい
漢字の読み方を知っていたら、韓国語の語彙がすごく増えるんじゃないかと思ったことがある。

そのときは適当なプログラムを書いて、漢字の頻度を調べて実験してみたけど、
 ・サンプルの文章の選び方でかなり結果に差がでる
  (だれかがコーパスが重要と言ってた所以ですね)
 ・思ったほど組み合わせ的には語彙は増えない。
  (利用的にはn個の利用的な漢字の集まりから、その組み合わせが
   できてくれれば、2文字の組み合わせでもn(n-1)/2 個ができて
   n*n のオーダで増えてくれるかと期待するのだが、実際は n の
   オーダーに近いような感じ。経験だけなので確実なところは
   分かりませんが)


84 :2:04/06/04 08:18
↑すみません。
 1感じ --> 一漢字

85 :2:04/06/04 08:27
>>80

もしかして形態素解析をかけるという訳じゃなくて、みんなで
一文づつ書き込んでは、分解して、そこで単語を覚えるという提案?

面白いかもしれませんね。もし何かアイデアがあるなら、ここでやってみませんか?
ちょっとしたアイデアを試すために新スレ作ると怒られるでしょう。
単語を増やす、語彙を増やすということだったら、このスレの趣旨だし。
(正確には、語彙を収集するかな?)

86 :2:04/06/04 08:30
タイポが多くてスマソ。
83 で、
利用的には --> 理想的には

87 :名無しさん@3周年:04/06/04 12:11
最近またこのスレ上がってるね。
相変わらず2さんは空回りしまくってるけど。

88 :27:04/06/14 08:25
2さん、またまたご無沙汰しています。昨日まで、日曜も含めて外出する生活が
2週間程続いていたので、作業を進める時間と体力がありませんでした。
それと別スレでちょっと書き込んだ事(純粋に語学上の話題)に対して、猛烈な
バッシングを受け、かなり参っています。(主張したことは正しいと今でも
思っています。)2chってやっぱりそんな所なのでしょうか?だとすると、
協力者探すの難しいですね。でも私としては、このプロジェクト完結させたいと
思っています。

89 :名無しさん@3周年:04/06/14 08:36
正しいと思ってるかどうかが重要なんじゃなく、それが客観的事実かどうかが重要なんだよ。
いくら強く思ったところで、事実じゃないものが事実に変わるわけではないし、
絶対に違うと思っても、客観的証拠があれば事実。

>>45-46のやりとりを見てもわかるでしょ。常識のある人間の提案を常識のない莫迦が拒絶する図。
これぞ、まさに
      火  病
ってやつだな。

90 :27:04/06/14 14:07
>>89
ここでもバッシング?
客観的事実が重要なのは同意。「正しいと思っています」という言葉を使ったの
は不注意でした。
ただ客観的事実の客観性を何が保証するのかは問題。「神」とか「19世紀までの
決定論的自然観」を拠り所にすれば問題ないけど、現代の文脈では事実とは、
「主観的所知がとらえたところの所与」でしょう?
常識についても同じ。ある人が常識ある・ないを誰が判断するの?
常識とは一般に、経験の蓄積の集合体でしょう?イギリス経験論の立場を私は
否定的に捕らえています。自分には常識が分かっていると思っている人間が、
一番危ないのではないですか?
また語学スレの性格から逸脱しました。すみません。

91 :名無しさん@3周年:04/06/14 14:13
>>90
>すみません。
この言葉がこれほど空疎に使われた例ははじめて見ました。
用例として辞書に登録しなくちゃ。いちよう辞書開発スレッドだしねwww

92 :27:04/06/14 14:45
>>91
もういい加減にして欲しい!
大体2chにはSchadenfreudeばかり強くて、自分に対しては根拠のない自信
を持ってる奴が多すぎる。自分に自信を持ってる人間ほどたちの悪いもの
はない。
もっと自戒して下さい。私もそうしますから。

93 :名無しさん@3周年:04/06/14 14:50
27さん、あなたもうこの板(というか2ちゃんねる)に来るのやめたら?
「フランス語とドイツ語」スレの334としてのあなたの発言もそうだけど、
コミュニケーションの方法に問題がある上に被害妄想が強すぎる。
きちんと理を尽くして説明すれば相応の反応が返ってくるところだよ、この板は。
だけど、あなたは自分の主張を自分のことばでちゃんと組み立ててない。
相手の主張をロジカルに分析してきちんと応えるという態度も見られない。
なのに揶揄とか侮辱とかバッシングとかそういうことばだけはポンポン出てくる。

>>45-46のやりとりはコミュニケーション上の問題と被害妄想が如実に現れてる。
45さんの指摘は(ことばは悪いかもしれないけど)
(a)特定分野の用語集なら作れるのではないか。素人が汎用の辞書を作るのは難しい。
(b)数千語の単語をコーパスなしで取捨選択するのは難しいのではないか。
という至極まっとうなものでしょう。
2さんは>>56でこれらの指摘に(間接的にだけど)それなりに答えている。
だから誰も2さんをむやみに叩いたりしていないでしょう?
しかし、あなたは何の反論も示さず「揶揄と侮蔑」と切って捨てている。
こういう独善的な態度はこの板では煽られて叩かれるのがオチです。

あなたは「こいつとは議論にならない」と最初から決めつけているように見える。
そういう態度では(2ちゃんねるは言うに及ばず)どこへ行っても相手にされず、
馬鹿にされるだけだよ。

94 :27:04/06/14 17:19
>>93
「来るのやめたら?」「被害妄想」「どこに行っても相手にされず、馬鹿にされる
だけだよ」などの言葉を他人に浴びせる人間の方が、余程コミュニケ−ション能力
がないと思いますけれど。人格を中傷する事が相手を傷つけないと考えますか?
確かに私の日本語には一定の癖があって、決して自分でも満足している訳では
ありません。個人的に今制約があって、「フランス語とドイツ語」では詳細に
論を展開出来なかったのも事実です。でもそれは個々人が自分で調べればいい
事であると思っていましたし、信じないのも自由だから、議論の打ち切りも
提案しました。
>>46の発言は直接45さんに非難を向けたのではなく、このスレの試みが無駄では
と言う45さんのメッセージ性に対して、2ch一般に対して抱いていた不満点と
今回の試みに参加した動機との関係を説明したもので、45さんの意見を無視した
訳ではありません。45さんの主張は至極当然のもので、その正しさは暗黙の
諒解として敢えて言及する必要がないと判断しただけです。私が答えなくても
他の方が答えればいい訳ですし(現に2さんが答えてくれました)、限られた
スペースと時間の中で、全てに答える義務を私が負っているとは思いません。
独善的と言われるのも心外です。先程、このスレと「フランス語とドイツ語」
のやり取りを2人の方に閲覧して貰いましたが、私の対応に問題はないと言って
くれました。
失礼ながら93さんは可視的な言語のコミュニケーションのみに注目しすぎ、
言外の人間心理について軽視している様に思います。
小6の事件もあったばかりです。ネット上でも、もう少し相手に思いやりを
持って下さる様お願いします。

95 :名無しさん@3周年:04/06/14 17:45
>>94
>でもそれは個々人が自分で調べればいい事であると思っていましたし、
>信じないのも自由だから、議論の打ち切りも提案しました。

それって、ようするに書き込みたいことだけ書き込んで
垂れ流しってことじゃない。

えらそうなことを書いているけれど、その方が
「ネット上」を特別視している(その向こうにいる相手を馬鹿にしている、
相手に対して誠意がない)と思うけれど?

96 :93:04/06/14 17:48
やっぱり言うだけ無駄だったか。スレ汚しスマソ>2さん

97 :名無しさん@3周年:04/06/14 18:09
おはようビーム(ry

98 :27:04/06/14 18:58
みんな暇人だね。
>>95
そうは思いません。そう取られたのなら訂正します。
ちゃんと質問に答えたりもしています。
今回のは、不幸な事故です。
>>96
自分の方が間違ってるかも知れないとは、これっぽっちも考えないの?
可哀想な方ですね。
2chのご意見番のつもりなのですね。
書くだけ損した。
>>2
何かこんな事になっちゃってごめんなさい。

99 :名無しさん@3周年:04/06/14 19:06
>>98
>自分の方が間違ってるかも知れないとは、これっぽっちも考えないの?

自分の方が間違ってるかも知れないとは、これっぽっちも考えないの?
  こ  れ  っ  ぽ  っ  ち  も  考  え  な  い  の  ?

100 :名無しさん@3周年:04/06/14 19:23
ちょっと反論されたらバッシング扱い。

もしかしたら、これまでひたすら甘やかされる環境にいたのかも知れないけれど
まじめに学問をやる気があるなら、考え直したほうがいいよ、その他人への態度。

101 :名無しさん@3周年:04/06/14 19:48
>ただ客観的事実の客観性を何が保証するのかは問題。「神」とか「19世紀までの
>決定論的自然観」を拠り所にすれば問題ないけど、現代の文脈では事実とは、
>「主観的所知がとらえたところの所与」でしょう?

>今回のは、不幸な事故です。


。。。たぶん、自分の文章を解釈する相手に責任を負わせようとしているんだろうなあ。。。

102 :27:04/06/14 19:51
きりがないね。
>>99
考えてますよ。
>>100
反論されたからバッシング扱いしているんじゃないよ。
反論なら、ちゃかしたり中傷したりしないものでしょう?
何で学問や態度について説教されなきゃいけないの?
まじめに学問してる事については、誰にも負けません。
どれだけ苦しい人生だったか知りもしないくせに!!!

103 :27:04/06/14 19:55
>>101
誰にも責任を負わせようとはしていない。勝手な推測を言ってよこすな。

104 :名無しさん@3周年:04/06/14 19:55
なぜいちいちマジレスするの?
バカの振りをしてるだけってことでOK?

105 :名無しさん@3周年:04/06/14 19:58
>勝手な推測を言ってよこすな。
お前が俺による揶揄を封殺したいと表明する権利があるように
俺にも書き込む権利はある。

106 :27:04/06/14 20:05
もう馬鹿らしいから、あとはもうnegrectします。
時間がもったいない。

107 :名無しさん@3周年:04/06/14 20:07
仏独スレも時間の無駄ですか?

108 :27:04/06/14 20:12
×negrect→neglect
>>105
権利はないと思います。言いたい事は理解しますが、賛同しません。
これで本当に最後。Ouf!


109 :名無しさん@3周年:04/06/14 20:14
>>102
>まじめに学問してる事については、誰にも負けません。

悪いけれど、書き込んでいることを見る限りは、そうは見えない。
実生活ではそうなんでしょう。
(でも、それは誰にも分かりません)

>どれだけ苦しい人生だったか知りもしないくせに!!!

悪いけど、そんなの知るわけないじゃない。
ネットの向こうの誰かがそれを知っていると本気で思っているわけ?

それにリアルでも、赤の他人の人生なんて知ったことじゃないよ?
それとも、リアルでもそうやって自分の私生活を振りまいて
「自分を愛して!」ってやっているのかね? 痛いね。

110 :名無しさん@3周年:04/06/14 20:15
http://homepage1.nifty.com/eggs/narcis.html

111 :名無しさん@3周年:04/06/14 20:24
27よ
ここはゴミスレだから別にお前さんが以後neglectしようが構わないが、
仏独スレで今話題になっている、古代教会スラブ語に完了体・不完了体の
対立システムが有ったか無かったかについては、真実に関わる重大な問題だ。

もしお前さんが自分自身の以前の発言に責任を持てず、きちんと
具体例を示しつつ反論なり釈明なりができないようであれば、
もはやお前さんには学問について語る資格など一切ないということだ。

112 :27:04/06/14 23:36
ほんとしつこいね。もう終わりって言ったのに。パラノイアですか?
>>109
他人の気持ちを理解しようと努めること、感情移入が出来ることは、人間として
一番大事なことだと思います。
>それにリアルでも、赤の他人の人生なんて知ったことじゃないよ?
その考えには絶対賛同出来ません。幸い私の周りには今そんな冷血漢はいません。
そういう考えの人が増えて来ているから、世の中がどんどん悪くなっているの
だと信じています。
>>111
後半3行必要不可欠ですか?「お前さん」なんて言い方がもう喧嘩腰だし、
第一、「学問について語る資格」に111さんの許可など要りません。
>きちんと具体例を示しつつ反論
私の自由な時間を、礼儀を弁えない人の為に割く義務などありません。

今日本では、永年積もった病が噴出しています。イラクで民間支援をしている
相澤さんも昨日の集会でそう言っていました。今日の皆さんのレスは、その
典型例だと思います。

113 :名無しさん@3周年:04/06/14 23:53
>>112
> >>109
> 他人の気持ちを理解しようと努めること、感情移入が出来ることは、人間として
> 一番大事なことだと思います。

そんなことはあたりまえです。
君がやっているのは、それを一方的に他人に求めているだけ。
そして、自分は決して実践しない。

赤の他人に、私生活をぶちまけない品性も人間として大切なことだと思います。

> >それにリアルでも、赤の他人の人生なんて知ったことじゃないよ?
> その考えには絶対賛同出来ません。幸い私の周りには今そんな冷血漢はいません。
> そういう考えの人が増えて来ているから、世の中がどんどん悪くなっているの
> だと信じています。

そんなに短絡的にちょっとした出来事と世界をつなげる頭に学問は向かないよ。

身の回りの人は、単に生暖かく放置しているか、冷たい視線を送っているだけでしょう。
リアルであなたみたいな人間が研究室にがいたら、自分だってかかわらないようにするもの。

ないしは、あなたに他人の注意や批判を聞く耳が全くないかのどちらかだね。



114 :名無しさん@3周年:04/06/14 23:55
>>112
> 今日本では、永年積もった病が噴出しています。イラクで民間支援をしている
> 相澤さんも昨日の集会でそう言っていました。今日の皆さんのレスは、その
> 典型例だと思います。

しかし、頭悪いし短絡的だね。

きつい言葉の中にある真実を見抜ける力のほうが
オブラートに包まれた、その実冷たい社交辞令に慰撫されたがる弱さより
よっぽど必要だと思うがね。


日本の学界なんかでのやりとりは、社交辞令なんかがあって
一見して生暖かいけど、裏をかえせば批判してやらないということで、
その実冷たいんだけどね。

そんなことが分からない人は
勝手に一生思い込みだけでやっていってください。


115 :名無しさん@3周年:04/06/15 00:17
さて、27いじって気持ちよくなったところで、
辞書作りにPDIC使うのってどうよ?
そうすればわざわざここにリスト書かなくてすむし。もちよったファイルを合わせるのも簡単だし。
つーか、PDICスレのほうが辞書スレっぽいが。

116 :名無しさん@3周年:04/06/15 00:21
>>115
そうだなあ、PDICがいいのかは分からないけれど
せっかくやるのであれば、後から発展させやすい形式のほうが良い
と言うのには同意。

本当は、やっぱりどこかでWikiを動かしたほうが良いかな、とも思う。

117 :27:04/06/15 00:31
もういい加減にしろ!
>>113-114
学会なんて狭い世界になんか期待してないよ。
外の世界に出れば、本当に温かい人、まだまだいるよ。
学校に飼い慣らされて、人間としての感情が麻痺してるんですね。
真実を語るのに、きつい言葉は必要ない。
第一、ここで私の人生を批判する動機が分からない。
余計なお世話、思い上がりも甚だしい。ただの自己顕示欲に過ぎないじゃない。
くだらない内容に付き合うの、もうごめんだ。


118 :名無しさん@3周年:04/06/15 00:33
>>117
自分の自己顕示欲が一番強いってことにまだ気付けないんだね。
かわいそうに。

119 :名無しさん@3周年:04/06/15 00:35
>>117
> 学会なんて狭い世界になんか期待してないよ。

ああ、ようするに良くいる電波ちゃんか。
 学会に反対しているから自分は偉いんだ、うふふ
 世界が自分を批判するのは自分が正しいからだ
ってやつね。

とてもよく納得しました。

せめて教える学生に迷惑はかけないでね。

120 :名無しさん@3周年:04/06/15 00:37
>>117
> 第一、ここで私の人生を批判する動機が分からない。

自分で自分の人生を話題にするからじゃない。


121 :名無しさん@3周年:04/06/15 00:59
オモシロスギル

「時間がもったいない」
「これで本当に最後」
「くだらない内容に付き合うの、もうごめんだ」

などと言いつつ、27の書き込みはまだまだ続くノダロウカ...

122 :名無しさん@3周年:04/06/15 01:05
そんな暇があったら肝心の言語についての理論を展開してくれたほうが
よほど世界のためいなるのに・・・

123 :名無しさん@3周年:04/06/15 01:11
ならないよ。仏独スレ参照

124 :名無しさん@3周年:04/06/15 04:12
>>123
ありがと。
読んだ。絶望的な気分になった。

自分の頭の中で整理のついていないことを書くと
ああなるんだろうなあ……
大学1年生ぐらいならしょうがないかと思うけれど。

125 :名無しさん@3周年:04/06/15 10:52
書き込みの中に中傷やらなにやらが入ってるのって2chなら当然ジャン。
挨拶みたいなもの。可視的な言語のコミュニケーションのみに注目しすぎてそれもわからないのか。
そんな中傷があるからって、同時にされている27の意見に対するツッコミに反論する義務が免責されるわけではない。
みんな老婆心で厳しい言葉をかけているのに、それを勝手な推測でバッシング扱い。
27に対して書き込んでいる人の気持ちを理解しようと努めること、感情移入が出来ることは、
人間として一番大事なことじゃないかい?
だいたい自分には常識が分かっていると思っている人間が、一番危ないのではないですか?
可哀想な方ですね。おはようビームっ!!(@u@ .:;)ノシ

ちなみにPDICの一行テキスト形式
formica /// formi^ca,-ae \ 【女性名詞】アリ, 蟻
これのうしろに例文も載せればいいんでないかと。
意味を説明するより、用例をたくさん見たほうがわかりやすいし。
電子辞書なら容量に制限ほぼないから例文たくさん載せれる。

126 :27:04/06/15 11:08
おはよう。まだやってるね。私の事に時間を割いてくれてどうもありがとう。
心配してくれるのは有難いのですが、いい友達や小さい子ども達と楽しく
生きているので、大丈夫です。
別に2chで名物になっても、あんまりここ来れないし。
昨日は学校がなくて、図書館も閉まってたので、つい長居をしてしまいました。
>>115みたいに気分が良くなった人もいるみたいで、良かったです。
楽しくやって下さい。

127 :名無しさん@3周年:04/06/15 15:33
直接言って、逆恨みされるのが嫌なのでこちらに書きます。
お願いです。これ以上W大の恥をさらさないでください。
見ていて恥ずかしいです。

128 :名無しさん@3周年:04/06/15 21:43
ㅋ ㅌを書こうと思いますが良いですか?良かったら予約でおながいします。
まだなにもやってませんが

129 :おそるおそる 2:04/06/15 23:13
>>128
あっ、お願いします。
やってくれる人がでてくるなら、僕も사〜새を進めます。



사〜새  2 予約
서〜시

ㅇ    27さん予約



ㅋ    128さん予約
ㅌ    128さん予約


130 :おそるおそる 2:04/06/15 23:20
ちなみに形式は >>125 が言ってるようなPDICの形式

> formica /// formi^ca,-ae \ 【女性名詞】アリ, 蟻

でも、もともとの

> 韓国語:説明(品詞も含んでよい。一行形式)

でもどちらでも良いですよ。今のところ置換ですむ範囲だと思うので。
まあ、将来を考えて、より多くの情報を含んだほうでやるほうが良いかもしれませんが、
やる方の労力もありますので、やれるほうでよいです。ニーズがあればだれか
修正していってくれるでしょう。

131 :おそるおそる 2:04/06/15 23:35

ところで固有語の含有率が高くて、それほど古臭くなくて、大量の文章が
インターネット上のどこかにないですかね? そこで、どんな語がたくさん
使われているか参考にするために。

韓国版の青空文庫みたいなものがあって、かつ比較的新しいのがどれか
分かると嬉しいのですが。実は、韓国語がほとんど読めず、適切なものを
探すのがとっても辛いので。

132 :名無しさん@3周年:04/06/16 00:02
やっぱ新聞でしょう。

133 :おそるおそる27:04/06/16 00:29
>>2
ご迷惑をお掛けして申し訳ありません。
2さんが希望なら、外れても構いませんが。
冬ソナのシナリオなんてどうでしょう?固有語少ないでしょうか?

134 :おそるおそる 2:04/06/16 00:51
そうですね。新聞も良いソースだとは思うのですが、漢字語の比率が
かなり高いのが難点です。例えば、ある記事の最初の出だし
 기획예산처와 열린우리당은 15일 국회에서 당정협의를 갖고
 서민생활안정과 중소기업 지원, 국가 경쟁력 강화 등을 위해
 하반기 재정지출을 4조~4조5,000억원 확대하기로 합의했다.
を取ってきて、漢字語だけ漢字で書くと
 企画予算府 와 열린우리党 은 15日国会 에서 党政協議를 갖고
 庶民生活安定 과 中小企業支援, 国家競争力強化 등을위해 下半期
 財政支出 을 4兆~4兆5,000億ウォン拡大 하기로 合議 했다.
となって、ほとんど助詞と「する」、「など」、「開く」「我々」
「持って」くらいしか固有語が残らないんですよ。

どこの国もだと思いますが、一般に、文学はその国の固有語の比率が高いので
やはり「むかし、むかし、あるところに...」の現代語版がないかなと。

135 :2:04/06/16 00:58
>冬ソナのシナリオなんてどうでしょう?固有語少ないでしょうか?

そんなものがあるんですか?(インターネット上で公開されている? という意味で)
多分、新聞記事などに比べると固有語の比率は高いと思いますよ。

136 :2:04/06/16 01:22
>>133
見つけてきました。
http://drama.kbs.co.kr/winter/view/vod.shtml
ここね。 대본(台本)って書いてあるところ。
良い世の中になったもんだ。

でも、今日はもう寝るづら。じゃない、寝るニダ。

137 :2:04/06/17 00:35
冬のソナタの台本1〜20までの語句の頻度データ要ります?

韓国語って、もともと分かち書きされているのを思い出し、単純に句読点や
スペースで分割して、それぞれの出現頻度をカウントしてみました。単純な
方法なので助詞なんかがくっついたままで、例えば、「ユジンは」「ユジンが」
「ユジンも」「ユジンさんは」などがばらばらにカウントされていますが、
単語集の項目を選び出す参考にはなるかなと思います。需要があるなら、どこかの
アップローダにアップロードします。韓国語でソートをかけようと思ったのですが、
WORD が根をあげて全部はソートしてくれませんでした。それで、出現頻度が2以上の
ものだけソートしたデータもあります。

138 :おそるおそる27:04/06/17 00:42
>>137
もし私でも良かったら、頂けますか?

139 :2:04/06/17 02:37
ふゆそなの語句
http://uploader.org/normal/data/up9220.lzh
にアップロードしました。

140 :128:04/06/17 17:46
【韓国語辞書開発プロジェクト1(1000〜2000語でよいから)】
【ㅋ(1/1)】
칼: 刃物
칼국수: 手打ちうどん
캄캄하다: 真っ暗だ
캐다: 掘る
커다랗다: 非常に大きい
커피: コーヒー
컴컴하다: 暗い
컴퓨터: コンピュータ
컴맹: コンピュータ音痴
컵: コップ
켜다: (火/電源)つける
코: 鼻
코끼리: 象
콩: 豆
콩나물: 大豆もやし
크기: サイズ
크다: 大きい
크리스마스: クリスマス
큰소리: 大声
큰아버지: 父の長兄(おじ)
큰어머니: 큰아버지の妻(おば)
큰일: 大変な事
키: 身長
키우다: 育てる、飼う



141 :2:04/06/17 21:21
あっ、もうやってくれたんですね。ありがとうございます。
ㅋは、結構探すの難しかったでしょう。せっかくなので
「크다: 大きい」の下に「成長する」も追加しておきますね。

크다: 大きい
크다: 成長する

142 :128:04/06/17 21:57
ㄱと比べるとㅋはかなり割合的にはいっていますね。
バランス崩してしまったような感じがしますが、あとでじゃんじゃん修正してください。
ㅌはすごくハズレそうです。

143 :2:04/06/17 23:17
> バランス崩してしまったような感じがしますが、
「コーヒー」などの外来語ですか? 私も、固有語を集めるといっても、
漢字語も時々いれてるので気にしないでください。なんか、韓国旅行したとき
使えそうな語があるとついつい愛着が湧いて、加えてしまいます。
 「オヌレ コーピー ハナ チュセヨ」
とか使えそうなので良いのではないでしょうか?

今、冬ソナの語句から抜き出して
 사〜새  2 予約
をやってますが、なんか偏ってますね。まあ、最初のデータなので
このまま行ってしまおうと思っています。だれか必要な人が追加・修正するでしょう。

144 :2:04/06/18 00:30
【韓国語辞書開発プロジェクト1(1000〜2000語でよいから)】
【사〜새(1/4)】
사:死
사건: 事件
사귀다: 付き合う、知り合いになる
사계: 四季
사고: 事故
사공: 船頭
사과하다: 謝る
사납다: 荒々しい
사내: 男
살다: 暮らす
사다: 買う
사람: 人
사랑: 愛
사로잡다: 捕らえる、生け捕る
사료: 史料
사무실: 事務室
사뭇: 全く
사실: 事実
사악: 邪悪
사양하다: 遠慮する
사운드: サウンド
사위: 壻
사이: 間、あいだ
사이즈: サイズ
사인: 死因
사자: 獅子
사장: 社長
사죄하다: お詫びする、謝罪する

145 :2:04/06/18 00:33
【韓国語辞書開発プロジェクト1(1000〜2000語でよいから)】
【사〜새(2/4)】
사진: 写真
사춘기: 思春期
사태: 事態
사표: 辞表
사회: 社会
삭다: 朽ちる
삭제: 削除
산: 山
산길: 山道
산소호흡기: 酸素呼吸器
살: 肉
살그머니: 秘かに
살금살금: こそこそ
살뜰하다: 倹しい
살리다: 生かす
살짝: こっそり
삼각관계: 三角関係
삼: 麻
삼키다: 飲む
상: 上
상관: 上官
상냥하다: 優しい
상담: 相談
상당한: 相当な
상대: 相手


146 :2:04/06/18 00:35
【韓国語辞書開発プロジェクト1(1000〜2000語でよいから)】
【사〜새(3/4)】
상부상조: 持ちつ持たれつ
상상도: 想像図
상아: 象牙
상자: 箱
상처: 傷
상치: サラダ菜、サンチ
상태: 状態
상하다: いたむ、傷つく
상한: 上限
상황: 状況
새: 鳥
새기다: 刻む
새끼: 動物の子
새롭다: 新しい
새벽: 夜明け
새소리: 鳥の声
새우: 海老
새우다: 夜を明かす
새파랗게: 真っ青に
색: 色
색깔: 色


147 :2:04/06/18 00:36
【韓国語辞書開発プロジェクト1(1000〜2000語でよいから)】
【사〜새(4/4)】
새다: 漏れる
샘나다: 嫉ける
생각: 考え
생각하다: 考える
생긋: にっこりと
생기다: 生ずる
생략하다: 省略する
생맥주: 生ビール
생명: 生命
생방송: 生放送
생신: 誕生日(目上の人の)
생일: 誕生日
생활: 生活


148 :2:04/06/18 00:43
漢字語をたくさん入れた上に、
  酸素呼吸器
  三角関係
なんて訳のわからない単語も入れてしまいました。冬ソナではだれか入院するんですか?
次は、乗りかかった舟で仕方が無いので、서〜시 やります。

149 :2:04/06/18 00:46
で、残りは以下のとおりです。引き続きボランティア求む。



서〜시   2 予約

ㅇ    27さん予約



ㅌ    128さん予約



150 :2:04/06/18 08:07
冬ソナの1回出現の語句ソート版もアップロードしておきます。
http://uploader.org/normal/data/up9292.lzh
2回以上出現したものについては、
http://uploader.org/normal/data/up9220.lzh
に入っていますので。

151 :おそるおそる27:04/06/18 11:59
>>150をダウンロード後、開くアプリケーションが分かりません。
教えて下さると幸いです。

152 :おそるおそる27:04/06/18 12:01
>>128さんみたいに作業早くなくてすみません。

153 :2:04/06/18 21:04
>>151
えーと、.lzhのことを言われています? それともそれを解凍してできた .txt ファイルの
ことを言われています?

.lzh なら、かなり一般的に使われている圧縮形式で、これを解凍するソフトは
たいていのオンラインソフトの本に入っているでしょうし、また vector
http://www.vector.co.jp/
に行けば、
* [簡単操作] 解凍レンジ
* [多機能] Lhaz
あたりがフリーで入手できます。
.txt ファイルはテキストファイルですが、今回は、韓国語をUTF-16 でエンコードしましたので
それ対応のエディタやワープロで開いてください。word や windows 付属のワードパッドなどで
開けます。

最後に、27さんは、まだ、あまり計算機関係に詳しくないように思われますので、そそのかされて
変なプログラムを動かさないように注意したほうがよいです。あっという間にウイルスだらけに
なる可能性があります。vector などに登録されているものについては大丈夫だとは思いますが。

154 :名無しさん@3周年:04/06/18 21:13
>>153
おまけ。

色々なエンコードのテキストtxtファイルを開くのにいちばん簡単なのは
実はブラウザです(編集できないけど)。

読むだけなら、解凍したのをブラウザへドラッグアンドドロップ(ブラウザの窓へ
クリックしたまま投げ込む)でOK

155 :おそるおそる27:04/06/21 22:51
>>2
色々親切にアドバイスありがとうございます。
ファイル開きました。作業、感謝します。
やっぱり母音始まりの項目多いですね。合成語も相当ありますが。
インデックス付ければ、単語集から冬ソナの用例を参照出来ますね。

156 :2:04/06/21 23:38
どういたしまして。

ところで私は単語選ぶのは、フユソナのファイルからだけにしてしまった。楽なので。
おかげで、固有語以外のものがずいぶん入るようになってしまいました。
この間アップロードしたものは、助詞などがくっついているため、同じ単語から始まる
語句が10個〜20個、多いときには30個くらいあって、それらをまとめて1単語に
する作業が大変。서〜시の部分はゆっくりやることにします。

157 :2:04/06/21 23:44
ところで、128さんがやってくださったところにある
 키우다: 育てる、飼う
って、「키: 身長」を高く「する」って意味だろうか?
と、ふと思ったことを書いてみる。

158 :2:04/06/22 00:51
ところで >>150 は、アップロードしたファイルが expire すると
エロサイトに飛ばされるんのね。職場なんかでうっかり開いて
回りにひんしゅくかったひと、ゴメンネ。

159 :128:04/06/22 08:00
【韓国語辞書開発プロジェクト1(1000〜2000語でよいから)】
【ㅌ(1/2)】
타격: 打撃
타다: 燃える
타다: 混ぜる
타다: もらう
타이르다: 言いきかせる
탁구: 卓球
탁자: 机、テーブル
탁하다: 濁っている
탄압: 弾圧
탈: 事故、故障、病気
탐: 貧欲、むさぼる
탐스럽다:うっとりするようだ
탑승하다: 搭乗する
탓: 〜のせい、〜のため(悪いことの理由)
태도: 態度
태어나다: 生まれる
태풍: 台風
택시: タクシー
택하다: 選ぶ、採択する
터: つもり、はず
터지다: (ものごとが)突然起きる、(積もった感情が)ドッとでる
톡: あご
털: (人・動物)毛
털다: はたく
털어놓다: 打ち明ける
텔레비전(티브이): テレビ
토끼: うさぎ
토요일: 土曜日
토지: 土地


160 :128:04/06/22 08:01
【韓国語辞書開発プロジェクト1(1000〜2000語でよいから)】
【ㅌ(2/2)】
통장: 通帳
통하다: 通じる
통화: 通話
퇴근: 退勤
투: やり方、方法
특징: 特徴
튼튼하다: 丈夫だ
트리다: 間違える、誤る
틈: すき間
티끌: ごみ、ちり


161 :2:04/06/22 23:00
128ッシ。感謝ハムニダ。ただ、

타다: (乗り物に)乗る

を忘れてるニダ。イゴッスン、メウ、重要(ジュンヨ)ハン単語(タノ)イムニダ。
忘れると地下鉄(チハチョル)に乗れないニダ。あと、

타다: 楽器を弾く
타다: 〜に弱い、敏感だ(暑さに弱いなど)

もあるようです。えらい、沢山意味のある単語なんですね。

162 :2:04/06/22 23:02
私もできるだけはやく서〜시をやりますね。

163 :128:04/06/23 12:18
タダ。そうですね、重要でない搭乗も入れたくらいでしたが重要なものを忘れました。
오늘 하루도 재밌게 보내시구요!

164 :2:04/06/23 23:26
↑「今日も一日楽しくお過ごしください!」って意味?
どうもありがとうございます。これを書いてる今、実は、もう
一日終わっちゃいましたけど。

165 :2:04/06/23 23:29
見出しとしては、あとㅁㅂㅃㅆㅈㅉㅊㅍだけなので、あと5人くらいボランティアが
現れると、あっという間に終わっちゃうんですけどね。

相互扶助という精神からすると、3人だけで続けるわけにもいかないので、ほかのボランティアが
現れるまで、ちょっと浮気してましょうか?

166 :2:04/06/23 23:48
実は昔、韓国旅行をしたことがあって(珍しくないよね)、カタコト韓国語が
通じるかどうかドキドキしながら、お食事などしたことがあります。

で、そのとき思ったのですが、旅行者にとって韓国語で一番重要な単語は食べ物関係だ
ということ。旅行が心地よいかどうかは、「食」が基本中の基本で、意に添わないものしか
食べられなかったり、ちゃんと食事ができなくて体調を壊すと、せっかくの旅行が台無しです。
庶民的な店だと英語のメニューに用意されてなくて困ることがあります。それで、食べ物
関係の言葉を集めてみるのはどうでしょう? ということで、次のプロジェクトもを並列して
起こしておきます。
【韓国旅行用単語集 食べ物編 (人生の基本はまず「食」から)】

167 :2:04/06/23 23:55
食べ物関係の単語集を作りましょう。一応次の形式で単語を集めましょう。
「韓国語:日本語」の部分を直接書くことができない人は、必要と思う
食関係の日本語を投稿していただくだけでも貢献です。

【韓国旅行用単語集 食べ物編 (適当にメッセージを書いてください)】
【分類を表す言葉(不要ならなくても良い)】
韓国語:日本語
<くりかえし>

168 :2:04/06/24 00:00
韓国語の教科書って、最初に出てくる単語がえらい偏ってるなと思ったこと
ありません? 私は思いました。牛だの、馬だの、きゅうりだの、大根だのと、
食べ物ばっかりだと。でも、あれは今思ってみれば必要だからだったんですね。

169 :2:04/06/24 08:32
【韓国語辞書開発プロジェクト1(1000〜2000語でよいから)】
【서〜시(1/7)】
서: 西
서글프다: 物悲しい
서다: 立つ
서늘하다: 冷ややかだ
서두르다: 急ぐ
서둘러: 急いで
서랍: 引き出し(机の)
서로: お互いに
서류: 書類
서리: 霜
서리다: 気がくじける、(霜などが)立ちこめる
서며: 書面
서서히: 徐々に
서약하다: 誓約します
서운하다: ものたりない、名残惜しい
서울: ソウル
서재: 書斎
섞다: 混ぜる
선: 線
선뜻: 気経に
선물: 贈り物
선배: 先輩
선생: 先生
선착장: 船場
선택하다: 選択する
설계: 設計
설마: まさか


170 :2:04/06/24 08:33
【韓国語辞書開発プロジェクト1(1000〜2000語でよいから)】
【서〜시(2/7)】
설명: 説明
설원: 雪原
설치하다: 設置する
섭섭하다: さびしい
섭외: 渉外
성격: 性格
성당: 聖堂
성큼: つかつかと、大またで歩くさま
세: 歳
세로: 縦に
세다: 強い
세련: 洗練
세상: 世の中
세수: 税収
세우다: 立てる
세월: 歳月
셋: 三つ
소: 牛
소리: 声、音
소문: うわさ
소식: 消息
소용없다 : 要らない
소용: 所用


171 :2:04/06/24 08:35
【韓国語辞書開発プロジェクト1(1000〜2000語でよいから)】
【서〜시(3/7)】
소원: 願い
소주: 焼酎
소중하다: 大事だ
소파: 長いす
속도: 速度
속삭이듯: ささやくように
속상하다:悩み苦しむ
속: の中
손: 手
손가락: 指
손님: お客さん
손목: 手首
손바닥: 手の平
손수건: 手ぬぐい
솔: ブラシ
솔직하다: 率直だ
송송: ざくざく
쇼핑: ショッピング
수: 数
수건: タオル
수고하다: 苦労する
수도: 首都
수레: 車
수상: 受賞
수술: 手術
수습: 収拾
수업: 授業


172 :2:04/06/24 08:36
【韓国語辞書開発プロジェクト1(1000〜2000語でよいから)】
【서〜시(4/7)】
수위: 守衛
수의사: 獣医
수줍다: はにかむ
수첩: 手帳
수학: 数学
숙소: 宿所
숙이다: うなだれ
숙제: 宿題
순: 戍
순간: 瞬間
숟가락: サジ
술: お酒
술잔: さかずき
술집: 居酒屋
술취하다:
숨: 息
숨기다: 隠す
숲: 森、林
숲속: 林の中
쉬다: 休む
쉬우다: 易しい
쉽다: 易しい
스산하다: うら寂しい
스스로: 自ら


173 :2:04/06/24 08:37
【韓国語辞書開発プロジェクト1(1000〜2000語でよいから)】
【서〜시(5/7)】
스웨터: セーター
스치다: 擦れる、かすめる
슬슬: そろそろ
슬쩍: こっそり
슬프다: 悲しい
슬픔: 悲しさ
승강장: 乗り場
승용차: 乗用車
시: 時
시가: 現価
시간: 時間
시계: 時計
시끄럽다: うるさい
시내: 市内
시늉: 振り,しぐさ、まね
시선: 視線
시야: 視野
시작하다: 始める
시장: 市場
시절: 時代
시점: 時点
시집: 詩集
시키다: させる
식: 式
식당: 食堂
식사: 食事
식다: 冷える


174 :2:04/06/24 08:38
【韓国語辞書開発プロジェクト1(1000〜2000語でよいから)】
【서〜시(6/7)】
식은땀: 冷汗
식탁: 食卓
신경: 神経
신고: 申告
신기하다: 不思議だ
신랑: 新郎
신랑신부: 新郎新婦
신문: 新聞
신발: 履き物
신부: 花嫁、新婦
신호: 信号
싣다: 積む
실내: 室内
실: 糸
실력: 実力
실망: 失望
실수: 間違い
실수다: 間違いだ
실수하다: 間違いを犯す
실연: 失恋
실은: 実は
실제: 実際
싫다: 嫌いだ
심각하다: 深刻だ


175 :2:04/06/24 22:43
【韓国語辞書開発プロジェクト1(1000〜2000語でよいから)】
【서〜시(7/7)】
심리: 心理
심부름: おつかい
심정: 心情
심통: 心痛
심하다: ひどい
심하게: ひどく
심호흡: 深呼吸
십: 十
싱겁다: 薄い、塩気が足りない
싱그럽다: 新鮮だ、みずみずしい
싱싱하다:みずみずしい
싶다: 〜したい


176 :2:04/06/24 22:47
朝は、連続投稿禁止で6/7までで、投稿できなくなってしまいましたので
最後の部分を今投稿しました。
で、とりあえず、
【韓国語辞書開発プロジェクト1(1000〜2000語でよいから)】
の方は、だれかほかにボランティアが現れるまでお休みすることにします。
残りは以下のとおりです。ボランティアがいるようだったら、冬のソナタに
出現する語句のファイルも再度アップロードします。









177 :128:04/06/25 08:19
冬ソナでやってませんでした。

178 :2:04/06/25 19:51
いえいえ、冬ソナでやる必要は全然ありません。
どこかを担当するのに欲しい人がいればアップロードします
という意味です。


179 :2:04/06/25 21:35
↑読んでみると、なんか説明がへただなあ。
担当するのに冬ソナは必須ではなく、担当する際に、もし参考にしたければ
アップロードしますという意味でした。

180 :名無しさん@3周年:04/06/27 12:59
【韓国語辞書開発プロジェクト1(1000〜2000語でよいから)】
【가の章、誤り修正】
-가리다: 選り分ける
+가리다: 塞ぐ、覆う
+가르다: 選り分ける

181 :128:04/06/27 22:02
お疲れ様です。ゆっくり行くのも良いですね。
食べ物というのはいい案だと思います。

182 :2:04/06/27 22:33
私は、所謂、我々が言う「焼肉」ってなんていうのか、よく分かってなくて。
불고기(プルコギ)なのかなと思っていたのですが、昔、불고기, 있습니까?
(プルコギ イッスムニカ?)といって入った店でなにやらすき焼き風のものを
食べさせられたことがあって、それがコミュニケーションがまずかったのか、
それとも、焼肉を불고기と言わないのか、分からなくて、ずっと悩んでいます。
갈비(カルビ)なんでしょうか?でも、それだと骨付きのあばらの肉だけの
ような気もして。

単一の質問で長々とスマソ。実は食い意地がはっているので。

183 :2:04/06/27 22:42
食べ物の素材、料理の仕方、料理の名前、レストラン、食堂でよく使う
表現を集めたら有益ですかね? A4ないし、B5の1枚くらいに収まる
くらいにまとめると、それをポケットにでもいれていけば、メニューと
突き合わせて、なんとなく、料理を頼める。そんなものが欲しいですね。

184 :128:04/06/28 06:51
メニューと突き合わせてみれる紙って良いですね、そういうの欲しいと思っていました。

プルコギのことはコミュニケーションがうまくいった結果なようですよ。

185 :2:04/06/28 07:49
> プルコギのことはコミュニケーションがうまくいった結果なようですよ。

ん? ということはプルコギは、牛肉を煮たものなんですか?
プル(火)のコギ(肉)なのに。ではきちんと注釈をいれとかないと
いけないですね。

186 :2:04/06/28 07:51
今度は、単に語句を書き出すんじゃなくて、どんなものを作りたいかも
議論しながらやりますか。そのほうが参加できる人も増えるでしょう。
もちろん、具体的な語句、文も一緒に出していってよいですが。そのほうが
議論も具体的になるので。

187 :2:04/06/28 08:17
私のおよそのイメージはつぎのようなものです。
A.メニューを引くための韓日単語集はハングル順に載せる。
   にんじん、ダイコン、牛肉、豚肉、カキ、...
  でも、語句をうまく集めるためにはなにかうまい分類が要りそうですね。
B.食堂、レストランでの便利表現をいくつかのカテゴリーに分けて、
  こちらは日韓で載せる。
   化粧室どこですか? お勘定をお願いします。 辛くないのはどれですか?(無い?)
C.それをA4で1枚に配置(文字は結構小さくてOK。でも、9 pt 以上かな?)
D.表現集にはカタカナで読み方を載せる。
E.このスレ作成のマークでも載せて、pdf でレイアウトまで決めたものを
  配布して、冬ソナ探索おばさんたちに持ち歩いてもらえるようなものって
  どうでしょう。韓国で、
   「最近、日本人が食堂で変な紙を広げてるけど、あれはなんだろうね」
  って、うわさになるようなもの。夢。


188 :128:04/06/28 09:10
なるほど。とてもよい案だとおもいます。
でもいまって100円ショップとかでBDのものってありますよね。
私的にはDEは自分対象に考えてるからあまり。。って感じです。

189 :通りすがり:04/06/28 14:58
ネットでタダで配付するならいいのでは。
つーか100円ショップにあろうが無かろうがやりたいからやるんですよね?
既にあっても自作する「DIY根性」がこのスレの良いところだと思って見ているニダ。

190 :2:04/06/28 21:03
それぞれ皆さんのニーズがあるので、自分のやりたくないことはしなくて
よいのではないでしょうか?

さきほど、ワードで、
 A4用紙、余白各18mm, 1行の行高、MS明朝 9ptフォント、4カラム
で、左側2カラムに、126行とれるということがわかりました(1カラム63行ね)。
ということは、左側2カラムを単語集、右側2カラムを表現集にすると、
126単語、63表現入れられます。足りなきゃ裏表でも、1ページに単語だけでも
どちらでもよいかなと思います。単語の方にカタカナの読みは要らんかとも思います。

要は、上のAだけやりたい人はそうして、B,C,D,Eを考えたい人はそれをやれば
よいかなということです。私なんかは実はCが楽しくて。旅行に行くのに旅先で必要になりそうな
ものをカバンに一生懸命詰め込んでいるような気持ちになって。実は、重い荷物を抱えて、
旅行を楽しめないタイプ。

191 :2:04/06/28 21:23
しかし、こんなのは作ってるときが楽しくて、作り終わったら案外
覚えてしまってるので、不要な単語集になったりして。

> でもいまって100円ショップとかでBDのものってありますよね。

「100円ショップにあるBDシリーズってなんだろう?」と思ったんですが、
私が書いた項目A,B,C,D,Eを指してたんですね。
僕も100円ショップの「日常会話韓国語」を持ってます。これは、1ページに
6表現で約200ページあるから、約1200表現ですね。欲張らずに、まずは
食事関係だけ集めてみますか?

192 :2:04/06/28 21:29
128さん、単語あつめ、仕切ってくれると嬉しい。
「こんな単語集めて」といってくれたら、集めてまいります。

ところで、日本でいう「焼肉」は韓国語でなんというのでしょう?
未だにわからんので、知ってたら教えてください。

193 :ビクビク27:04/06/29 16:32
>>192
ご無沙汰しています。アクセス規制が連発して、連絡取れませんでした。
試験準備とフランス語に追われています。
>>176で「お休み」と仰っているので、お言葉に甘えてのんびりやります。

プルコギは朝鮮料理としての肉料理だけを指す様です。
数種類の辞典に当たりましたが、結論としては:
フ 〇 フ フ|
T  T ⊥   
        (クウンゴギ;焼いた肉)
あるいは:
フ フ| フ 〇|
⊥  T   (コギグイ;肉の焼き物)
が良いのではと思います。
ハングル文字ソフト持っているのですが、専用windowからコピペ出来ません。
読みにくくなってごめんなさい。

194 :ビクビク27:04/06/29 16:36
ミスプリ
フ フ| フ 〇|
⊥     T   (コギグイ)でした。ミアナムニダ。 

195 :2:04/06/29 21:28
あっ、どうもありがとうございます。一応、ハングルで入れときますね。
 구운 고기 焼肉(焼いた肉)
 고기 구이 焼肉(肉の焼き物)
ですね。じゃあ、こんど行く機会があったら、
 コギグイ イッスムニカ?
って聞いて回ることにします。

196 :2:04/06/29 21:46
「仕切ってください」と言ったのだけど、書き込んだついでに。

まずは日本語で単語を集めれば良いですよね。韓国語にするのはすぐなので。
どんな言葉をあつめればいいんでしょう? 足りなかったり、変だったりしたら指摘してください。
(1)素材
  肉類(陸上と空の)、野菜、果物、海産物、液体、その他
(2)XXXX(適切な分類名を思いつかん)
  サラダ、お漬物、など いろいろな料理の部品になってるもの
(3)料理自身の名前
  和食、中華料理、
ラーメン、スパゲッティ、ビビンバ、焼肉、冷麺なんかはどこに入るか厳密には分からんのですが、
一応(3)に放り込んでおきましょう。
(4)役割 前菜、メインディッシュなど
(5)料理の仕方 焼くだの煮るだの
(6)状態の形容 熱い、冷たい、辛い、甘いなど
(7)食器、テーブル、小道具
なんかいろいろ有りそうだし、落としてるような気もしますが、ご意見ください。

197 :名無しさん@3周年:04/07/18 14:57
改変可能なフリー(GPL)の韓日・日韓辞書には約三万語収録のkjdictというものがあります。
データー形式がやや独自なんですが、PDICの一行テキスト形式に変換するスクリプトが公開されています。
収録が漢語中心なので、固有語中心のこちらのものとマージすれば
結構使える辞書になるんじゃないでしょうか?
(というか重複しないよう、そちらにある語は拾わないようチェックした方が良いのでは?)

フリーの日韓辞書・韓日辞書を作る試み
 http://hyam.hp.infoseek.co.jp/kj_dict/index.shtml
(Zaurus 外国語に親しむ)KJ_dict → ZBEDic 変換: 自作 Perl Script(2)
 http://www.dia.janis.or.jp/~syoshi/convert.htm#2

それと、そろそろ集まった単語をまとめたものをダウンロードしたり、
ユーザーが自由に追加修正アップロードが出来るような(wiki?)サイトを用意しては如何でしょう?
手元にフリーの英露辞典(約二万語)を元に1000単語程日本語書き添えた
PDIC用のロシア語単語帖があるんで開設して貰えればアップしますが。

(そう思うならテメーが用意しろって言われそうなんで、
ぐぐって↓こんなの見つけたんだけど、私には読んでも解らなかった。orz)

初心者によるWiki,Blog,CMS構築入門
http://cgi.f24.aaacafe.ne.jp/~shun/


198 :2の代理投稿:04/07/18 21:33
このスレの2です。2週間前から2ch全面アクセス禁止のホストに入ってしまい、
解禁の見通しが立っていないようなので、いつこのスレに復帰できるか
分かりません。すみませんが、適当にやっててください。ところで
kjdict ってすごそうですね。ダウンロードしてみましたが、漢字語中心と
いいつつ、固有語も沢山含まれているようですね。重複があまりなければ
寄与できるのですが。。。もう来ることができないかもしれないから言って
おきますが、私自身はいままで投稿したデータが、kjdictみたいにGPLに
そって使われることに依存はありません。

199 :名無しさん@3周年:04/07/19 20:43
取り合えず、wikiroomにページを開設してみました。
と言っても容量5Mでeucだから物置程度にしか使えなさそうだけど。
難しい事は解らんので本格的なぺージは誰か神が作ってくれるのを待つとして、
良かったらアク禁対策用にでも使って下さいな。

http://www.wikiroom.com/slo2/


200 :名無しさん@3周年:04/07/20 08:09
wikiページより転載


2004-07-20 00:10:58 by 2
BBSみたいに利用するにはどんな感じで書けばよいのでしょうか?

2004-07-20 ???
"#article"で付けられます。詳しくは↓。
http://www.wikiroom.com/slo2/?%A5%D8%A5%EB%A5%D7#content_1_20

て訳で付けました、掲示板。

2004-07-20 (火) 02:23:53 by 2
kjdictの人と
本スレ 197 で触れられていた、kjdict のサイトの人と相互に情報交換
した方がよいと思うのですが、ちょっと話をつけてきてよいですかね?
具体的には、相互リンクはったり、こちらに書き込みに来てもらうとかですが。

2004-07-20 (火) 07:38:49 by 199
私は構わないけど、知らせるなら2ch本スレの方が良いでしょう。人数も掲示板機能も2chのが上だし、ここは飽く迄暫定的な物置位にしかならないと思います。

201 :197:04/07/20 20:59
Wikiページにロシア語単語帳をアップしました。
ispell(GPLのスペルチェッカ)のロシア語用辞書(約13万語)を見出しにしてあるので
やたらファイルは大きいのですが、内容は和訳1千程度と貧弱です。
英訳はMueller英露辞典(http://www.geocities.com/mueller_dic/
を単純にひっくり返して、英語の見出しを訳語とし、
ロシア語訳の最初の一単語のみを見出しとして後は切り捨てて
重複をマージしただけなので、約二万語と数は多いけれど大分壊れた訳になってます。
(下の例では day 以外の訳は本来день 〜 といった複合語の訳。)
役に立つかどうか解らないけれど、まあとにかく好きなように使って下さい。

день /// [ヂェーニ]<男>_O 昼、日 / день рождения 誕生日
All Fools' Day, Aprilfoolday, Boxing-day, Childermas, D-day, Hallowmas,
Mday, V-E day, birthday, contango-day, day, day-time, doomsday, flag-day,
gala day, payday, quarter-day, racemeeting, rest-day, tag day,
varnishing-day, washday, weddingday


202 :2:04/07/21 00:34
げっ。アク禁、解除されてしまった。しばらく休めると思ったのに。
wikiも楽しめると思ったのに。

203 :wiki転載 :04/07/21 00:35
kjdictの人と (2004-07-20 (火) 02:23:53)
 * 本スレも知らせようと思いますが、私自身はたぶん、しばらくあちらには投稿できないので、
 こちらも一緒に知らせようと思います。 -- 2? 2004-07-20 (火) 22:42:26New
 * それではとりあえず、kjdictの人とコンタクトとってみます。 -- 2? 2004-07-20 (火) 23:21:49New


このサイトの構成についての議論(2004-07-20 (火) 22:53:00)
 * 冬ソナの語句のカウント結果(約160KB)をアップロードします。
  容量がなくなってきたら、最初に削る候補で結構です。 -- 2? 2004-07-20 (火) 22:54:29New
 * サイト内掲示板に人を案内しないといけないので、本スレと同じ行にあるのは良くないと思います。
 とりあえず2行に分けてみますが、気に食わなかったら言ってください。 -- 2? 2004-07-20 (火) 23:13:21New
 * っていうか、サイト内の掲示板はアク禁対策とかも含めて単なる連絡用でいいんじゃないかな?
 容量の事もあるし、wikiページの運営を含め議論等は本スレでやれば済む事だから。 -- 2004-07-21 (水) 00:13:04New


アクセス制限対策(2004-07-21 (水) 00:15:39)
 どうでも良いけれど2さんのアク禁、やけに長引くね。
 書き込めない時の早見表↓とかチェックしました?

 http://info.2ch.net/wiki/pukiwiki.php?%BD%F1%A4%AD%B9%FE%A4%E1%A4%CA%A4%A4%BB%FE%A4%CE%C1%E1%B8%AB%C9%BD

 取り敢えず、2さんに限らずアク禁されてる人とかがここに書き込んでるの
 見かけたらなるべく本スレの方に転載する事にしましょう。
 尤も批判要望板の「アク禁になった人の為にレス代行するスレ」の方が転載は早いんだけど。

 アク禁になった人の為にレス代行するスレ44
 http://ex5.2ch.net/test/read.cgi/accuse/1090312764/l50


204 :名無しさん@3周年:04/07/21 00:38
>202
オメデトウw

205 :hyam:04/07/21 01:08
初めまして。
kj_dictの作者です。
メールでお誘いを受けやってきました。
本格的な辞書ではなく気軽に使える単語帳、という方向で私はやっています。
方向性が似ていると思われるので一緒に作業ができれば嬉しいですね。

何から話してよいかわかりませんが、
取り急ぎ、ご挨拶まで。

206 :2:04/07/21 01:16
>>205
さっそく来ていただき、ありがとうございます。
すばらしい仕事をされている方にきていただいて嬉しいです。
いろいろ教えてください。

207 :2:04/07/21 01:23
>>205
来ていただいて早々、夜もふけて深々、お願いするのも悪いのですが、
韓国語の多量の文章がどこかに無いでしょうか?
冬のソナタの台本で語句の頻度データのファイルを作っていたのですが、
本来かれらがそれを公開している目的外の利用のような気がして。
できれば完全にフリー(GPL?)なものがよいのですが。
確か、hyamさんも、語を選ぶことの難しさをご自分のサイトで書かれていたと思います。

夜もふけてまいりましたので、いつでも良いです。なにか情報があれば教えてください。
僕もそろそろ寝よ。

208 :2:04/07/21 01:30
>>204
ありがとうございます。でも、心情的にはあまりメデタクないです。
2週間以上のアク禁の間に、完全にスレを立てた自覚はなくなってるので
これからどうやって暮らしていこうかと。

209 :名無しさん@3周年:04/07/21 01:37
>韓国語の多量の文章がどこかに無いでしょうか?
「虎を屏風から出してください」ってとこか?

210 :hyam:04/07/21 01:44
> 韓国語の多量の文章がどこかに無いでしょうか?
http://wiki.kldp.org/wiki.php
KLDPはどうですか?
Linux Document Projectの韓国版です。ただ語に偏りはでますけど。

>冬のソナタの台本で語句の頻度データ
例文として文章を取り込むのはまずいでしょうけど、
頻度データを取るくらいは良いと思います。

平日はあまり見れないかも。寝ます。




211 :名無しさん@3周年:04/07/21 02:00
コーパス、自前で作るというの?
だったら教えて欲しいんだけどさ、どれくらいの文章量を集めれば統計的に意味がある数字が出るんだろうね?
当然、運用・解析の仕方でも変わってくるだろうし
扱うジャンルをどう選択するかとか・・・

212 :名無しさん@3周年:04/07/21 07:09
>>207
NAVERじゃ駄目?w
てかマジレスすると、著作権が絡んでくるのは
独自の構成や用例・編集方法といった表現の部分であって、
世の中にどんな語があり、それがどういう意味を持つとか、
それが良く使われるかどうかとかいった事実の部分ではないから、
変に厳密に考えて回り道するより、
素直に手近な辞書を参考にしたら良いのでは?

後、私は漢和が欲しいな。学研のは持ってたけど
ピンインやハングル、GB、BIG5等の
それぞれのコードなんかが付いてる奴が欲しい。
漢和プロジェクトを立ち上げ、
固有語単語帳とハングル付きの漢和をマージすれば
目出度く実用的な韓国語辞典の出来上がりって訳には行かないものだろうか?


213 :2:04/07/22 00:16
>>210
>http://wiki.kldp.org/wiki.php
>KLDPはどうですか?
>Linux Document Projectの韓国版です。ただ語に偏りはでますけど。

どうもありがとうございます。そこの emacs 紹介文章などを適当に集めて(8万文字くらい)、
語句をカウントしてみました。当面、前回の冬ソナのかわりに
http://www.wikiroom.com/slo2/
にアップロードしましたが、ざっと眺めた感じ、やはりかなり偏りがありますね。

やはり韓国版の青空文庫があればいいのにと思いますね。日本でいえば夏目漱石くらいの
年代の小説を処理すればかなり使える頻度データになりそうなんですけどね。


214 :2:04/07/22 00:18
>>209
>「虎を屏風から出してください」ってとこか?
ごめん。勘が悪くて分かりません。なにかヒントをくれようとしています?


215 :2:04/07/22 00:31
>>211
自分たちが使う単語集を作るのに参照するという目的だと、統計的に意味の
ある必要は必ずしもないかと思います。個人的には
・比較的平易な小説がよい
・50年前のものでも我慢する
・複数の著者が好ましい
・総量として100万文字くらいあればよいか(unicode16で2MB)
(50万文字でもいいかなぁ)
くらいを考えています。目的に寄るんでしょう。僕の志は低い。

216 :名無しさん@3周年:04/07/22 00:46
>・50年前のものでも我慢する

てか、その位の年代って皆日本語世代なのでは?
その前は漢文世代だろうし・・・

217 :2:04/07/22 01:05
候補をみつけ。古いSFの翻訳プロジェクトです。
http://www.sfjikji.org/
翻訳されてる本の一覧は
http://www.sfjikji.org/book/index.html

日本のサイトの中で紹介されていました。感謝。
知られざる韓国SFの世界
http://member.nifty.ne.jp/windyfield/koreasf.html

218 :hyam:04/07/22 01:45
>>197
>(というか重複しないよう、そちらにある語は拾わないようチェック

もしこのチェッカが必要でしたら私が作成しましょうか?


219 :2:04/07/22 03:17
↑(>>217) のSFサイトの最初10個のテキストから語句の出現頻度を
抽出したものを
http://www.wikiroom.com/slo2/
にアップロードしました。最初10個分のテキストで約1.2MBだったので、
おおむね、集めようと思っていた量に達しました。だれかこれを使って
【韓国語辞書開発プロジェクト1(1000〜2000語でよいから)】
の継続をやってくれるボランティア求む。残りは、










220 :2:04/07/22 09:34
>>218
ええ、ありがとうございます(197ではないけれど)。
いい方法だと思います。2つの単語集
 A:人手で選んだ固有語中心の1000語程度のコンパクトな単語集
 B:WNN辞書など漢字語中心の膨大な単語集を核として作り、一部の
   固有語などに欠如がある単語集
があるとき、A+Bの比較的欠損の少ない膨大な単語集をつくることは
もちろん価値があることだけど、Aそのものも初学者の学習用などに価値の
あることだと思うので。混ぜたものから分離したものは作りにくいので。

221 :2:04/07/22 10:29
ㅍの項やります。








ㅍ 2予約

222 :名無しさん@3周年:04/07/22 20:37
kjdictの辞書をPDIC一行テキスト形式に変換し、
2さんの単語帳をマージしたものをアップして置きます。
差分もとってあるんで、内容チェックしたい方はどうぞ。
行頭が+になっているのが追加修正された部分、
-になっているのが修正前のデータです。
(実際には更に同音異義語に 〜 *1,〜 *2 といった具合に
ナンバーをふってあります。)

>>218
winならPDIC本体でチェック出来るんじゃないかな? 未だ確認はしてませんが。
その辺のツールの事もwikiとかにまとめておいた方が良いかも知れませんね。


223 :2:04/07/22 23:10
>>222
どうもありがとうございます。差分をチェックしたら+になってる部分が
結構あったので、「まあまあの貢献になってるのかな」と安心しました。
ところで、pdic のデータで
 개정 *1 /// 改定
 개정 *2 /// 改定
 개정 *3 /// 改正
 개정 *4 /// 改訂
 개정 *5 /// 開廷
のようなものがいくつかあったのですが、これはもとの単語集に重複があったということですか?


224 :2:04/07/22 23:16
ㅍの項を終えましたので、チェックしたあとアップロードします。これは2時間程度の作業でした。

ㅃ、ㅆ、ㅉ、ㅊなどは、もっと少ないのでだれか手を挙げていただけませんでしょうか?
語句の頻度データを使うと、この作業は誰でもやれるルーチンワークです。
私がやってる方法を書きますので、ためしに自分でやってみてできそうだったら
手を挙げてもらえませんでしょうか?

225 :2:04/07/22 23:39
1.まず、http://www.wikiroom.com/slo2/ にアップロードされている sf1-10.lzhの
  中の sf1-10s.txt から目的とする見出しの行を切り出します。word などで読み込んで、
  必要な部分以外をカットすればよいでしょう。ㅃ、ㅆ、ㅉなどはかなり少ないです。
  ㅃ(73行)、ㅆ(104行)、ㅉ(50行)、ㅊ(404行)、ㅁ(1028行)、ㅂ(1061行)。

2.次に、このデータは語尾だけ違うものが沢山含まれていますから、本質的に同じものを
  まとめていきます。韓国語がある程度できる人なら、さっさっと、やっていけるでしょう。
  語尾変化かどうか判断がつかない場合は、翻訳ソフトなどの助けを借りてもよいでしょう。
  この作業をやってると、元の形とその活用が分かって勉強になります。この作業で大体、
  数個から数十個が1つの項目になります。

3.各項目を原型に直していき、訳をつけていきます。もとのデータに含まれていないもので
  入れておいたほうがよいと思うものを付け加えていくこともあります。

最後に、これは各自がそれぞれの能力でボランティアとしてやっているわけで、
その範囲でしか責任はなく、間違っていたり、不十分なものでも、それなりの
貢献だと思います。気軽にやっていただければよいと思います。で、報酬ですが
個人の満足度と利用者の感謝の気持ちだけです。

226 :2:04/07/22 23:51
一応残りの
  ㅃ(73行)、ㅆ(104行)、ㅉ(50行)、ㅊ(404行)、ㅁ(1028行)、ㅂ(1061行)。
を作成するための作業用語句データを http://www.wikiroom.com/slo2/ に KJ1000-TODO.lzh という
名前でアップロードしました。用がすめばすぐ消しますので、これがさっさと消せることを夢見て。

>>199 さん。開設してもらった wiki ルームを本当に物置として使わせてもらってます。
本当は 199 さんはロシア語の辞書が作りたいんですよね。すみませんね。

227 :2:04/07/23 00:00
>>225
手順に追加。
4.最後にソートをかける。word だと、全体を選択してから、
   ・「罫線」メニューから「並び替え」を選ぶ
   ・そのダイアログで「オプション」を選択して
   ・「並び替えに使用する言語の指定」で「韓国語」を選び、OKを押して
    もとのダイアログにもどり、もういちどOKを押して
  ソート完了。wordが辞書式の順序になおしてくれる。便利。

228 :hyam:04/07/23 00:41
>>222
> kjdictの辞書をPDIC一行テキスト形式に変換し、
> 2さんの単語帳をマージしたもの
すみません、私はまだ何もやっていないのですが、
これがあるなら実際にPDICでひいて、引けなかったものだけを
追加していく、という事でもできそうな気がします。

あと、sf1-10s.txt のようなテキストが用意されているなら
kj_dictに同梱しているKJ_form3.exeにファイルを食わせて
うまく変換されたものは除外して考える、
という手が使えるかと思います。

何か話についていけてないですね、ごめんなさい。

229 :hyam:04/07/23 01:03
>>222
diff.txtを今見ていたのですが、日本語の部分もうまく
マージされていて、すごいですね。
簡単に「マージした」と書かれているけど
結構大変だったのでは、などと思いました。
# 変換スクリプトの方に興味があったりして。

230 :2:04/07/23 01:04
>>228
>あと、sf1-10s.txt のようなテキストが用意されているなら
>kj_dictに同梱しているKJ_form3.exeにファイルを食わせて
>うまく変換されたものは除外して考える、

私としては全部を kj_dict に吸収してもらうだけでなく、単独で
1000語程度の単語のリストができたほうがよいと思うので、こちらの
プロジェクトで作ったものの差分を登録したほうがよいと思います。

例えば、初学者が学習すべき単語集を作ろうと思ったとき、3万語の
辞書の項目を見る気はしないですが、1000語の単語集なら、1つ3秒で
見て判断すれば、1時間程度で片がつきますし、初学者用の単語の比率は
相当高いと思いますので。

> 何か話についていけてないですね、ごめんなさい。
いえいえ、最終的に kj_dict という受け皿ができたので、なんとか終わらせようと
いう気になってます。


231 :hyam:04/07/23 01:15
>>230
>1000語程度の単語のリストができたほうがよいと思うので
有用と思います。

222を見て考えたのですが
「1000語程度の単語のリスト」と「PDIC形式にマージするスクリプト」
という形はよい成果物ではないかな、
と思います。
# って話を終わらせる方向に持っていってどうする。>私

232 :hyam:04/07/23 01:41
>>226
雑談ばかりも何なので...
ch.txt を私がやりましょう。
頻度が大きく私がわかる部分という事で。3日ほど時間くださいな。

>>230
>初学者が学習すべき単語集
という事であればkj_dictと重複していても頻度が大きいものは
あげておくべきなのでしょう。

233 :hyam:04/07/23 08:15
我ながらわかりにくい変な文。

>頻度が大きく私がわかる部分という事で。
ch.txtの全部は難しいでしょうが、頻度が大きい単語で
私がわかる部分を書いてみます、
のつもりでした。

234 :2:04/07/23 09:07
ㅍ の項を http://www.wikiroom.com/slo2/ に ph.txt というファイル名で
アップロードしました。wiki room ができたので、ここのスレに30行毎に分けて
投稿するのはやめます。このスレは議論とか保守に当てたほうがよいのかな。

・固有語中心と言ってはいますが、かなり漢字語が入っています。SFから取り出した語なので
 偏りもあります。
・利用者側でチェックしてからの方が安全と思います。100語程度なので、
 このスレを見ている人でだれかチェックしてくれると有難いです。

235 :2:04/07/23 09:40
>>232
>雑談ばかりも何なので...
>ch.txt を私がやりましょう。

大御所にそんなことまでお願いしていいんですかね?
と思いつつ、人もいないことですのでよろしくお願いします。


>>初学者が学習すべき単語集
>という事であればkj_dictと重複していても頻度が大きいものは

すみません。よろしくお願いします。特に固有語を入れておいていただければ
あとはそう気にしないでもよいかと思います。




236 :2:04/07/23 09:51
次は、ㅂをやります。
引き続き、ボランティア募集。やり方は自由ですが、
>>225, >>226, >>227 を参考にするとよいと思います。
残りは

ㅂ 2 予約


ㅇ 27さん予約


ㅊ hyam さん予約。

それぞれの項目の量の目安ですが、頻度データの行数は以下のとおりで、
出来上がる単語集の語彙数はこの数分の1〜1/10くらいでしょう。
ㅃ(73行)、ㅆ(104行)、ㅉ(50行)、ㅊ(404行)、
ㅁ(1028行)、ㅂ(1061行)、ㅈ(1204行)。

237 :名無しさん@3周年:04/07/23 22:28
>>230
頻出語を表示するマークを付けてkj_dictの辞書に追加して行き、
後でマークの付いた行だけ抜き出した方が早いのでは?
ついでにpatchファイルの形式でアップした方がチェックし易いんじゃないかな。

>>229,231
別にスクリプト使った訳ではなくエディタでの手動マージです。
同音異義語の番号振りにはperlを使いましたが。
何か期待させてしまってすみません。w

ところで韓国語はまるで解らなくて恐縮なんですが
漢字とハングルのスペルって一対一対応してはいないんですか?
そうであるなら中国語辞典の見出しをそのままハングルに変換・対応させれば、
漢語の部分は大概OKそうな気がするんだけど。


238 :2:04/07/23 23:23
>>237
>頻出語を表示するマークを付けてkj_dictの辞書に追加して行き

私もそれは考えたのですが、頻出語にマークをつけることと、
1000語程度の(固有語中心の)頻出語集合を作成することとは作業として
ほぼ同じだと思います。本質は、ここでkj_dictとの差分だけ見つけていくのではなく、
ある目的にそったコンパクトな単語集を作成するということなので。

1000語程度を作って、それにマークをつけてから、kj_dictにマージするのが
よいでしょう(すでに1000語程度じゃなくなりかけていますが)。

239 :2:04/07/23 23:33
>>237
>漢字とハングルのスペルって一対一対応してはいないんですか?
>そうであるなら中国語辞典の見出しをそのままハングルに変換・対応させれば、
>漢語の部分は大概OKそうな気がするんだけど。

「漢字とハングルのスペル」は、ごくごくわずかの例外を除いて一対一対応ですね。
問題は、
 ・中国語の単語すべてが韓国語にあるわけでないこと(もちろん、
  日本の漢字語も全部韓国に輸入されたわけじゃない)
 ・多くの漢字の読みのデータを作成しなければならないこと(これは
  これでとても重要なもので、かつ、私も欲しいのですが)
で、また、漢字語については、wnnの辞書から普通に必要な部分は
持ってきてあるんじゃないかなと思います。

240 :hyam:04/07/24 00:04
>>230
>初学者が学習すべき単語集

最初にkj_dictから"src:tanabe"の語を抜き出して(約1000語)
それにここで上がった語をマージ。
という形も良いかもしれません。

実はtanabeとマークしている語は田邉さんという方が
作成された単語集です。
http://www1.nisiq.net/~iq001837/koreanDic/hanil.html

田邉さんの許可を受け、それにFreeWnnの辞書を付け公開したのが
kj_dictの原型です。

田邉さんの単語リストは
>初学者が学習すべき単語集
この意図にかなり近いように思います。

P.S.
私はアマチュアの語学学習者なんで
>大御所に
ってのは何か違う。 :-P

241 :hyam:04/07/24 00:23
浦島太郎的な反応です...
>>32
>韓国語は対英語でも探せなかった。日本にたくさん英和のフリーの辞書があるように、
>きっと韓国の人も英韓の辞書を作ってるはずですけどね。
ご存知の方もいるかもしれませんが、英韓辞書は
http://www.kecl.ntt.co.jp/icl/mtg/resources/engdic/
私の知っている所ではこれが良いです。
韓国版Linuxなどには良く同梱されています。
ライセンスは最初不明でしたが、最近GPLになったようです。

242 :2:04/07/24 00:42
> 実はtanabeとマークしている語は田邉さんという方が
> 作成された単語集です。
> http://www1.nisiq.net/~iq001837/koreanDic/hanil.html

こんなのがあったんですね。微妙にそれぞれの語彙の集合が違いますが、
知ってればこれをベースに拡張してたかも。今でも、こちらの欠損している
項目は、田邉さんのを使えば、形の上では全見出しが揃うので、どこで
終わってもよいプロジェクトになってしまいましたね。

一応、実際に単語集を自分で作ってみると、ある程度、田邉さんのものとも
違ってくるということが経験上分かったので、引き続き、残りの項目について
ボランティアは募集しておきます。

そのうち田邉さんと連絡をとってみることにします。

ㅂの項はもうすぐできますが、SFから取ってきたんで
 백조자리 : 白鳥座
なんてのが入っています。これも愛嬌と思ってそのままにしていますが。

「大御所」と言ったのは、すでに単語集を作成され、公開されて、利用者もついているので
ここで作りかけてる私からすれば、「大御所」ということです。

243 :2:04/07/24 00:47
>>241
> ご存知の方もいるかもしれませんが、英韓辞書は
> http://www.kecl.ntt.co.jp/icl/mtg/resources/engdic/
> 私の知っている所ではこれが良いです。

まあ! 嬉しくもあり、悲しくもある情報。いや、基本的に嬉しいんですが。

244 :2:04/07/24 01:33
ㅂ の項を http://www.wikiroom.com/slo2/ に p-dic.txt というファイル名で
アップロードしました。基本的にsf1-10s.txtに出現するものを単語集に
含めています(ほとんど削ってません)。

245 :2:04/07/24 10:17
次は、ㅁをやります。
引き続き、ボランティア募集(やり方は自由ですが、一応 >>225, >>226, >>227 を参考。)
残りは
ㅁ 2 予約


ㅇ 27さん予約


ㅊ hyam さん予約。

それぞれの項目の量の目安ですが、頻度データの行数は以下のとおりで、
出来上がる単語集の語彙数はこの数分の1〜1/10くらいでしょう。
ㅃ(73行)、ㅆ(104行)、ㅉ(50行)、ㅊ(404行)、
ㅁ(1028行)、ㅈ(1204行)。


246 :201:04/07/25 17:45
>>201のままじゃあんまりなんで、
Mueller English-Russian Dictionary 7-th (GNU GPL) edition with accents
をDIC形式の露英辞典に変換するスクリプト(未完成品)を
恥を忍んでアップして置きました。w
ソートはかけてません。何か上手くかからない。orz
同様に見出し語のマージもかけてません。どちらもPDIC任せです。

何にしてもこの辞書はハラショーです。スクリプトの出力が194992行、
出力ファイルをutf16にしてPDICに入れて見出しが119408語です。
これ、和訳したら結構使える辞書にならないかしら?
やってみようって方います?


247 :hyam:04/07/25 21:29
>>246
>出力ファイルをutf16にしてPDICに入れて見出しが119408語です。
こういうGPLであるデータは非常に魅力的な材料と思います。

端から順に訳するのは至難の業だと思いますが、
自分の知っている語を適当に入れていけるような、
多くの人で少しずつ知識を出し合えるうまいしかけがあると
良いのですけどね。
(wikipediaみたいな感じでしょうか)
# 私、ロシア語全くだめです。ごめんなさい。
# ロシア語なら「ジャンルカさん」あたりに相談するのがいいかも。

P.S.
ㅊの項を入れて、http://www.wikiroom.com/slo2/ に上げました。

248 :2:04/07/26 21:41
ㅊの項、どうもありがとうございます。

ちなみに私もロシア語まったくダメです。201さんにはお世話になっているのに
貢献できなくてつらい。

> # ロシア語なら「ジャンルカさん」あたりに相談するのがいいかも。

ところで、皆さん、色々な人を知ってのね。
know-who って、重要な情報だなぁ。

249 :hyam:04/07/26 23:17
>>246
> ソートはかけてません。何か上手くかからない。orz
perl/jperlでkoi-8が処理できないという話では?

Perl5.8を使ってコード系を指定したらどうでしょう。
スクリプトの先頭を以下のように変更し、sort処理も入れる、とか。

use encoding "koi8r"; # this script written by KOI-8
open(AA, "<:encoding(koi8r)" , "Mueller7accentGPL.koi");
open(DD, ">:encoding(koi8r)" , "Mueller7accentGPL-re2ch_koi8.txt");

# なんも試さずに書いています。的外れなら本当にごめんなさい。

250 :名無しさん@3周年:04/07/26 23:31
>>246にソートが掛かるようにしたのをアップし直しました。

>自分の知っている語を適当に入れていけるような、
>多くの人で少しずつ知識を出し合えるうまいしかけがあると
>良いのですけどね。

PDICがネット対応していて、辞書をネットで共有すると
ユーザー同士で自由に追加・編集が出来るらしいです。


251 :名無しさん@3周年:04/07/26 23:49
>>249
ispell用の辞書にsortkoi8というスクリプトがあったんでパクリました。
因みに↓下が元ネタのスクリプト。
これってkoi8自体の文字コードが辞書順になっていないって事なのかな?
AlPH=の部分が通常の辞書順の並び。
単純にsortするとTEMP=以下の並びになるんでかなりあせりました。

#!/bin/sh
# sort a file in Cyrillic koi8-r encoding alphabetically
#
# -f Fold lower case characters into the equivalent upper case
# characters when sorting so that, for example, `B' is greater
# than `a' (without `-f', uppercase characters precede lowercase).

if [ "$1" = "-f" ]; then
FOLD="-f"
ALPH='АаБбВвГгДдЕеЁёЖжЗзИиЙйКкЛлМмНнОоПпРрСсТтУуФфХхЦцЧчШшЩщЪъЫыЬьЭэЮюЯя'
else
ALPH='АБВГДЕЁЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯабвгдеёжзийклмнопрстуфхцчшщъыьэюя'
fi
TEMP='ёЁюабцдефгхийклмнопярстужвьызшэщчъЮАБЦДЕФГХИЙКЛМНОПЯРСТУЖВЬЫЗШЭЩЧЪ'

tr $ALPH $TEMP | sort $FOLD | tr $TEMP $ALPH


252 :hyam:04/07/27 00:05
>これってkoi8自体の文字コードが辞書順になっていないって事なのかな?

なんと!
勉強になりました。 m(__)m

253 :hyam:04/07/27 00:36
>PDICがネット対応していて、辞書をネットで共有すると

知りませんでした。
「PDIC Dictionary Server Project」でしょうか。
非常に興味深いプロジェクトと思います。(pdicに移ろうかな)
おしえていただきありがとうございます。

254 :2:04/07/27 12:29
上でPDIC関連の話題がでたので、検索していたら、下記のようなサイトを
見つけました。

かずお韓国語辞典
http://kazuo.fc2web.com/Korean/index.htm

テキストで出力させてみたら、見出しは、21万行ありました。
基本的な語しかカバーしてないと書いてあったのですが、結構な
色々な語をカバーしているように思います。語だけでなく活用まで
含めてフレーズを登録しているので、このスレで作成したSFの
語句カウントデータに和訳を付けたような感じです。

# なんだか、このスレは辞書開発スレッドじゃなくて辞書紹介スレッドに
# なっちゃいましたね。

255 :名無しさん@3周年:04/07/27 20:36
>>254
そちらの辞書は転載改編自由って訳ではないでしょう。
ここで求められているのはオープンソースの完全フリーな辞書ですから
別に作業が無駄になった訳ではないと思いますが。

それはそれとして、追加のファイルの書式、

ハングル[漢字] /// 訳語/例文

といった感じのPDIC一行テキスト形式を推奨したいな。
PDICやそれに対応したソフトがそのまま使えるし、
現行の「ハングル:日本語」の並びだと機械的にマージする時、
同音異義語も全て一単語として取り込むか、
全く同じ言葉でも訳語が異なれば全部別単語として取り込む
位しか方法がなさそうで、一寸不便な気がするんですが。


256 :名無しさん@3周年:04/07/27 20:59
Meuller辞典の改変スクリプト、訳語のマージに対応したを
アップしておきました。
変換結果は全部で101319行、
その内31840行の見出しが複数語に渡っているんで
これを例文に回すとして、あれこれ訂正して行けば、
大体6〜7万語収録の辞書に仕上がるって所でしょうか。

それと↓Pydictって奴を見つけたんだけど、
これ、cedictとともににCJK漢和辞典の土台に使えないかな。
PDICスレでは新華辞典が出回っているらしいという未確認情報もあるけど。

http://sourceforge.net/projects/pydict/


257 :名無しさん@3周年:04/07/27 21:10
>>253
>「PDIC Dictionary Server Project」でしょうか。

はい、それです。
尤も私、PDICはそのフォーマットをザウルス用の辞書に
変換するための形式として使ってるだけで、
実際にソフトを使用してる訳ではないんで
そういう機能があるらしいって事以外は何も知らないんですが。


258 :2:04/07/27 21:22
> ハングル[漢字] /// 訳語/例文
> といった感じのPDIC一行テキスト形式を推奨したいな。

ええ、PDICなど世の中で普及している書き方を工夫したよい書き方があれば、
それをこのスレで確立したいです。2点教えてください。

(1)ハングル[漢字]
   これは対応する漢字がある場合は、それを見出しの方に含めると
   いうことですよね? 何点か気になるのですが。
   ・対応する漢字がない固有語の同音意義語をどうするか?
    치다,지다,타다 などはめちゃくちゃ多義
   ・PDIC に入れたとき、各カラムごとにフォントを選ぶんだと思うんですが、
    きちんと1つのフォントにおさまりきるか?
   ・テストに使うとき、漢字が入ってるとヒントになりすぎる。
  英語、ロシア語なども同音意義語がありますが、それらはどうしているんでしょう?
  1,2とか番号打っているんでしょうかね?

(2)/// は、きっと、なにか発音や品詞などを書くところが
   空白になってるんですよね? PDICのマニュアルなどを調べれば
   よいとは思うのですが、もしよかったら書いてもらえると嬉しいです。
   今は、作業量を減らすために入れてないだけで、余裕があれば入れても
   よいなと思っているので。

259 :2:04/07/27 21:25
> そちらの辞書は転載改編自由って訳ではないでしょう。
> ここで求められているのはオープンソースの完全フリーな辞書ですから
> 別に作業が無駄になった訳ではないと思いますが。

あっ、そうだった。今思い出した。
じゃあ、とりあえず完成するまで続けます。

260 :2:04/07/27 21:40
http://www.wikiroom.com/slo2/ にアップロードされている kj2ch?uni.zip は、
128さんが集めたㅋ,ㅌの項も入っているので、説明のところにそれを追加しました。

ところで128さん、128さんが集めた部分も
> ここで求められているのはオープンソースの完全フリーな辞書ですから
にしてしまってよいですよね?

261 :名無しさん@3周年:04/07/27 22:28
>>258
1-a. 漢字は勿論対応する漢字がある場合のみです。殺濫遍夜とかやったら駄目です。
1-b. 英語以外の辞書の使用者は大概ユニコード系のソフト使うんじゃないかな?
1-c. それでは、

(漢語の場合)ハングル /// [漢字] \ 、(固有語の場合)ハングル /// [-] \

で如何でしょう? 簡単に切り分けられれば何でも良いです。
英語等の場合については要は比較の問題かと。

2. /// については単に視認性の問題じゃないかと思います。
「 /// 」で一つの区切りなんで、間に何か入れたりしたらまともに作動しない筈です。

>>260
2ch自体が転載・改変の自由を謳っているんで特に問題ないのでは?


262 :hyam:04/07/28 00:35
>>255
>そちらの辞書は転載改編自由って訳ではないでしょう。
これはどういうものか聞いてみるのが一番ではないでしょうか。
というかこれも私は知りませんでした。
なんか、すごそうだ。 (^^;

でも初学者向けの小さめにまとまった一覧というのが
ここのコンセプトなので、住み分け可能ではありませんか。
(競合するのは私だ...)
# ちょっと挨拶メール送ってみようかな。

>>254
># なんだか、このスレは辞書開発スレッドじゃなくて辞書紹介スレッドに
じゃぁ、私も1つ。
http://abyss95jp.hp.infoseek.co.jp/


263 :2:04/07/28 00:42
>(漢語の場合)ハングル /// [漢字] \ 、(固有語の場合)ハングル /// [-] \

固有語の場合の [-] \ は、省略しちゃだめですか?
あと、漢字語の場合の \ も。で、[漢字]は、最終的にどのように使われるべきかを
考えるとちょっと迷ってしまいます。
例えば、「지금(チグム)」という単語は、「今」という意味なんですが
元を正せば、「只今」という漢字語みたいなんですよね。で、
(A) 지금 /// [只今] 今
が良いのか、あるいは一番最初に言われていた通り
(B) 지금[只今] /// 今
がよいのか分からなくなってきました。見出し語が自然に同音意義語を区別できると
いう意味では(B)がよいんですよね。(A)はscriptで何らかの処理をすることに
なりますね([]部分が違えば、別の見出し語にするなど)?
テストに利用しようと思うと見出し語に漢字を入れるのはヒントになりすぎると
思うので避けたい気がして。あと、[只今] は、単語を覚えるためには大変有効な
手がかりになるので、訳文のなかには入れときたいのですが、その位置が先頭か
どうかは判断が分かれるところで。まあ、(A)でよいですかね。先頭の[]は、
その単語の漢字を表すという約束事を設けておいて?

大変分かりにくい書き込みですみません。

264 :名無しさん@3周年:04/07/28 00:58
XMLで書いたら?と言ってみるテスト。

265 :hyam:04/07/28 01:05
>>263
(A)と(B)なら(A)が私は良いと思います。
漢字込みで見出し語というのはちょっと違和感ないですか?
同音意義語は複数行(別行)に分けて良いと思いますが、どうでしょう。

266 :hyam:04/07/28 01:12
>>264
XMLは打つのが大変だからYAMLにしよう、とか言ってみる。:-)

凝り出したらきりないので、
ここではできるだけsimple路線でしょう。

267 :名無しさん@3周年:04/07/28 23:18
>>263
A案とB案のそれぞれのメリットは2さんのおっしゃる通りです。
「 \ 」の方はPDICで改行を現しているだけですから、
別に省略しちゃってかまいません。PDICでの表示内容が

 [漢字]
 訳語...

となるか、

 [漢字] 訳語...

となるかの違いに過ぎませんから。

同様に[]がないものは固有語と看做せば良いので、それも省略して構いません。
一旦フォーマットが決まりさえすれば、問題があった都度変換をかければ良いだけなので、
取り合えず、受けが良い方という事でA案で行きましょうか。

>>265
>同音意義語は複数行(別行)に分けて良いと思いますが、どうでしょう。

むしろ折角分けてあるものが勝手にマージされてしまうのを防ごうという事です。
例えばPDICは見出しが一致したものは訳部を強制的にマージしてしまうようなんで。

268 :コピペ:04/07/28 23:28
ソフトウェア板のPDICスレより
http://pc5.2ch.net/test/read.cgi/software/1062351626/l50

-------------------------------------
From: [102] 名無しさん@お腹いっぱい。 <sage>
Date: 04/07/23 17:35 ID:YfmxDaM5

スレ違いなんだけどさ、http://www.popdic.com/のPop-Up Dictionaryって
辞書データがみょーにマイナーなところで充実してる。
ロシア語の有名な辞書や百科事典とか中国の新華字典とか。
今日さらにWebsterの1913年版が出た。
そんなものいらんって人には何の興味もないだろうけど、
たとえば新華字典をコンピュータ上で引けるなんてもう便利すぎ。
これでPDICにコンバートできれば言うことないんだけどなあ。

From: [106] 名無しさん@お腹いっぱい。 <sage>
Date: 04/07/28 02:24 ID:43axdub3

気付いたんだけどさ、>>102のサイトで落とせる辞書データって.mdbだから
Access持ってたら編集とかできちゃうんじゃないのかなあ。
誰か試してみてよ、持ってる人。


__________________以上_________________


私もアクセス持ってない。そんな訳で誰か人柱希望。


269 :2:04/07/29 00:42
ㅁの項を http://www.wikiroom.com/slo2/ に、m-dic.txt で登録しました。
誰かチェックしてくれると嬉しい。

できるだけ漢字語は[xxx]で入れましたが、まだ見出しと意味の間は「 : 」
です(いままでのファイルとあわせる意味で)。いつから「///」にしようかと
悩むところなのですが。あと、「:」の両側の空白の個数が一定していないと
思うので、スクリプト作るときはもしかしたら注意しないといけないかも。

270 :2:04/07/29 00:50
で、残りは
 ㅃ
 ㅆ
 ㅇ 27さん予約
 ㅈ
 ㅉ
だけです。 ㅃ、ㅆ、ㅉは本当に少ないので、だれかお願い!それぞれ、
KJ1000-TODO.lzh内のファイルをたった100行程度見て、修正&訳を
つけるだけなので。そうすれば、「私ら」はㅈの項を細分化&分担して、
このプロジェクトを終焉に向かわせられるので。

271 :2:04/07/29 01:00
> 「 \ 」の方はPDICで改行を現しているだけですから、
そうでしたか。勉強になりました。改行は要らない事にしましょうか。

>むしろ折角分けてあるものが勝手にマージされてしまうのを防ごうという事です。
ええ、意図はわかりました。特に共同開発するときこの問題は顕著ですね。
あと、まだ、固有語の同音異義語は見出しに番号を付けていくくらいしか
防ぐ手立てがないのですが、これも複数の人で共同開発するときは番号の付け方が
違う可能性が高いので、管理が難しいですね。こうなると漢字は良い道具なのかも。

272 :あッ:04/07/29 18:34
ㅃㅆㅉやりたいんですけど…
でも各10個ずつもないとおもうんですけど…
やっていいですか?

273 :あッ:04/07/29 18:42
すみませんKJ1000-TODO.lzh内のファイルってどこにあるんですか?

274 :あッ:04/07/29 19:01
すみません>272で各10個もないとおもうと書いたんですけど
手持ちの辞書見ながら始めてみたら思ったよりたくさんありました
いちおう多めにあげていくので後で削ってください

275 :2:04/07/29 19:55
>>272
> ㅃㅆㅉやりたいんですけど…
是非おねがいします。うっ、うっ、うれしい。

>すみませんKJ1000-TODO.lzh内のファイルってどこにあるんですか?
http://www.popdic.com/ にあります。これはSF 10冊ほどの中から
取り出した語句です。偏りがあると思いますので

> でも各10個ずつもないとおもうんですけど…

は、蓋を開けてみないと分かりません。
なんにしても終わる見通しが出てきたので、感謝感謝です。

> いちおう多めにあげていくので後で削ってください
削らないでよいと思います。そんなに沢山ないと思いますし、すでに
色々、変な語句も含めちゃったので。「白鳥座」とか。

276 :あッ:04/07/29 20:00
>>275わかりましたやってみます

277 :2:04/07/29 20:06
>>275
> http://www.popdic.com/ にあります。これはSF 10冊ほどの中から

ごめんなさい。間違えました。
http://www.wikiroom.com/slo2/
ここでした。

278 :あッ:04/07/29 20:24
【韓国語辞書開発プロジェクト1(1000〜2000語でよいから)】
【ㅃ(1/2)】
빠르다:速(はや)い
빠이(빠이빠이):ばいばい
빠지다:抜ける
빡빡머리:坊主頭
빤짝:キラッ
빨간 赤い
빨다:吸う
빨다:洗う(洗濯する)
빨대:ストロー
빨래:洗濯
빨리:はやく
빨리:速(はや)く
빵:パン
빵점:零点
빼다:抜く(マイナスする)
빼앗다:奪う
빼앗기다:奪われる
뺨:ほっぺた
뻔뻔스럽다(뻔뻔하다):ずうずうしい
뻔했다:〜するところだった
뼈:骨(ほね)
뻗다:伸びる、伸ばす
뻘떡:がばっと(急に起きる様子)
뽐내다:いばる
뽑다:抜く
뽑히다:選ばれる
뽕나무:桑の木
뾰족하다:とんがっている
뿌듯하다:満ちている


279 :あッ:04/07/29 20:24
【韓国語辞書開発プロジェクト1(1000〜2000語でよいから)】
【ㅃ(2/2)】
뿌리:根
뿌리다:撒く
〜뿐:〜だけ
뿐만 아니라:だけでなく
뿔:つの
뿡뿡:ぶうぶう(おならのおと)
삐걱:ギイッ(戸の開く音)
삐다:くじく
삥긋:にっこり
삥삥:ぐるぐる


280 :あッ:04/07/29 20:50
【韓国語辞書開発プロジェクト1(1000〜2000語でよいから)】
【ㅆ(1/2)】
싸구려:やすもの
싸늘하다:冷やっこい
싸다:包む
싸다:(うんこおしっこを)する
싸다:安い
싸우다:争う
싸움:たたかい
싸이다:囲まれる
싹:芽
싹싹하다:気さくだ
쌀:米
쌀쌀하다:ひえびえとしている
쌍꺼풀:二重まぶた
쌍동이:双子
쌍안경:双眼鏡
쌓다:積む
쌓이다:積もる
쌔근쌔근:はあはあ、すやすや
쌤:センセ・先公
쌩:びゅうっ
쌩긋:にっこり
써늘하다:ひんやりする
썩다:腐る
썰다:刻む
썰렁하다:ひえびえする
쏘다:撃つ
쏟다:こぼす
쏟아지다:こぼれる
쏠리다:(心が)傾く
쏴:しゃあ〜

281 :あッ:04/07/29 20:52
【韓国語辞書開発プロジェクト1(1000〜2000語でよいから)】
【ㅆ(2/2)】
쐬다:(風に)当てる
쑤시다:ずきずきする
쑤시다:ほじくる
쑥:よもぎ
쑥스럽다:はずかしい
쓰다 にがい
쓰다:使う
쓰다:書く
쓰다듬다:なでる
쓰러지다:倒れる
쓰레기:ごみ
쓰레기통:ごみばこ
쓸다:掃く
쓸데없다:無用だ
쓸모:使い道
쓸쓸하다:うら寂しい
씁쓸하다:ほろ苦い
씌우다:かぶせる
씨:種
씨:〜さん
씨름:すもう
씨앗:種
씩:ずつ
씩씩하다:りりしい
씹:おとなの女の陰部
씹다:噛む
씻기다:洗われる
씻다:洗う
씽글뻥글:にこにこ
씽씽하다:ぴちぴちしている

282 :名無しさん@3周年:04/07/29 21:23
>>269
今までの部分の変換とマージは言いだしっぺの私がやって置きますから、
フォーマットの変更はいつでもどうぞ。尤も:のまま一段落付いちゃいそうですね。
私としては次はハングル、ピンイン対応の漢語辞典と行きたいんですが、
何処かにユニコードの全ての漢字にハングルで読みを振ったデータ転がってないかな。
一応KSコード(4888字)の分(↓)は見つけたんだけど。

http://www.han-lab.gr.jp/lib/40.html


283 :2:04/07/29 21:28
なんというはやさ。ありがとうございます。そんじゃ私は
 자〜져(져を含む)
をやります。残り割当たってないのは
 조〜ㅈ最後まで
で、だれか分割してもよいのでやって!

で、27さん。「ㅇ」の項どうなってますでしょうか?
別に全部やらなくてもできたところまで出、残りはやれないって
言ってくれれば、また、私なり、別の人を募るなり、しますよ。

2chアク禁になってたら、
http://www.wikiroom.com/slo2/
に連絡してください。

284 :2:04/07/29 23:42
>>282
>今までの部分の変換とマージは言いだしっぺの私がやって置きますから、

どうもありがとうございます。

>フォーマットの変更はいつでもどうぞ。尤も:のまま一段落付いちゃいそうですね。

そうですね。あとは ㅇ、ㅈ、ㅉ だけですからね。このまま一旦「:」で作らせてください。


285 :hyam:04/07/30 01:46
>>282
>私としては次はハングル、ピンイン対応の漢語辞典と行きたいんですが、
>何処かにユニコードの全ての漢字にハングルで読みを振ったデータ転がってないかな。

Unicodeの漢字全てが韓国で使用されているわけではないでしょうから、
「全ての漢字にハングル」というのは難しそうな気もしますが...
例えば、
http://www.unicode.org/Public/UNIDATA/
の Unihan.zip からスクリプトを使って作成という手は使えないでしょうか?

全ての漢字について各国の読みが振ってあります。
U+4E0DkJapaneseKunSEZU NIARAZU INAYA
U+4E0DkJapaneseOnFU BU FUTSU HI
U+4E0DkKoreanPWU PWUL
U+4E0DkMandarinBU4 FOU3 FOU1
:


286 :あッ:04/07/30 10:39
【韓国語辞書開発プロジェクト1(1000〜2000語でよいから)】【ㅉ(1/1)】
짜다: 塩辛い
짜다: 組む
짜리: に値するもの
짜장면: ジャージャー麺
짝: (対になるものの)片割れ
짝사랑: 片思い
짧다: 短い
짱: 最高!
째: まるごと、〜番目
째깍째깍: カチッカチッ
쨍쨍: かんかん(日照りが)
쪼개다: 割る
쪼다: ついばむ
쪽: 側、方
쪽지: 紙切れ、メモ
쫓기다: 追われる
쫓다: 追う
쫙: ぱあっと(広がる様子)
쬐다: 照る
쭈글쭈글: しわしわ
쭉: ずっと、ずらっと(伸びている様子)
쯤: 頃
찌개: チゲ
찌다: 肥える
찌다: 蒸す
찌르다: 突く、刺す
찌푸리다: どんより曇る
찍다: 写す、(ちょこっと)つける
찡그리다: (顔を)しかめる
찢다: やぶる
찧다: 搗く

287 :2:04/07/30 22:53
どうもありがとうございます。あっというまでしたね。
もしかしたら、だから「あッ」さんなんでしょうか。感激です。

288 :2:04/07/30 23:00
そろそろ終わりに近づきつつあるし、成果をアップロードするための
wikiroom もあるので、このデータの扱いを書いた readme.txt を
どうするか話し合いましょうか?

大きく2つを書けば良いですね。

1.このデータの扱い
   基本的にGPL(うーん、なんだろう? 詳しく読んだことがないので
   読まないといけないのかな?)

2.貢献者
   皆さん匿名なわけですが、このスレの何番さんとか、このスレで固有名詞
   持っている人はその固有名詞で、一応書いておきましょう。あっさりと。

私はまだ少しデータ作りをしなければならないので、こちらは追々。

289 :名無しさん@3周年:04/07/31 00:34
>>288
GNU General Public License (略して GNU GPL) はフリーソフトウェア用のライセンス、
とりわけソースコードのあるプログラムのためのライセンスです。
もちろん辞書データにも適用できますが、個人的には辞書データは GNU GPL ではなく
無保証のパブリックドメインソフトウェア (PDS) にするのが良かろうと思います。

GNU GPL の主な特徴は以下の通り。
・プログラムの利用者にはソースコードを入手し、変更し、再配付する権利がある。
・プログラムの派生物を作ったらライセンスを GNU GPL にしなければならない。

辞書データは、データ形式を変更したり、他の辞書データと統合したりといった
いろいろな形式・形態の派生物が考えられます。
これらの派生物とそのソースコード(※)を GNU GPL として配付することを
派生物の作成者に「強制」したいなら、GNU GPL にするのがよいでしょうね。

もしそうではなく、好き勝手に使って構わない、利用に関して何の条件も付けない
ということであれば、PDS にするのがよいと思います。

(※)人間が読み書きできないデータ形式に変換するなどの利用方法もありますので
人間が読み書きできる形式の辞書データを「ソースコード」と呼んでもいいでしょう。

290 :名無しさん@3周年:04/07/31 01:02
PDSだとそれをそっくりそのまま使って誰かがが著作権を主張すれば
転載や改変の自由が保障されなくなるから、敢えてGPLというライセンスが
生み出されたんじゃなかったっけ?
例えばPDSのデータを使ってソースの読めないバイナリ辞書が作られると
たとえそれがフリーソフトとして出回っても、
それを改造して自分のマシンに相応しい形で使うという事が出来なくなる。
いい例が>>268のコピペにあるPop-Up Dictionaryで、
著作権が切れてると思われるウェブスター1913年版とか利用して
作られた辞書のソースを公開せよと言う権利が私達にはない訳です。
GPLっていうのは要はその著作物が有用な限り永遠に社会に流布し続け
改良が重ねられることが期待できるという所がミソなんじゃないかな?
そういう点で私はやっぱり二次利用者にソースの公開を義務付けるGPLの方が良いと思う。
それと著作権者名は「名無しさん@X周年」で良いのでは。
因みにGPLライセンスの日本語訳は以下のページで手に入ります。
良かったら、ご一読されたし。

http://www.gnu.org/licenses/translations.ja.html


291 :2:04/07/31 01:17
私としてはPDS(PDD)で良いように思います(なんか懐かしい言葉だ)。
とりあえず私たちが作ったデータ、そのものは改変自由、無償で利用可能としようと
思うのですが、それを使ってシステムを作ったり、何らかの工夫をしたり、
何らかの作業により付加価値をつけたものにまでとやかく言わないでよいかなと
私自身は思っています。PDDにしても、ここで作ったデータそのものに誰かが
著作権を主張できる訳じゃないですよね? あくまで改変した結果について
著作権を主張できるだけですよね?

一応 GPLライセンスも読んでみます。
あと、データ提供者の意向を聞かないといけないですね。

292 :名無しさん@3周年:04/07/31 01:19
>>285のファイルを試験的にPDIC形式にアレンジしたのをアップしてみました。
(hyamさん情報サンクスです。)

フォーマットは以下の通り。見出しに続いて[]内が順にユニコード、
ピンイン/ハングル(ローマ字表記から変換予定)/ヴェトナム音、
続いて画数(部首番号.画数(総画数))を挟んで、正字として繁体字を採用。
簡体字は異字体として同語類語と一所に後ろに回してあります。
(後、7万字全部アップするのは無理なんで、2バイト領域のものだけを収録してます。)

万 /// [U+4E07 MO4 WAN4/MAN MWUK/v?n] 1.2(3)【<→萬>】 \ 音:MAN BAN 訓:YOROZU / ten thousand; innumerable \ JIS:4392/BIG5:C945/KS:5618/
乾 /// [U+4E7E GAN1 QIAN2/KAN KEN/ki?n] 5.10(11) \ 音:KAN KEN GEN 訓:KAWAKU KAWAKASU INUI / dry; first hexagram; warming principle of the sun, penetrating and fertilizing, heavenly generative principle (male) \ 簡:→干 JIS:2005/BIG5:B0AE/KS:4375/

勿論これは一試案なんで、色々他の意見も聞いてみたいんですが、
取り合えず親字は常用漢字以外は繁体字(Big5)で統一、
簡体字、新聞略字等は異字体としてリンク(→記号)で済ますのが良いんじゃないかなと思います。
何れにしろ、先ずは親字の確定とマージする各種フリー辞典を探す事から始めるのが常道かな?
(この辺は作業というより、どういう基準で見出し語を決めるかの話合いですね。)
頻出後を離れれば離れる程、多分漢語の意味のCJK間の相違は薄れて行くだろうから、
完成の暁には副産物として十万語単位の韓日辞書が出来るのも夢じゃないと思うんだけど如何だろう?


293 :名無しさん@3周年:04/07/31 01:35
>>290
PDS を元にして作られたソフトウェアが PDS でなくなったとしても、
元となった PDS は PDS のままですよね。

派生物については何も関知しない、というのが PDS のスタンス。
一方、派生物に GNU GPL であることを求めるのが GNU GPL のスタンス。
これらは考え方の違いであって、どちらを選ぶかは著作権者の自由です。

294 :2:04/07/31 01:36
一応、GPL の日本語訳から関連する部分を抜き出しておきます。
私としては、金儲けに走りたい人はそうして、そうでない人はもとの
データから完全にフリーなものを作って配布すればよいし、そういう多様性を
許しておいたほうが良いかと思っています。ここらあたりは考え方の相違が
ありそうなのですが、GPL は、今後フリーで拡張する人も、著作権表示など、
ある種手間を背負い込むことになって面倒だなと思うので。

http://www.gnu.org/licenses/licenses.ja.html#WhatIsCopyleft
  あるプログラムをフリーにする一番簡単な方法は、 パブリックド
  メイン(18k キャラクタ)、すなわち著作権が放棄された状態に置く
  ことです。これにより人びとは、その気さえあればプログラム自身
  と彼らがそれに加えた改良を共有することができます。しかし、パ
  ブリックドメインに置くということは、非協力的な人びとがそのプ
  ログラムを独占的ソフトウェア(18k キャラクタ)にしてしまうこと
  をも認めるということなのです。彼らはプログラムに、量の多少を
  問わず、なんらかの変更を加えてその結果を独占的な製品として配
  布することができます。そのように変更された形でプログラムを手
  に入れた人びとには、元の作者が人びとに与えた自由がありません。
  作者とユーザの中に割り込んだ連中がその自由を奪い去ったのです。

この最後の一節ですね。「自由」を奪い取ったと考えるか、依然として元の
データにあると考えるかなのですが、「もとのデータにはあるわけですから、
奪い取ったと考えなくても」と思うのです。押し付けはできないので、
データ提供者間でよく話し合って決めましょう。

295 :2:04/07/31 01:39
どうでもいいけど、
 パブリックドメイン(18k キャラクタ)
 独占的ソフトウェア(18k キャラクタ)
って、18禁キャラクタみたいですね。

296 :名無しさん@3周年:04/07/31 01:58
>>290
GNU GPL であるが故に利用されない(利用できない)ということもあります。
既にいいソフトウェアがあるのに、ライセンスが GNU GPL だからという理由で
新たに何もないところから作り直すということがよく行なわれています。

GNU GPL にしておけば GNU GPL のまま改良され続けるというのは事実ですが
理想論でもあります。改良されるためには派生物が作られなければなりません。
しかし、GNU GPL であることが派生物の誕生を阻むこともあるのです。

PDS から派生物が生まれるのは「PDS だったから」かも知れません。

297 :2:04/07/31 02:01
>>292
すごい。うまく使えば漢字語に関するデータが楽に作れそうですね。

ローマ字表記って、何式なんでしょう。一応ローマ字表記に関して参考URLを
書いておきますね。
http://www.aurora.dti.ne.jp/~noma/romazi01.html

> 頻出後を離れれば離れる程、多分漢語の意味のCJK間の相違は薄れて行くだろうから、
でも、頻出語を離れるとCJK間で共通のものがなくなってくるかもしれませんよ。
例えば、手元の韓国語から、日本では使わない漢字語を適当に書いてみました。
 似而非 サーイビ 似て非なるもの
 使嗾  サージュ そそのかすこと

298 :hyam:04/07/31 02:11
>>292
仕事が早い! すごいなぁ。

>ハングル(ローマ字表記から変換予定)
これ、結構難しくないですか?
何か良い案ありますか?

P.S.
私はほんのちょっとしか出してないけど、GPLじゃなくて
好きに使って、がいいかな。
# でも、どちらでもいい。他の方々に全権委任。

299 :名無しさん@3周年:04/07/31 02:13
289=293=296です。スレ違い気味なので以上にしますね。

ついでにすこし余談を。上では GNU GPL のことを否定的に書いていますが、
実は私は GNU GPL の賛同者で、自作ソフトウェアを GNU GPL で配付していたりします。
皆様が開発中の辞書データのライセンスとしてパブリックドメインを推すのは、
匿名の共同作業の産物の場合は著作権を放棄するのが簡単でよかろうという考えからです。
要はライセンスも適材適所ということです。

300 :名無しさん@3周年:04/07/31 02:16
>>297
「似て非なる」は似而非の書き下しだし、
シソウ(←なぜか変換されない)も割とメジャーな漢語かと。。。

【指嗾/使嗾】(名)スル
指図してそそのかすこと。けしかけること。
「順良なる生徒を―して、此騒動を喚起せるのみならず/坊っちゃん(漱石)」


301 :2:04/07/31 07:43
>>300
うっ、教養のないところをさらけ出してしまいました。
明治、大正、昭和初期と、今より広範囲に漢語がつかわれていたんですねえ?

ところで、もしかして
  勉強(日本語)/工夫(韓国語)
が異なる理由をご存知ですか? ずっと知りたかったので。勉強は、和製漢語かなあ?

302 :2:04/07/31 07:53
それではデータに関して貢献した人に、データの扱いについて聞きます。
適用範囲は
 【韓国語辞書開発プロジェクト1(1000〜2000語でよいから)】
についてだけです。パブリックドメイン/GPL/その他(具体的に)を以下に
書いてください。

 2さん ... パブリックドメイン
 hyam さん ... パブリックドメインが良いと思うけど、全体に従う
 128 さん ...
 あッさん ...
 27 さん (ㅇの項が入れば) ...
 197 さん(データ編集)... パブリックドメインでよい

303 :名無しさん@3周年:04/07/31 10:47
>>297,298

↓こんなの見つけました。
そんな訳で>>292のローマ字表記を↓のソフトを使って変換したのをアップします。
日・朝混在HTML生成器「hangul Html」
http://www.tufs.ac.jp/ts/personal/choes/etc/hangeul/hh.html


因みに元のデータのローマ字表記はYale式だそうです。
上のソフトでは他に福井玲式と韓国文化観光部式が使えます。
NIF辺りで使ってるらしいHR式の変換プログラムは
コマンドラインで使えてソースも公開されてるから、
変換テーブルさえあれば汎用性がありそうなんだけれど
面倒なんでこれを使いました。
一旦ローマ字表記のハングルを{{}}で囲んで変換しなきゃならないので、
スクリプトでちゃちゃっとって訳にはいかないけれど、
これはこれで便利そうなんで紹介しておきます。


304 :hyam:04/07/31 14:55
>>303
> 日・朝混在HTML生成器「hangul Html」
つくづく勉強になります。m(__)m

無知なところをさらしたついでに恥をしのんで、もうひとつ。
> NIF辺りで使ってるらしいHR式の変換プログラムは
これは何ものでしょう? 検索してみてもわかりませんでした。
ポインタだけでも教えていただけると幸いです。

P.S.
Unicodeとハングル処理に関し、
私も午前中にちょっと調べたのですが、
http://www.cpan.org/modules/by-authors/id/S/SA/SADAHIRO/
Lingua-KO-Hangul-Util
これが面白そうでした。
(ローマ字ではないけど、いろいろ応用が利きそう)

305 :名無しさん@3周年:04/07/31 19:19
>>304
ハングル工房本店(http://www.han-lab.gr.jp/)内の

ハングル工房 フリー・ソフト図書館
http://www.han-lab.gr.jp/lib/index.html

でdos用ソフトとしてHR〜(ex. HRKS,HRローマ字→KSコード)
と言う名前でづらづら並んでいるのがそれです。
>>282のKSコードのハングル読みがアップされている場所と同じ場所です。

そちらで紹介されているものはハングルの音節を綴りに分解したりするものなのかな?
確かになかなか面白そうだけど、若しかしたら全然解釈間違ってます?


306 :hyam:04/07/31 20:03
>http://www.han-lab.gr.jp/lib/index.html
ここですか。他にもいろいろありますね。
ありがとうございます。ゆっくり見てみます。

>Lingua-KO-Hangul-Util
"HANGUL SYLLABLE GA"のようなUnicodeの表記名から実際の文字を得るとか、
ハングルを字母単位に分解するとか、
逆に複数の字母からハングルを合成するとか、いろいろできるようです。



307 :名無しさん@3周年:04/07/31 22:03
>>292,>>303
音、訓をそれぞれカタカナ、ひらがなに変換。
その他下記の通り若干形式を変更。

万 /// [MO4 WAN4/?/vao!n] 1.2(3) 4E07【<→萬>】 \ マン バン よろず \ ten thousand; innumerable \ Jis:4392 Big5:C945 Ks:5618


なお、PDICだと以下のように表示されます。


[MO4 WAN4/?/vao!n] 1.2(3) 4E07【<→萬>】
マン バン よろず
ten thousand; innumerable
Jis:4392 Big5:C945 Ks:5618

308 :2:04/07/31 23:10
자〜져(져を含む)をやりました。http://www.wikiroom.com/slo2/ に、
c1-dic.txt というファイル名でアップロードしています。

で、
 조〜ㅈ最後まで
もやります。 残りは
 ㅇ 27さん予約
だけなので、27さん、連絡待ちます。

309 :2:04/07/31 23:12
ところで、ファイル名の c1-dic.txt, p-dic.txt なんかはあまりに一般的過ぎて、
複数の言語の単語集を作るときの作業ファイル名としては不適切ですね。
その前になんらかのpre-fix をつけるようにしたほうがよいかも。何にしても、
もうすぐ終われば、1つのファイルにまとめて消しますので、今回は
ご勘弁を。

310 :名無しさん@3周年:04/08/01 08:02
>>308のc1-dic.txtまでを纏めた奴をアップして置きました。
(ファイル名:kj2ch_u16.zip)

311 :2:04/08/01 10:20
英語板のスレ
  語源で単語を覚える!!
http://academy3.2ch.net/test/read.cgi/english/1053239975/l50
で、語根(latin, greek, etc)の一覧表を作ってる人がいて、公開してよいというので、
http://www.wikiroom.com/slo2/ にアップロードしてもらうことにしました。
また、その一覧表データの権利は、今のところ、個人で持ってててもらうことにしました。
ここの韓国語単語集のプロジェクトのように共同で作るというものではないかもしれませんが、
Do it youself で辞書的なデータを作り、皆の学習のために提供するという意味では似てるかなと
思いましたので。wikiroom の容量も小さいので、将来的には何らかのガイドラインが必要かも
しれませんが、まずは実験的に。
そのスレの関連記事は
http://academy3.2ch.net/test/read.cgi/english/1053239975/498,501,514-522



312 :2:04/08/01 10:23
↑記事の参照が意図通りではなかったので、次の3行で書いておきます。
http://academy3.2ch.net/test/read.cgi/english/1053239975/498
http://academy3.2ch.net/test/read.cgi/english/1053239975/501
http://academy3.2ch.net/test/read.cgi/english/1053239975/514-522

313 :515:04/08/01 20:39
조〜ㅈ最後まで 終わりました。c2-dic.txt というファイル名で
http://www.wikiroom.com/slo2/ にアップロードしました。見出し語と
意味の区切り記号は /// にしました。

314 :名無しさん@3周年:04/08/02 21:11
Unihan.txt から、ハングルの対応部分を抜き出して表にしたものを
kr_han.zip の名でアップしました。
kr_han.txt は全体の表で、全部で9049字、kr_han2.txt はその内
漢字に対応するハングルが2つ以上あるものを抜き出したもので、
全部で710字あります。

で、対応するハングルの読みが2つ以上あるものは
今後漢語を機械的にハングルに直す時邪魔になるので、
その内一つのみを用いて効率的に漢字をハングルに変換していけるよう
どれがより一般的な読み方なのか把握して置きたいなと思います。

あまり使いそうにないような語まで一々調べるのも馬鹿らしいので、
よく使いそうな漢字だけ、判る範囲でこれまでの要領で分担して
一寸チェックをかけてみませんか?

例えば金にはキム、クムという順で読みが掲載されているのですが、
キムは人名で漢語の読みとしてより一般的なのはクムの方なので、
これをクム、キムの順番に換えて置きたい訳です。

取り合えず、最初の100文字は私がやってみようと思います。
序に、転載改変フリーの中日、中英、漢字字典等で
マージに使えそうなのありましたら、知らせて下さいませ。

どうでもいいけどハングルってどうやってここに書き込むのでしょうか?
(そんな事も知らずに今までここにアクセスし続けていた私は
「逝ってよし!」なんだろうな、やはり。)

追伸、祝2ch版韓国語単語集完成! 皆様、お疲れ様。


315 :名無しさん@3周年:04/08/02 21:29
cjk2ch のフォーマットをまたまたマイナーチェンジ。常用漢字を示すマークとリンクを付けました。
同時にkTraditionalVariant のない字を親字候補として*マークをつけ、その内
kCompatibilityVariant kSemanticVariant kSpecializedSemanticVariant
のあるものを異字体あり、として**マークで区別しました。因みにこのVariantシリーズ、
それぞれ実際に何を意味するのか未だ良く把握していません。判読できた方、ご教授願います。

万 /// [MO4 WAN4/? ?/v?n] 1.2(3) 4E07【常】【<→萬>】 \ マン バン よろず \ ten thousand; innumerable \ Jis:4392 Big5:C945 Ks:5618
萬 /// *[WAN4/?/v?n] 114.8(15) 842C【常<→万>】 \ マン よろず おおきい \ ten thousand; innumerable \ 簡:<→万> Jis:7263 Big5:B855 Ks:5631

#kTraditionalVariant
#The Unicode value(s) for the traditional Chinese variant(s) for this character.

#kCompatibilityVariant
#The compatibility decomposition for this ideograph, derived from the
#UnicodeData.txt file.

#kSemanticVariant*
#The Unicode value for a semantic variant for this character. A semantic
#variant is a y-variant with similar or identical meaning which
#can generally be used in place of the indicated character.

#kSpecializedSemanticVariant*
#The Unicode value for a specialized semantic variant for this character.
#A specialized semantic variant is an x- or y-variant with similar or identical
#meaning only in certain contexts (such as accountants' numerals).

316 :2:04/08/02 22:32
>>314 円周率だ
> Unihan.txt から、ハングルの対応部分を抜き出して表にしたものを

これは結構、使いでのあるデータですね。こんなのが欲しかったんですよ。
より正確にいうと、欲しかったのは、
 ・よく使う漢字で かつ
 ・読み方が予想と食い違うもの、あるいは2つ以上の読みがなど注意すべきもの
がわかるデータかな。

> よく使いそうな漢字だけ、判る範囲でこれまでの要領で分担して
> 一寸チェックをかけてみませんか?

これはちょっと考えさせてください。ボランティア募集から単語集データ作成まで
音頭をとった身から言わせて貰うと、予想以上に大変で落胆の多い仕事ですよ。
せっかく色々お世話していただいた314さんに落胆を味あわせたくない。
私が大変だと思う理由は、ここにいる人間に
> どれがより一般的な読み方なのか把握して置きたいなと思います。
を判断できる人間がほとんどいないと思われること(私も含めて)。
このデータ作成にはもう少し良い方法があるように思います。人海戦術は
ほかに方法がなく、作業量が限られていて、高い価値の成果が見込めるときの
方がよいと思います。このデータ作成方法について話し合ってみましょう。

> どうでもいいけどハングルってどうやってここに書き込むのでしょうか?
314さんの関心が何なのか分からなくなってきました。もしかして、もしかして、単に
辞書マニアなのでしょうか?

317 :2:04/08/02 22:35
> 追伸、祝2ch版韓国語単語集完成! 皆様、お疲れ様。

残念ながら、まだ、ㅇの項が残っているので、27さんを待つか、
またボランティアを募るか、XXXするかを考えなければなりません。

318 :2:04/08/02 22:47
> どうでもいいけどハングルってどうやってここに書き込むのでしょうか?
直接入れるときは「かささぎ」というフリーウエアでコードをunicode で
入れています。あとは、Word から貼り付けたり(これはどんな形式かわからんけど)。
xyzzy というテキストエディタでいくつかのエンコーディングで貼り付けられるみたいなので
実験しておきましょう。
UTF-16 질문
UTF-8N ・壱ャク
EUC-KR チケョ
これらは全部「質問(チルムン)」をカット&ペーストしたものです。

319 :名無しさん@3周年:04/08/02 22:53
27はもうこのスレを見ていないと思われ。

320 :2:04/08/02 22:55
>あまり使いそうにないような語まで一々調べるのも馬鹿らしいので、
>よく使いそうな漢字だけ、判る範囲でこれまでの要領で分担して
>一寸チェックをかけてみませんか?

たぶん、一語にして、日韓翻訳をかけると、多くの場合、よく使われるほうの
読みが出てくると思う。時たま、一語で意味のある場合があり、韓国語の長い
単語に翻訳されることもあるけど、それは翻訳結果を見ていると一目で分かります。
で、翻訳されない語が出てきますが、それは
 ・その漢字そのものが韓国語で使われない
 ・翻訳にかけた漢字が日本語の漢字でない(形が似た別の漢字から類推する?)
などが理由かと思います。

321 :2:04/08/02 23:28
そうですね。期待して無期限に待つわけにはいかないので、分割して
ボランティアを募りますか。次のうち1つは私がやりますので、
だれかやってくれる人がいると嬉しい。
*ただし、作成したデータはPDDとして配布することにします。
 아 〜 에の直前
 에 〜 으の直前
 으 〜 最後まで


322 :ごめんなさい27:04/08/02 23:35
病気でぶっ倒れてました。やっと退院しました。
ご迷惑をお掛けして申し訳ありません。
話がすごく進んでいる様で、一読しただけでは理解出来ていません。
(PC、Internet 弱いので)
私は何をすればいいでしょうか?
食関係に絞るという話も一時あった様ですが・・・
足を引っ張る存在になってしまって済みません。

323 :2:04/08/03 00:17
>>322
大変でしたね。でも、回復おめでとうございます。

> 私は何をすればいいでしょうか?
ㅇの項でできたところまでを教えていただければ、残りを
分担しようと思います。

あと、
> ただし、作成したデータはPDDとして配布することにします。
これを承諾していただければ。つまり、今回は完全にフリーで配布し、
利用者がどのような改変をしようと自由。改変したものを有料で販売しようが、
無償で配布しようが自由ということです。もしダメでしたら、こちらで
新たにデータを作ろうと思います。

著作権に関しては色々な考え方があるかもしれませんが、今回は、私は
これで行きたいということです。


324 :名無しさん@3周年:04/08/03 06:51
>>322 某スレでは電波飛ばしつづけていたのにね 病院から2ちゃんしてたの?w

325 :名無しさん@3周年:04/08/03 07:30
>>320
素晴らしい。こりゃものの5分も掛からぬ作業だ。
やはりない知恵絞って一人でやるより人に聞いてみるものですね。
韓国語の入力方法ともども、色々ご教授して頂き有難うございます。
そんな訳で314については忘れて下さい。

>>316
>314さんの関心が何なのか分からなくなってきました。もしかして、もしかして、単に
>辞書マニアなのでしょうか?

済みません、取り合えずハングルにはあまり関心が。。。
露英や漢語字典はあちらの青空文庫みたいなの見つけたんで
最近買ったりなざう使って色々読んでみたいとは思ってるんですが。

326 :2:04/08/03 20:44
> 素晴らしい。こりゃものの5分も掛からぬ作業だ。

いくらなんでも5分は大げさでしょう。50分はかかりそうな。
それで不明なものが沢山でてくるので、それはここで聞きながらやっていったり、
いうのはどうでしょう。

> 済みません、取り合えずハングルにはあまり関心が。。。
ええ、関心がなさそうなのに、漢字のハングル読みの辞書を作ってるので、
もしかしたら辞書マニアかと思いました。

> 露英や漢語字典はあちらの青空文庫みたいなの見つけたんで

いいですねぇ。でも、ロシアの物語って怖そう。子供のころに
見た映画がトラウマになってて。たしか、娘さんをおぶっていたら、いつのまにか
おばあさんをおぶっていたという場面が記憶に残ってるのですが知りません?
小さいころだったんで記憶違いかもしれませんが。雑談モードだ。

> 最近買ったりなざう使って色々読んでみたいとは思ってるんですが。

これもいいですねぇ。

327 :2:04/08/03 21:48
> おばあさんをおぶっていたという場面が記憶に残ってるのですが知りません?

気になって調べてみたんですが、
 原作名:ВИЙ ヴィー
 原作者:Nicolai Gogol ニコライ・ワシリェヴィチ・ゴーゴリ
をソ連時代に映画化したもので、僕が見たのは
 妖婆 死棺の呪い(1967)
 製作年 : 1967年
 製作国 : ソ連
 配給 : 日本海映画
 内容:ウクライナ地方の自然を舞台に神学生が魔女に出会ったためにたどる数奇な運命を描く。
これだ!
雑談モードスマソ。

328 :名無しさん@3周年:04/08/03 22:02
2さんのアドバイスに従い>>814の読みの候補が複数あるものに
翻訳サイトを使って絞込みをかけたものを再アップしておきました。
残ったのはkr_han2.txt内の195文字です。
あまり使いそうにないものが大半ですが、使用頻度が多そうな分
だけ抜き出して、↓に記して置きます。

それと漢語辞典へのマージ対象辞書なんですが、>>356に挙げたpydict
の他に、stardict というものもあり、辞書が充実してるんで
出来ればマージしたいんですが、未だプレインテキストに変換出来ずに居ます。

http://stardict.sourceforge.net/

辞書ファイル本体はdictzipというもので解凍出来るのですが、
.idxファイルがどういう形式なっているのか判らない。
一応GPLと記されてるんだけど、
本体ソフトのソースから読み取れという事なのだろうか?
何か良い方法がありましたらご教授願いたく。

それからWikiの容量がもう大概一杯ですね。
漢語も露英もフルサイズでアップできず不便です。
また掲示板を使った今まで通りのやり方もそろそろ限界でしょう。
PDICサーバー立ち上げるなり、CVSでファイル管理するなり、
そろそろ何か策を考えないといけませんね。


329 :名無しさん@3周年:04/08/03 22:04
*亘U4E98?? ?
*?U4F77?? ?
*?U4FE0?? ?
*?U5551?? ? ?
*嫋U5ACB*? ? ?
*宛U5B9B?? ?
*射U5C04?? ?
*弁U5F01*? ? ?
*掠U63A0*? ? ?
*斜U659C?? ?
*昆U6606*? ? ?
*欠U6B20?? ?
*歪U6B6A*? ? ?
*牢U7262*? ? ?
*?U72C0?? ?
*獲U7372?? ?
*白U767D?? ?
*瞑U7791?? ?
*蛇U86C7?? ?
*見U898B?? ?
*覚U899A?? ?
*?U8AAA?? ? ?
*賂U8CC2*? ? ?
*趣U8DA3?? ?
*邯U90AF?? ?
*鵠U9D60*? ? ?
*龍U9F8D*? ? ? ?
*?UF9B2?? ?


330 :328:04/08/03 22:06
やっぱり化けてる。。。orz

331 :2:04/08/03 22:23
これは、投稿のテストです。

亁U4E81?건 간
亍U4E8D?촉 마
亏U4E8F?유 우
亘U4E98?선 환
亹U4EB9?미 문
亻U4EBB?사 람 인 변
亾U4EBE?망 무

332 :名無しさん@3周年:04/08/03 22:27
上は、Netscape 7.1 から、UTF-16 で入力。
これは、IE 6.0 で UTF-16 で入力。
亁U4E81?건 간
亍U4E8D?촉 마
亏U4E8F?유 우
亘U4E98?선 환
亹U4EB9?미 문
亻U4EBB?사 람 인 변

333 :名無しさん@3周年:04/08/03 22:27
>>326
折角だから、見つけた所記して置きます。

Xin Yu Si (New Threads) Home Page
http://www.xys.org/
魯迅が充実してるようです。

Библиотека
http://www.magister.msk.ru/library/
トルストイやドストエフスキーのメジャーなのは大概あるみたいです。

334 :名無しさん@3周年:04/08/03 22:29
2ちゃんブラウザなら、Jane Nidaでだめ?

335 :名無しさん@3周年:04/08/03 22:41
>>334
試してみるニダ。

*亘  U4E98  ?? ?
*?  U4F77  ?? ?



336 :2:04/08/03 22:43
ブラウザは何で、kr_han2.txtのファイルは何で見てます?
どうやって入力域に入れてます?

もし Microsoft word があれば、それに自動判別させて読み込ませて、
カット&ペーストで
亁U4E81?건 간
亍U4E8D?촉 마
亏U4E8F?유 우
亘U4E98?선 환
亹U4EB9?미 문
のように入ると思います。

337 :名無しさん@3周年:04/08/03 22:46
>>336
meadow+navi2ch または firefox+moz2ch です。

*亘  U4E98  ?? ?
*?  U4F77  ?? ?


338 :2:04/08/03 22:58
私も、試しに Jane2ch で入力してみたら化けたみたい。
試しにIE か Netscape を掘り起こしてみて入れてみたら?
僕のところのIEだと設定が悪いのか、「乾」の字は見えてないけど。
ちなみにこれの読み方は건だと思います。乾杯がコンベーなので。

339 :名無しさん@3周年:04/08/03 22:59
あれ、ごめん、Nida駄目だったか。

340 :2:04/08/03 23:06
Jane2chのバージョンが OpenJane α 0.1.11.1 と出てきます。
古いかもしれません。だいぶ前にインストールしたので。
書き込み用のダイヤログに貼り付けた瞬間に化けますね。
(UTF-16, UTF8N, UTF-7, EUC-KRなどほとんどのエンコーディングで)。

341 :名無しさん@3周年:04/08/03 23:11
Open Jane Nida
Open Jane の Unicode 強化版
http://members.at.infoseek.co.jp/koreawatcher/janenida.htm

342 :ごめんなさい27:04/08/03 23:55
>324
?????
>2
まだ回復し切ってないので、反応悪くて済みません。
とりあえず〇の項、つたないデータは出来ているので、順次送ります。
ただ、ハングル文字の入力がうまく行きません。
Universal typewriterからはコピペが出来ないし、IMEがうまく起動しません。
アドバイス頂けると幸いです。最悪の場合:
a ka s'i お嬢さん
a ki  赤ちゃん
a k'a  さっき
a k'ap ta  惜しい
a k'im eops i  惜しげなく
a neun sa ram  知り合い
a ni ta  違う
a ma  多分
a mu theun とにかく
a peo ci 父
の様になってしまいますが、これではまずいですよね?

手元の「朝鮮語辞典」に漢字音訓索引が付いていて1000字以上載っています。
朝鮮語漢字語辞典は少なくとも2種類、日本で出版されています。

343 :ごめんなさい27:04/08/04 00:16
PS 恐らく>314に漏れているものは見付からないでしょう。>「朝鮮語辞典」
   >304>305のサイトを見たのですが、よく分かりませんでした。
   申し訳ありませんが今日は就寝します。
   an nyeong!

344 :名無しさん@3周年:04/08/04 00:40
*亘  U4E98  ?선 환
*佷  U4F77  ?항 한
*俠  U4FE0  ?협 겹
*啑  U5551  ?잡 삽 체
*嫋  U5ACB  *요 뇨 약
*宛  U5B9B  ?완 원
*射  U5C04  ?사 석
*弁  U5F01  *판 변 반
*掠  U63A0  *랭 략 량
*斜  U659C  ?사 야
*昆  U6606  *고 곤 혼
*欠  U6B20  ?흠 감
*歪  U6B6A  *왜 씨 외
*牢  U7262  *뇌 뢰 로
*狀  U72C0  ?상 장
*獲  U7372  ?획 확
*白  U767D  ?백 배
*瞑  U7791  ?명 면
*蛇  U86C7  ?사 이
*見  U898B  ?견 현
*覚  U899A  ?각 교
*說  U8AAA  ?설 세 열
*賂  U8CC2  *뇌 뢰 로
*趣  U8DA3  ?취 축
*邯  U90AF  ?한 함
*鵠  U9D60  *고 곡 혹
*龍  U9F8D  *용 룡 롱 방
*零  UF9B2  ?영 련


345 :名無しさん@3周年:04/08/04 00:46
どうやら↑上手く行ったみたい。(上の漢字郡はメジャーどころで読みが確定していないものです。)
原因はxyzzyのクリップボードの設定がシフトJISになっていた所為でした。
これでは幾らやってもハングルが出る訳がない。 orz
色々ご親切に教えて下さった方々、どうも有難う。
いや、本当にお騒がせしました。


346 :2:04/08/04 00:49
>>342
どうもありがとうございます。感激です。
それと、ここ 2ch に韓国語を入力する必要はありません。
ファイルごと
http://www.wikiroom.com/slo2/
にアップロードしていただければOKです。
ページ上部の「添付」を押せばあとは一直線です。


347 :2:04/08/04 00:53
では、 ㅇ の項をアップロードできるように、
SF1-10.lzh と KJ1000-TODO.lzh を消しておきますね。

348 :ごめんなさい27:04/08/04 21:32
>2
すみません、日本語の使い方間違えてしまいました。
掲示板に打ち込む事しか考えてなかったので、単語集まだ紙のノートの状態です。
これから至急ファイル化します。
感激される様な立派なものでは無いので、期待せずに居て下さい。

すごいプレッシャーだなあ。

349 :名無しさん@3周年:04/08/04 22:38
>>344
全部じゃないけど、日本の漢字にして翻訳してみました。
判断にこまる結果だけど。
亘 긍
侠 협
宛 앞
射撃 사격
弁明 변명
掠 랭
斜 경사
昆 고
欠点 결점
歪 왜
牢 뇌
獲得 획득
白菜 純白 배추 순백
瞑想 명상
大蛇 큰뱀
見学 発見 견학 발견
覚醒 視覚 각성 시각
説明 설명
賄賂 뇌물
趣味 취미
邯 감
鵠 고
龍 용
零 령

350 :2:04/08/04 22:53
白を배と読むのは白菜だけかも。ところで、314さんはハングルを
読めるんでしょうか? 多彩なんですね。

斜面 傾斜 경사면 경사
白鯨 白日 白色 白人 백경 백일 백색 백인
潔白 純白 결백 순백
龍宮 青龍 용궁청용

351 :hyam:04/08/04 23:45
最近少し忙しくて話に乗り遅れています。 :-)

もう不要かもしれませんが、
韓国の漢字の読みを判断する方法として
FreeWnnの単漢字辞書も使えるかも。
今ざっと見た感じ、1つの漢字で読みは1つだけ登録されているようです。
FreeWnnの freewnn/Xsi/kWnn/kdic/single.u のファイルです。




352 :ごめんなさい27:04/08/04 23:48
>2
今日は入力終わりませんでした。
明日病院に行くので、今日は休みます。
ごめんなさい。

353 :2:04/08/05 00:00
>>352
苦役みたいになっちゃいけないんで、無理しないでください。
相当量あるはずなので、1日、2日で入れようと思えば、
ほかを犠牲にしなければならないでしょう。ボランティアであって、
義務ではないので。なんなら、きりの良いところまで、宣言してもらえば
後ろは私がやってもかまいませんよ。

354 :2:04/08/05 00:08
>大蛇 큰뱀

これは「大きいへび」で翻訳されてましたね。念のため。

355 :英単語の語源スレの501:04/08/05 01:36
とりあえず誤植と誤訳直すの終わった。
明日か明後日、アップロードしてみるよ。

356 :名無しさん@3周年:04/08/05 07:37
>>355
>とりあえず誤植と誤訳直すの終わった。
>明日か明後日、アップロードしてみるよ。
おめでとうございます。それとありがとうございます。
こうやって有益なデータがPocketPCなんかで持ち歩ける形になると
いつでもお勉強できるようになりますね。

357 :199:04/08/05 20:36
wikiroomが手狭になったんでxrea申し込んで置きました。
そのうち使えるようになるそうです。
とりあえずpukiwiki辺り導入して置こうと思います。
何時になるやら判りませんが、開設できたらまたお知らせします。

358 :ごめんなさい27:04/08/05 22:27
>2
打つのに予想を遥かに越えた時間が掛かり、〇の最初から0−‖(エ)の直前まで
やっとファイル化しました。文字化けの可能性もあるので、一応送って見たいのですが、
方法が良く分かりません。空のデータが指定のページに添付されてしまいました。
ファイルの送付方法(メルアドへは添付出来るのですが)もう少し、詳しく教えて
いただくか、indicationの載っている場所を教えて下さい。
いろいろ手間を掛けてすみませんが、宜しくお願いします。
残りの部分は、早さを重んじて、皆さんでやって頂いても構いません。


359 :ごめんなさい27:04/08/05 22:29
PS 他の方のファイル、こちらからは文字化けして読めない状態です。

360 :2:04/08/05 22:49
>>358
(1)ページ上部の「添付」を押します。
(2)ファイル名称を入力するページに移りますので、ファイル名入力エリアの
   すぐ右のボタン「参照」を押します。
(3)そうするとあなたのPCのディレクトリのどこかが表示されますので、
   アップロードしようとしているファイルがあるディレクトリに移り、
   そのファイルを選択して、「開く」ボタンを押します。
(4)ファイル名入力エリアにファイル名が入っていることを確認して
   ボタン「アップロード」を押します。

以上の手続きで、アップロードができるはずです。

361 :2:04/08/05 22:52
>>359
どのファイルを見ていますでしょうか?
.zip の拡張子のあるファイルは、まず解凍が必要になります。
.txt は、それぞれのファイルのエンコード方式 UTF-16 または UTF-8N により
適切にソフトウエアに読み込むことが必要になります。word や netscape, Internet Explorer に
読み込ませれば、それらは自動判別して読み込んでくれると思います。

362 :2:04/08/05 22:53
>>357
> wikiroomが手狭になったんでxrea申し込んで置きました。
> そのうち使えるようになるそうです。

いつもどうもすみません。お世話になります。

ところで、これらは無料なんでしょうか? それとも。

363 :2:04/08/05 22:55
>>362
http://www.xrea.com/
これかぁ。無料なんですね。いったいどんなビジネスモデルになってるのか。
不思議だ。

364 :2:04/08/05 23:34
>>358
>残りの部分は、早さを重んじて、皆さんでやって頂いても構いません。

せっかく語を抽出していただいたのですから待つことにします。
ただ、かなり負荷が高いようでしたらご好意に甘えるわけにはいかないので
こちらで入力してもと思いました。

365 :ごめんなさい27:04/08/06 00:32
>2
とりあえず、HangulDocument1.uwの名称でアップロードしました。
読めるかどうかcheckして見て下さい。

.zipファイルは読めましたが、.txtファイルが駄目です。
UTF−16やUTF−8Nが装備されてないのかもしれません。
後日研究します。
おやすみなさい。

366 :2:04/08/06 00:52
>>365
global writer のファイル形式ですね。残念ながら、こちらにそのソフトが
ないため読むことができません。リッチ・テキスト (rtf) 形式で書き出して
アップロードしていただけないでしょうか? それでしたら読めると思います。

367 :2:04/08/06 00:57
【韓国語辞書開発プロジェクト1(1000〜2000語でよいから)】も
終わりに近づいたので、成果の配布用に説明ファイルを作成し
http://www.wikiroom.com/slo2/?FrontPage
に readmeSample.txt というファイル名でアップロードしました。関係者は
チェックしてください。

368 :hyam:04/08/06 01:24
>チェックしてください。
お疲れ様です。私は問題ありません。
しいて上げれば、 Contributors かな。 :-)

369 :2:04/08/06 01:34
> しいて上げれば、 Contributors かな。 :-)

まあ? 綴りを間違ってましたか。はずかしい。
手元のものはなおしておきました。

370 :ごめんなさい27:04/08/07 00:37
>2
読めませんでしたか・・・Unicode形式だし、もしかしたらと思ったのですが。

「リッチテキスト」って市販で何万もするソフトのことですか?
そんなの持ってないし、とても買えません(TT)
どこかにフリーソフトあるのでしょうか?

今自分の頭で考える気力がありません。
「終わりに近づいた」とか書かれてしまっているのに・・・
迷惑をお掛けしています。(私も困っています)

おやすみなさい。




371 :名無しさん@3周年:04/08/07 00:42
リッチテキスト (拡張子 .rtf) はテキストファイル (同 .txt) や
HTML ファイル (同 .html) と同じファイル形式の名前だよ。
ワープロソフトは「別名で保存」する画面の中で保存ファイル形式として
リッチテキストを選べることが多い。

372 :2:04/08/07 02:19
>>370
27さんがアップロードしたファイルの中にglobal writerという文字列が
入っていましたので、たぶん、27さんが使われているソフトはglobal writer
なのでしょう。このソフトを持ってないので、想像ですが、ファイル
メニューあたりに、「名前を付けてセーブ」するのようなメニューがあって、
そこでファイル形式が選べるんじゃないでしょうか? そのメニューで
セーブするときリッチ・テキスト (rtf) を選べれば、私のところのwordで
読めるので、こちらでunicodeのtextファイルに変換してアップロードします。

373 :英単語の語源スレの501:04/08/07 02:35
うおー、ごめん、むちゃくちゃ忙しくて今週中のうぷは厳しいっす。
月曜あたり時間できるだろうから、しばしお待ちを…

374 :ごめんなさい27:04/08/07 09:13
>2
Save as(名前を付けて保存)の中に、.rtfの選択肢がありません・・・
.txtを選ぶと文字化けしてしまいます。(ちょうどこちらからサイトの
.txtファイルを見ているのと同じ状態です)
各文字のunicodeは表示させる事が出来るので、最悪の場合・・・
((('')))ガクガクブルブル

375 :ごめんなさい27:04/08/07 09:20
PS 使っているのは、仰る通り、Unitype Global Writerです。

376 :2:04/08/07 09:23
>>373
>月曜あたり時間できるだろうから、しばしお待ちを…
あっと、どうも。よろしくお願いします。お仕事、お勉強が大切なので
無理はしないでください。

377 :2:04/08/07 09:35
>>374
global writer に .txt の出力があるなら、試しにその結果をアップロードして
みてもらえます? そちらで化けていても、他のファイルと同様にこちらでは
見えるかもしれません。

378 :2:04/08/07 18:41
最初のプロジェクトが終わるまでの時間用の雑談です。

単語集を作っていると色々な単語を見ていきますので、何らかの共通性に
気が付くことがあります。「もしかしたら、これはあれからの派生語かな?」
とか。関連して、韓国語の語源学(etymology)に関して短い文書を見つけた
ので書いておきます。これは、
 사람(人)、 살다(住む)、살(肉)、삶(暮らし)、사르다(燃やす)、사랑(愛)
などが関係しているというお話です。本当かどうかは分かりませんが。

The Human Being in Korean Etymology – an Anthropological Note
http://www.hottopos.com/videtur13/hae.htm

379 :2:04/08/07 19:31
で、辞書を見てみると下記くらいのものは関連させて覚えられます。私は韓国語は、挨拶くらいしか
できないので文法知識がしっかりした人、本当のところを教えてくれると嬉しいです。

살다(salta) :「生きる」です。-다 は動詞の原型をあらわしているだけなので本質的な部分は살(sal)でしょうね。
사람(salam):この名詞形です。暮らしているもの。すなわち「人」。通常、名詞化は –음(-um)を付けるような気がするので、
       正確には違うのでしょう。-um をつけて名詞化するのはどこぞ西洋の言葉に似てますね。-am は、暮らす主体の名詞形かな?
살림(sallim):「暮らし」。こちらが살다(salta)の正当な名詞形でしょうね。
삶(salm):同上「暮らし」。살다(salta)の名詞形。-m で名詞化。これは上の省略なのか?
       それともこちらが正当な名詞化なのか?
살 (sal):「肉」です。生きているものが身に付けている肉でしょうか? それとも生きていくために
       食べる肉なのでしょうか? 「筋肉」という意味もあるので力を出すイメージでしょうね。
살려주다(sallyo-cuta):살려(暮らすのを) + 주다(あげる)= 暮らさせてあげる=助けてやる、生かしてやる
살코기(salkhoki):살(肉) + 코기(肉) = 「赤みの肉」
(↓に続く)

380 :2:04/08/07 19:32
(↑から続く)
사르다(saluta):「燃やす」。これは本当に살다(salta)と関係あるかどうか分かりませんが、せっかくあの著者が
       関係あると言ってんですから、ここで覚えましょうか。形的には살(sal) +으(u 使役)+ 다(ta 動詞)なんで、
       「살(sal)させる」んですね。本当に関係があるとしたら살(sal)の原義はなんだろう?
삶다(salmta):「煮る」。사르다(saluta)が「燃やす」なんで、mを「水(mul)」と関係つけて強引に覚えてしまいましょう。
사랑(salang):「愛」。これも関係するかどうか分からないけど、「人」には愛が必要だし、
       形も似ているので、ここで覚えましょう。-ng の音は、もともと韓国語にあったんですかね?
       漢字には多いのですが。「もともと」という意味も「韓国語」という言葉も相当あいまいですが。
쌀(ssal):「おコメ」。最初の子音が違うので関係するかどうかはかなり疑わしいですが、
       これも「暮らし」に必要だし、形も似ているのでここで覚えますか。気分的には、
       さらに술(swul)お酒 も入れたいですが、かなり発散するので止めましょう。

381 :2:04/08/07 19:51
(↑に続く)
で、살(sal)には、「살살(salsal)=音を立てないようにひっそりあるく」に代表される、
もうひとつまったく離れた意味の語群があるのですが、こちらはオノマトペですかね。

살그머니:そっと、こっそり
살라하다:薄ら寒い
살래사래:いやいやをする様(これは関係ないかも)
살며시:こっそり
살얼음:薄氷。살 + 얼음(氷)
살살:そろそろ。繰り返し。
살짝:こっそりと。살(こっそり) + 짝(副詞化語尾)
살무사:まむし。살(こっそり) + 무사 (무섭다が「怖い」なので
    怖さに多少でも関係ある?)

以上、単なる想像なので、単語を覚えるための方便と考えてください。

382 :ごめんなさい27:04/08/07 23:44
>2
とりあえずHangulDocument〇1.txtをアップロードしておきましたが・・・
別の入力法を教えてもらって打ち直した方が早いかも(지치지만)←掲示板からコピペ
(ci chi ci man)

結果が報告されるまでの雑談   
-ㅁ(-m)は母音語幹・ㄹ(riul)語幹につく語尾で、子音語幹の時は–음(-um)がつきます。
살다(salda)の語幹(ㄹ語幹)に-ㅁ(-m)がついたのが삶(salm)、
살다の語幹にある種の動詞(詳細略)について使役または受身の動詞を作る-리(-ri)
がついてできた使役動詞살리다(sallida;生かす、生きる様にする、養う、食わすetc)
の語幹(母音語幹)に-ㅁがついたのが살림(sallim)です。
쌀(s?al)に関しては、濃音が、昔は語頭の2重子音(2つの異なった子音が連続して
いた)だったのが変化して発生したものなので、昔の形に遡らないと、語源は推測
出来ないと思います。

unicodeに化けると思いますが、読めますか?



383 :ごめんなさい27:04/08/07 23:45
あれ、化けなかった。分からない・・・

384 :ごめんなさい27:04/08/07 23:58
PS 最悪の場合、プロスギという方法でこの2chから打ち直す方法もあります
が・・・
おやすみなさい。

385 :2:04/08/08 10:00
27さんがアウウロードしたHangulDocument〇1.txtですが
全然化けてないですよ。きれいにUTF16でエンコードされているので
Netscape Navigator や Internet Explorer などのブラウザにドラッグ
アンドドロップしてみれば見えると思います。ただ、ファイル名に「〇」が
含まれているせいか、ダウンロードするときにファイル名が正しく
「HangulDocument〇1.txt」にならないようです。所謂、英数半角だけ使った
ファイル名にしてみたらうまくいくと思います。

もし、そのファイルを編集したいときは、無料のものでは、windows 添えつけの
「ワードパッド」に読み込ませればよいと思います。適当な入力手段があれば
ですが(フリーウエアでは「かささぎ」などのハングル入力ソフトがある)。

386 :2:04/08/08 10:08
>>382
>살다の語幹にある種の動詞(詳細略)について使役または受身の動詞を作る-리(-ri)
>がついてできた使役動詞살리다(sallida;生かす、生きる様にする、養う、食わすetc)
>の語幹(母音語幹)に-ㅁがついたのが살림(sallim)です。

本当だ。確かにsallidaの名詞形ですね。すみません。
だから(?)、やはり salam が salda と関係しているとしたら
-am あるいは -a-m が何かをきちんと説明つけないといけないんですね。

387 :199:04/08/08 18:21
>>357
アカウントが取れたんで、pukiwiki を開設して見ました。アドレスは以下の通り。

http://slo2.s76.xrea.com/x/

機能がちゃんと使えるか、またちゃんと広告が表示されるか、
(表示されないと削除されてしまうので)良かったらテストして見てください。

設定は利用規約に従って広告を付けた以外はデフォルトのままですが、
やはり表示コードはunicodeが良いでしょうから、変えられるようなら変えて見ます。
そういう訳ですので、このページは当面テスト用という事にしておいて下さい。

(因みに広告はページのソースを見れば判る通り、提供された文字列を
<body>直下に<center></center>で挟んで入れただけ。
もっと工夫しないと見られないブラウザとかあるかも。)

序に PDIC Dictionary Server (http://homepage3.nifty.com/TaN/pdic-wwl.html)も試して見たいですね。
規約どおり広告が表示され、PDIC使わなくともブラウザで操作出来るように改造出来る神が降臨したりしないものかな?
wiki のモジュールとして辞書の追加等がユーザの手で出来たりしたら最高なんだけど。

388 :2:04/08/08 23:02
>>387
どうもありがとうございます。
http://slo2.s76.xrea.com/x/
この .../x/の下がそのまま使えるんですか? むしろ、slo2.s76 の部分が
サイトの名前に当たるんでしょうか(申し込んだ人毎の)?

今度は何メガくらい使えるんでしょうか?

あとサイトの構成ですが、一番簡単なのは http://www.wikiroom.com/slo2/ から
そっくり持ってくることですが、やはり手詰まりにならないように構成を考えた方が
良いでしょうね。
何から始めたらよいのか分かりませんが、そのサイトでやる仕事やサービスの
スコープを話し合ったらよいのでしょうか? 例えば、

 ・このサイトは、色々な言語に対する単語集作成(or 辞書作成 or 言語学習支援マテリアル作成、...)の
  作成、配布、保守の活動を支援する。
 ・このような活動の例としては
   ●相互扶助的なデータの作成、検査、修正
   ●参考となるURL集の作成(辞書公開サイト、ツール提供サイト、...)
   ●配布におけるデータ取り扱い規則の作成
   ●このような活動を行うための相互コミュニケーション
   ...
  がある。
みたいにやりたいことを議論、列挙、構造化しておくと、最初の構成が
決まるのかもしれませんね。

389 :2:04/08/09 01:27
↑なんとなく口火を切ってしまいましたが、199さんがやったほうが
よいと思います。私は全体の中で、とりあえず、
  【韓国語辞書開発プロジェクト1(1000〜2000語でよいから)】
の成果登録の立場でボトムアップに意見を言ったほうがよいと思いますので。

390 :ごめんなさい27:04/08/09 02:55
>2
いろいろあって、1日伏せってました。スレッド見るの遅くなって済みません。
ファイル読める状態で届きましたか。これで一安心・・・してる場合じゃない!
無駄に終わるかなと思ってた事もあり、入力作業進めていませんでした。
ごめんなさい。とりあえず早急に、에 〜 으の直前分のファイル作ります。
病気中にスレッド上で進展していた状況と、連動していないので、書式等に不備の
ある、ご覧の通りの不出来なデータですが、お許し下さい。
1個単語の入力忘れに気付きました。次のファイルの冒頭に入れる予定です。

사람の語源については、남(他人)も視野に入れて考えるべきかと思います。
まあ、사람から사が脱落すれば、自動的にㄹ→ㄴと変化して남となるわけですが、
람に사(私)がついた可能性もあるかも知れません。

今、手元に資料が無いので、正確な事は思い出せませんが、接続語尾中の으の
発音はかつては複数あって、ある場合には[∧]と読まれた様です。
これは[a]に合流したはずです。単語集の方が終わったら、調べてみます。

-ngの音は昔からKoreanにあったはずです。現代北京語では消滅した入声(パッチム
に当たる)-p-t-kとそれに対応する鼻音-m-n-ngがKoreanの漢字語では保存
されていますから。(日本語でも部分的に)
十/sip/しふ 八/phal/はち(一・七も同様) 約/jak/やく
三/sam/さん 案/an/あん  陽/jaη/よう
-tだけがㄷでなくㄹで保存されています。何故なのでしょう?

安寧!


        
   

391 :ごめんなさい27:04/08/09 23:03
>2
에 〜 으の直前分のファイル、
HangulDocument2_words_starting_with_a_vowel.txtの名称でアップロードして
おきました。ダウンロードしてInternet Explorerで読めたので、大丈夫だと思い
ます。

昨日の例、どうせなら全部数詞に統一すればよかったかな。
約→六/juk/;(北朝鮮では)/rjuk/ろく(億も同じ;rは元々ないけど)
案→萬/ma:n/まん(千も同じ)
陽→零/j⊃η/(語等の/r/は六と同様脱落)

>-tだけがㄷでなくㄹで保存されています。
このことについては、夕べ1つの仮説を思いつきましたが、事実関係の確認を
してみたいです。
朝鮮語の語源辞典、欲しくなりました。

送ったファイルの最後から3番目の単語みたいな結果にならないよう努めます。
安寧!

392 :2:04/08/10 00:31
>>391
에 〜 으の直前分のファイル、どうもありがとうございます。
xyzzy というテキストエディタでは読めませんでしたが、word でも
Netscape Navigator でも読めましたので、こちらで形を整えるときに
適当にコードを合わせておきます。

> 朝鮮語の語源辞典、欲しくなりました。

欲しいんですけどね。あるのやら、無いのやら、素人にはよくわかりません。
あったとしても、高いだろうし、XXXXかもしれないし。この間、近くの
図書館で見たのはすごくサイズが大きな辞書で、語源のところにR.A.Miller の
(仮)説が載ってたりして、どのくらいの確度で信じてよいのやら、素人には
分かりませんでした。

393 :名無しさん@3周年:04/08/10 00:41
>>387のページ、下記のページをを参考にユニコード化してみました。
http://pukiwiki.sourceforge.jp/dev/index.php?PukiWiki%2F1.4%2FUTF-8%B2%BD

下が新たなURLです。(前のページは削除してしまいました。)
http://slo2.s76.xrea.com/x/wiki/

↓こちらはテストしてみた結果。
http://slo2.s76.xrea.com/x/wiki/index.php?Test

>>388
容量は50Mです。前のが5Mで3週間だったから、次は3ヶ月持たせる事を目標にしたいです。w
まあ今回みたいに容量オーバーしそうなプロジェクトを始める度に言いだしっぺがwebスペースを確保して、
本館から蛸足配線する事にすれば今後は特に容量不足に陥る事もないんじゃないかな。

394 :英単語の語源スレの501:04/08/10 04:50
すまん、漏れ、かなり重度のパソ音痴で、ネットとワープロ以外はさっぱりなんだ。
英語板のリンク行ってはみたんだけど、、、何がなにやら。。。

なので、2さん、出来れば向こうのスレの俺が晒したメアドに
メールくれると非常に助かります。
そしたら俺のファイルを丸ごと添付して送ります。

…無知ですまそ。

395 :英単語の語源スレの501:04/08/10 04:54

こっちにも書いときます。

ts-unko@mail.goo.ne.jp

396 :ごめんなさい27:04/08/11 00:11
>2
으から〇の項最後までのファイル、
HangulDocument3_words_starting_with_a_vowel.txtの名sで添付して置きました。
当初は、漢字語は極力排除する方針でしたが、結果的には幾らか入ってしまいました。
それらの語に漢字表記を付け忘れた事、本当に済みません。(心残りです。)
入ってしまった漢字語、ないし漢字を含む単語は、漢字から意味を推測出来ない、
或いは推測し辛いと思われた語がほとんどですが、選択には恣意性が残りました。
漢字語についての追記は後日しても良いと思っています。
オノマトペについては、1つのオノマトペに複数の意味があったり、逆に同じ意味の
オノマトペが多数あったり、と混乱した状況なので、少数を含めるに留まりました。

固有語を集めた単語集というのは、言語学的には意味があるし(私にはそこが大事なの
ですが)、漢字語を他で体系的に覚えて(kr_han_20040803.zipの製作者の方に感謝)
その補足として用いるには効果的だと思います。ただ、記憶してない漢字語に音声や
ハングル文字で出会った場合、その裏の漢字を推察出来るかは、かなり怪しいと作業
をしていて思いました。(ネイティヴが親の名前を漢字では書けない状況ですからね。)

あと、今頃気付いたのですが、見出し語に発音記号を付けなかったのは大失敗だった
かな、と思っています。
例えば今日のファイルには入っていません(漢字語なので)が、
0| 0| 0|
ㄹ ㄹ
という語があります。見ての通り「いちいち(と)」と言う副詞です。
しかし発音が/i:lliri/だとすぐ分かるでしょうか。
これらは母音始まりの漢字語で主に起こる現象ではあるのですが。

사랑の語源、何だろう?日本語には漢字語しかないのは何故なのかな。

                 TVハングル講座を見終えて  27


397 :2:04/08/11 08:23
>>396
〇の項最後までのファイルを確認しました。どうもありがとうございました。
では、全部をまとめるのは私の仕事ですね。PDIC にかかる形式でまとめることにします。

> 当初は、漢字語は極力排除する方針でしたが、結果的には幾らか入ってしまいました。

私も漢字語を排除する予定だったのですが、途中からかなりの率で入ってしまいました。
だから学習用の単語リストを作るときはもう一度厳選の作業が要りそうです。

> ただ、記憶してない漢字語に音声や
> ハングル文字で出会った場合、その裏の漢字を推察出来るかは、かなり怪しいと作業

まあそうですね。ものによっては最初から推察できるものもあるでしょうが、
大部分はあらかじめどこかで見て知ってないと難しいですね。また、会話で
すぐ反応できるようになるためにはやはりそれなりの練習が要りますね。
ただ、固有語の方は、知らなければまったく推察が不可能な訳で、そのいみで
二つの間には差がありますね。

> 사랑の語源、何だろう?日本語には漢字語しかないのは何故なのかな。

動詞が사랑 하다 なので外来語かもしれませんね。

最後に、今回はお疲れ様でした。


398 :ごめんなさい27:04/08/11 13:25
確かに、入力でこんな疲れるとは予想外でした。
ITliteracyに重大な問題がある事を再確認。

2さんの呼びかけで最初に手を挙げたのに、ゴタゴタしたり、病気で倒れて音信不通
になったり、挙句に拙いデータを提出するのも最後になってしまって、2さんはじめ
関係者の方々に気をもませる結果となり、すみませんでした。m(_ _)m

まだfirst stepですね。データの整理等、負担をかけて恐縮です。

いい協力者の方々が得られて良かったですね。
新しい方法論とか副産物も生まれたし。
ロシア語のデータとかは是非利用してみたいです。

まだ疲れが残っているので、これで失礼します。An nyeong!



399 :2:04/08/11 22:49
皆さまのおかげで、
  【韓国語辞書開発プロジェクト1(1000〜2000語でよいから)】
にて、当初予定していた単語集の全項目が集まりました。
全見出しをあわせたファイルを http://www.wikiroom.com/slo2/
kj2000test0001.zip という名前で登録しました。不備などあればお知らせください。

尚、数名、PDDにすることにご返事をいただいていない方がいることと、
いま、マージしたばかりで不備が沢山発見される可能性があるので、
このバージョンは、一切、再配布禁止としています。
データ作成者の方々の了解がとれたところで、PDD 用の readme.txt と
置き換えたいと思います。

400 :2:04/08/11 22:53
で、次の方々がまだ PDD にすることに正式にはご返事いただいていないと思います。
http://www.wikiroom.com/slo2/ に登録してある readmeSample.txt に記述した
扱いにしたいので、是非、ご了承お願いします(一応、お返事、お願いします)。
  27番さん
  128番さん
  あッさん

401 :名無しさん@3周年:04/08/11 23:43
PDIC Dictionary Server Projectのページにある
サンプルプログラムをアップしてみました。

http://slo2.s76.xrea.com/inetdic/inetdic.xml

idlib.pl の「dbmopen( %Info, $Info, $DBMode ) or return 0;」以下を
「tie( %Info, DB_File, $Info , O_RDWR | O_CREAT, $DBmode, $DB_HASH ) or return 0;」の形に
変更した以外は特に手を加えていません。

また、下はブラウザ用にサンプルプログラムを呼び出すCGI。

http://slo2.s76.xrea.com/inetdic/index.cgi

どちらも全然テストしてないけど、取りあえずCGIKスクリプトの方、wiki本館にアップしておきます。


402 :hyam:04/08/12 01:29
>>399
>  【韓国語辞書開発プロジェクト1(1000〜2000語でよいから)】
>にて、当初予定していた単語集の全項目が集まりました。
お疲れ様です。2000語は超えましたね。

>>401
> http://slo2.s76.xrea.com/inetdic/index.cgi
使ってみました。
裏のデータがどうなっているかわかっていないのですが
問題なく動いているように思います。
いろいろと使いでがありそうなシステムです。


403 :あッ:04/08/12 23:05
久しぶりに来てみました
どう進捗しているのかPCに詳しくないものでよくわからないんですが
ひと段落着いたようで、お疲れ様でした
>>400
はい(よくわかりませんが)了承いたします

404 :2:04/08/12 23:47
>>403
お久しぶりです。おかげさまで、全項目完成しました。
http://www.wikiroom.com/slo2/?plugin=attach&openfile=kj2000test0001.zip&refer=FrontPage
に、あッさんの提供していただいた単語も含めて、約2500個の見出しの
韓国語単語集があります。それで、このデータは「誰がどう使おうと良いですよ」という形で、
公開したいと思いますので、官僚的でいやなんですが、できれば

> はい(よくわかりませんが)了承いたします

この部分の「よくわかりませんが」の部分ヌキでお願いします(不愉快な
思いをさせて申し訳ありませんが)。

405 :名無しさん@3周年:04/08/13 01:07
>>402
確かにこれでは何が入力されたのか入力した本人しか判らない。orz
そんな訳で更新記録を付けました。

データそのものは Berkeley DB という DBMファイルで保管してます。
デフォルトのままだと perl標準で文字数制限のあるSDBMになってるみたいなんで変更してみました。
win上でも perl があれば DB_File というモジュールをインストールする事で普通に読み取れるようです。
(↓こんな感じ? なんか実行したらキムチとカタクチイワシが出てきたんですけど、合ってます?)

#!c:/perl/bin/perl
use DB_File;
tie( %Dic, DB_File, 'dic' , O_RDWR | O_CREAT, 0777, $DB_HASH ) or return 0;
open(DIC,">dic.txt");
while(($key,$value) = each %Dic){
($id,$trans,$ex,$pron,$level,$recdate,$update,$who) = split(/\a/,$value);
print DIC "$key /// $value\n";
# print DIC "$key /// $trans / $ex\n";
}
untie %Dic;
close DIC;
exit 0;

参考:
(perl での)大規模データの取扱い
http://www.lr.pi.titech.ac.jp/~abekawa/perl/perl_bigdata.html

YukiWiki でのデータベースの選び方(DB_File 導入法)
http://www9.ocn.ne.jp/~ymt/wiki/ykwkdbm.html

406 :2:04/08/13 08:50
以前( >>311-312 ) 、英語板のスレ 語源で単語を覚える!!で語根の一覧表を
公開してよい人がいると言ってたのですが、完成したということなので、
http://www.wikiroom.com/slo2/ の物置に ETYMOLOGY001.lzh というファイル名で
アップロードしました。直接のURLは以下のとおりです。
http://www.wikiroom.com/slo2/?plugin=attach&openfile=ETYMOLOGY001.lzh&refer=FrontPage

英語板への語源スレへのアナウンスは、作者の方でお願いします。

407 :名無しさん@3周年:04/08/14 01:20
どうもローカル(winXP&perl5.8)で作った辞書がホストでアクセス出来ないんで
PDICサーバーの辞書形式をGDBMに変更しました。

それから亀レスですが、
>>349-350の分のデータを反映したものをアップしておきました。
http://www.wikiroom.com/slo2/?plugin=attach&openfile=cjk2ch_20040802.zip&refer=FrontPage
調べてくれた方、どうもありがとう御座います。


おまけ: GDBMのActive Perl5.8用のモジュールの導入法
http://snowfox.zive.net/cgi-bin/mt/archives/2004_05.html より引用
------------------------------------------------------------------------------
鈴木紀夫氏のサイト(欄外参照)のpackagesから5.8対応のファイルをダウンロードします。
GDBM_File.ppd(ダウンロード後に拡張子変更)とX86のリンクの中にあるGDBM_File.tar.gzをダウンロードします。

5.これをフォルダにまとめます。

ここではC:\tempとします。GDBM_Files.ppdを入れます。さらに中にX86というフォルダをつくりこの中にGDBM_File.tar.gzに入れます。
6.コマンドプロンプトを起動します。

cd C:\temp
ppm install GDBM_File.ppd とタイプします。
------------------------------------------------------------------------------

Modules for jperl and perl(鈴木紀夫氏のサイト)
http://homepage2.nifty.com/kipp/perl/modules.html


408 :英単語の語源スレの501:04/08/14 03:41
>>406
ありがとう。
英語板に貼きますたよ。

409 :名無しさん@3周年:04/08/14 12:47
DELEのInicial
2回連続して不合格。Expresion oral
が前回70%とってたのが5月のは55%に点が
激減。他のパートは基準点を余裕で満たしてるのに。
なんか馬鹿馬鹿しくなってきた。

410 :hyam:04/08/14 23:23
>>405
>なんか実行したらキムチとカタクチイワシが出てきたんですけど、合ってます?
はい。 (^^;


411 :2:04/08/15 13:05
【韓国語辞書開発プロジェクト1(1000〜2000語でよいから)】の
単語集 kj2000test0002.zip にざっと目を通して、簡単に漢字語と分かるものは
その表記を入れました。音を写した外来語(日本のカタカナ語)もそうしました。
バージョンを 0003 にして、readme.txt に変更履歴を加えました。
http://www.wikiroom.com/slo2/

ところで、version 00.01 から 00.02 にしたのは誰でしょう。
どこが変わったか認識しておきたいので。正確でなくても良いですよ。
「見直して、数個の誤りを修正」くらいでも。

412 :2:04/08/15 13:12
ところで、だれかユニコード対応の grep みたいなもの知りませんか?
例えば、今の kj2000 から[ を含む行を取り去って、固有語の比率が高い
単語集を作ったりできると思いますので。

413 :ごぶさた27:04/08/16 01:53
>2
また寝込んでました。返事遅くなりましたが、
>>400の件全然OKです。
説明を受けてからデータを送ったので、了承の意志が伝わっているかと思って、
忘れていました。丁寧に確認の打診を頂き、恐れ入ります。
自分の送った分が全体と不釣合いではと心配です。
〇の部から削除すべき漢字語データ送りましょうか?


414 :2:04/08/16 02:34
>>413
> >>400の件全然OKです。

ご了承、どうもありがとうございました。

> 自分の送った分が全体と不釣合いではと心配です。

私がやったもののうち、後のほうは、漢字語をほとんど削除していないので、
私自身は不釣合いはすでに気にすることができない状態です。取り去るより
漢字語を明示して、その気になれば自動的に取り去れるようにしたほうが
良いかなと思っています。「付託」などの日常会話に重要な漢字語もありますし。
ところで、27さんのやった、〇の部もざっと眺めましたが、圧倒的に
固有語の比率が高いと思います。私の最初のお願いの通りやっていただいたんだと
思いました。

> 〇の部から削除すべき漢字語データ送りましょうか?
もし、それらの漢字が分かるなら、それを[XXX]の形で入れても良いと思いますが、
別に、特に取り除くべきものは無かったように思います。

415 :名無しさん@3周年:04/08/17 22:02
xdict(漢英辞典 158152語)のPDIC版を下のページを参考に>>328のstardictの辞書から作って見ました。
ファイルが大きい(約3M)ので、新館の方にアップしてあります。

http://d.hatena.ne.jp/xucker/20040719
http://www-lce.eng.cam.ac.uk/~acnt2/code/stardict-jmdict/jm2stardict.py

書かれている通り、どうやらインデックス(.idx)ファイルは

「見出し」 + \x00 + 「四バイト整数で辞書ファイルのオフセット位置」 + 「同データ長」

となるのが基本らしいのですが、どうもこの規則に従わないものがあって、
朗道漢英辞典(395426語)の方は残念ながら上手く変換出来ませんでした。

xdictの方はkr_han.txtを利用してハングルの読みを付けています。
ハングルに「+」「?」「*」が付いているのはこの順で読みの方の怪しさが増すという意味です。
それから、>>351の方も一応チェックしてみました。亀レスですが、情報感謝です。


ハングル付き xdict
http://slo2.s76.xrea.com/index.php?plugin=attach&pcmd=open&file=xdict-ce-kr_20040817.zip&refer=FrontPage

416 :名無しさん@3周年:04/08/17 22:30
>>411
済みません、犯人は私です。

以下修正事項。(1215-1216行)

쓰다 にがい
/// 쓰다듬다 /// なでる



쓰다 /// にがい
쓰다듬다 /// なでる


>>412
"^.*\[.*\n" → "" の置換で良いかと。

417 :2:04/08/18 00:19
>>416
> 済みません、犯人は私です。
いえいえ、修正どうもありがとうございます。
テストバージョンでの変更履歴はそれほどとっておかなくても良いようには思うのですが、
大まかには何が変わったか把握しておきたくて。

> "^.*\[.*\n" → "" の置換で良いかと。
これは正規表現での置換ですよね? すみません。これを受け付ける
unicode 対応のソフトとしてはどんなものがあるでしょう? 基本的な
質問ですみません。

エディタの xyzzy でも、正規表現の置換ができるんですが(M-X replace-regexp)、
最後の \n はうまくマッチしてくれなくて、代わりに行末の$を使うと、
空行が残っていくので、すみませんが、フリーウエアでインストールなどが
容易なものがあったらご紹介いただけないでしょうか?

418 :hyam:04/08/18 00:51
>これは正規表現での置換ですよね? すみません。これを受け付ける
>unicode 対応のソフトとしてはどんなものがあるでしょう?
使い方が容易か?と言われると迷うのですが
Perl5.8がお薦めかなぁ。
いくつかwikiにあがっているスクリプトはperl5.8対応のようですから
WindowsマシンならActivePerlの5.8入れても
損はないかと。
で、[漢字]含み行を除くスクリプトはきっと名無し(416)さんが
ちゃっちゃっと書いて下さるに違いない。 (^^;;

419 :名無しさん@3周年:04/08/18 05:31
>>418
バージョンにもよるかも知れないけれど、xyzzyなら
置換する時、エスケープシーケンスを理解汁!
にチェックすれば「\n」が使えるんじゃないかな?


420 :419:04/08/18 05:33
418 → 417

421 :2:04/08/18 10:51
>>419

xyzzy の検索メニューに gresreg と grep というのがあって、
「エスケープシーケンスを理解汁!」にチェックいれたら
> "^.*\[.*\n" → "" の置換で良いかと。
がうまくいきました。漢字語や外来語除去が一瞬になりました。
どうもありがとうございます。

422 :2:04/08/18 10:59
27 さん。
母音の項目も全体版に取り入れたので、wikiサイトの方も整理しようと思います。
 HangulDocument3_words_starting_with_a_voyel.txt
 HangulDocument2_words_starting_with_a_vowel.txt
 HangulDocument〇1.txt
 HangulDocument1.uw
も消してよいでしょうか?

423 :名無しさん@3周年:04/08/18 23:02
↓以下のファイルを新館にアップしました。

Mueller7accentGPL_utf8.pdic.zip
http://slo2.s76.xrea.com/index.php?plugin=attach&pcmd=open&file=Mueller7accentGPL_utf8.pdic.zip&refer=FrontPage

cjk2ch_20040818_utf8.pdic.zip
http://slo2.s76.xrea.com/index.php?plugin=attach&pcmd=open&file=cjk2ch_20040818_utf8.pdic.zip&refer=FrontPage


いずれも容量の関係で今まで完全にはアップする事が出来なかったものです。
(本館の方ではMuellerはスクリプトのみ、cjk2chはucs2の範囲のみだった。)

424 :あッ:04/08/20 22:00
>>404
そうですか。
誰がどう使おうとよいですよ。了承いたします。
また何かお手伝いできることがあればぜひ。
たまに覗きに来ます。

425 :名無しさん@3周年:04/08/20 22:33
次のファイルを新館にアップしました。

kjdict_kango_20040820_utf8.pdic.zip kjdict の辞書ファイルを機械的に漢語と固有後に分けたもの
 kjdict_kango.pdic.txt (30167語)
 kjdict_kango_kamo.pdic.txt (2777語)
 kjdict_koyuugo_kamo.pdic.txt (2761語)

kj2ch_kango_20040820_utf8.pdic.zip 上の kjdict_kango.pdic.txt に xdict をマージしたもの
 kj2ch_kango.pdic.txt (168824語)
 kj2ch_kango_tsuika.pdic.txt (11532語)

kjdict の方は訳語に漢字以外が混じったり、
訳語の漢字数とハングルの文字数が合わないものを機械的に固有語「かも」とし、
残りを更に kr_han.txt と照会させて一致したものを漢語、一致しないものを漢語「かも」に分けています。

_kango_kamo での kr_han.txt との不一致は語頭のR音や韓国で使わない略字等の他に、
どちらが正しいのか私には俄かに判別不能なものがほとんどなので、手付かずのままになってます。
また、_koyuugo_kamo の方は当然終助詞付きの漢語が固有語として混じってしまっています。
どちらもまともに分離させるには人海戦術が必要になるかも。

kj2ch の方は上の _kango ファイルに xdict の漢語にハングルを付したものをマージし、
対応するハングルの一部または全部が欠けているものを tsuika として別ファイルにしてあります。

tsuika は要するに使用漢字がksコード、ks補助コードのいずれにも引っかからなかった漢語ですから
日常生活では先ず使いそうにない単語と考えて良いんじゃないかな?

それと本館の方、既に容量一杯なんでファイル類は今後新館の方にアップして貰えると嬉しいです。

426 :2:04/08/20 23:20
>>424
ご了承、どうもありがとうございました。

>また何かお手伝いできることがあればぜひ。
>たまに覗きに来ます。

ええ、是非、また。
私も、そのうち疲れがとれたら、基本表現集でもつくろうかな。
今は、できた単語集を活用して、一生懸命、単語を記憶してます。

427 :2:04/08/20 23:47
>>425
>kjdict_kango_20040820_utf8.pdic.zip kjdict の辞書ファイルを機械的に漢語と固有後に分けたもの

え? どうやって? と思ったら。

>訳語の漢字数とハングルの文字数が合わないものを機械的に固有語「かも」とし、

実は、仕掛けがよくわかってないんですが、kjdict_koyuugo_kamo.pdic.txt (2761語)を
見てみますね。

自分自身もですが、ちょっとやりたいことを整理してみたほうが良いかなと思い始めています。
方向として、
 (1)検索用の大きな辞書(単語集)にする。(2)記述を充実する。(3)学習用の配慮をする。
 (4)別の言語に手を出す。(5)総合的な言語学習支援サイトにする(あそこを)。
 (6)総合的な辞書サイトにする(あそこを)。。。。
などがあるのでしょうか。

>それと本館の方、既に容量一杯なんでファイル類は今後新館の方にアップして貰えると嬉しいです。

はーい。そろそろ新館をきちんとしたほうがよいかもしれませんね。今は「2号館」だし。
しかし、オリンピックが。。。

428 :2:04/08/21 00:11
>>425
kjdict_koyuugo_kamo.pdic.txt (2761語)を見てみました。
最終目的が何かは別にして、単純に固有語の比率を上げるという興味だけで話します。
(1)数字やアルファベットで始まっている単語は全部除去します。
(2)訳がカタカナのものは除去します(まれに固有語で日本語訳がないので
   カタカナのものがあるかもしれませんが、あっても数個でしょう。)
(3)「공연 /// こうえん/公演」 これは漢字語なんですが「/」の左右は
   どうやって作ったものなんでしょう?
(4)「고통스럽다 /// くつうだ/苦痛だ」 「苦痛」は「고통」で
   「스럽다」は形容詞の接尾なので、「스럽다」を取り去って漢字の読みと
   一致すれば漢字語ですね。「하다」も。これが、425さんが言ってた
> 当然終助詞付きの漢語が固有語として混じってしまっています。
   ですね。

429 :ごぶさた27:04/08/21 00:30
>2
いつも返事が遅れて済みません。
消去して下さって構いません。
>>428
ヒトデ、アヒル、ウルシ等カタカナにしたの、まずかったかな?
徹底的に漢字語を駆逐するなら準拠します。
もっとも上記幾つかの方法でほぼ十全だと思いますが。

まだ本館・2号館とも利用出来ていません。


430 :2:04/08/21 01:36
> ヒトデ、アヒル、ウルシ等カタカナにしたの、まずかったかな?

あっ。思い出した。それだ。

でも、アヒルはアヒルだし。機械処理のために訳を変えるなんて本末転倒だし。

431 :hyam:04/08/21 01:59
>>429
>ヒトデ、アヒル、ウルシ等カタカナにしたの、まずかったかな
kj_dictから固有語を効率的に取り出すか、
という話なので2chの方はそのままでいいんではないでしょうか?
# 最近、よく外すからなぁ... 控えめに。

kj2ch_kango_xxxxの方はいろいろと妄想が
広がります。
・漢字語の簡体字繁体字日本漢字の併記。
・英語をedictに食わせて日本語併記。
などなど。

432 :hyam:04/08/21 02:27
2号館のTipsやlinkが増殖(?)。 すごい。 :-)
「かずお韓国語辞典」のかずおさんとちょっとメールのやりとりを
しました。
ついでに、TaNさんに「かずお韓国語辞典」を紹介。
PDICのリンク「英語以外の辞書」に追加されています。

433 :2:04/08/21 10:33
> 2号館のTipsやlinkが増殖(?)。 すごい。 :-)

本当ですね。でも、実は、私は気が付いてませんでした。
あんな良いものなら2号館のトップのページから目立つ形でリンク
したほうがよいように思います。ちょっと整形してみます。
いやだったら言ってください。

434 :名無しさん@3周年:04/08/21 13:39
>>431
>・漢字語の簡体字繁体字日本漢字の併記。

これは最終的に cjk2ch(unihan.txt) にマージする事で実現出来ないかと。
漢語辞典というよりは親字を見出しとした漢字字典形式になるけれど、
分かち書きのない表意文字の場合、手入力やカット&ペーストを用いて
単語単位での検索を考えるより、その方が便利そうな気がする。
文字単位でシングルクリック検索が出来るソフトはないものかな。


435 :2:04/08/22 12:51
*************************************************************

>>128 さん、韓国語単語集の公開に関してご了承ください。

詳しくは >>399-400 をご参照ください。

*************************************************************

436 :2:04/08/22 12:53
>>435 を、上げ忘れたので、もう一度。

437 :名無しさん@3周年:04/08/23 00:11
>>434
という訳で、やって置きました。

http://slo2.s76.xrea.com/index.php?plugin=attach&pcmd=open&file=cjk2ch_20040822_utf8.pdic.zip&refer=FrontPage

438 :名無しさん@3周年:04/08/23 00:27
>>433
どちらかというと目立たないのが好みなんだけれど。
二号館だし、目立つのは男の改造計画だけで十分かと。

439 :hyam:04/08/25 00:48
ちょっと機械処理を試していて気になったので、(→ *1)
・焼肉の行で///が抜けを入れる。
・「,」と「、」が混在なので後者に統一。
をして本館にkj2000test0004.zipとしてあげてみました。

語を直していないので0004はどうかな、とも思ったので
まずければ消してください。
# 句読点は好みもあるでしょうし。

*1 kj_dictと重複していない部分をkj_dictに取り込む試み。 :-)

440 :2:04/08/25 19:57
>>439
hyam さん、お久しぶり。修正どうもありがとうございます。
こちらも、k, n, t の項目を見直して、100個くらい追加しましたので、
こちらのファイルに hyam さんの変更を施して、kj2000test0005 として
アップロードします。

本当は、128さんの了解を得て、テストバージョンでなくアップロードする
タイミングを狙ってたんですが、やはり、今のバージョンをアップロードしないと
テストバージョンですでにいくつものバージョンができてしまいそうなので。

441 :2:04/08/25 20:10
>>439
勝手ではありますが、旧版 kj2000test0002.zip と kj2000test0004.zip は
消させてください。

442 :2:04/08/25 20:13
繰り返しで申し訳ありませんが、
*************************************************************

>>128 さん、韓国語単語集のPDDとしての公開をご了承ください。

詳しくは >>399-400 をご参照ください。

*************************************************************

443 :名無しさん@3周年:04/08/26 00:52
テスト用辞書(http://slo2.s76.xrea.com/inetdic/)を
パッチファイル(unified 形式)を解するようにしてみました。
サーバーの負荷を抑えるため、一定の行数(200行)を超えると
後のパッチは適用されないようにしてあります。
例によって人柱希望。
kj2000test0002.txt → kj2000test0004.txt のパッチ
http://slo2.s76.xrea.com/index.php?plugin=attach&pcmd=open&file=test_patch.zip&refer=FrontPage
をアップしたので、適当に遊んでみて下さい。

因みに最初の200行の更新記録は↓こんな感じです。
http://slo2.s76.xrea.com/inetdic/update.txt (utf8)


444 :hyam:04/08/26 01:25
>パッチファイル(unified 形式)を解するようにしてみました。
これで一括処理できますね。
すごい。

P.S.
曜日が星期なのはjoke?? :-)

445 :名無しさん@3周年:04/08/26 02:58
>>427
外国語を読みたいだけの人間と外国語を学ぼうという人間とでは
外国語を通して得たいと思うものに恐らく違いがあるのでしょう。
前者が求めるものはぞれぞれの関心分野について
偶々ある国の言葉で書かれた特定分野の情報にあって、
彼らはその言葉の母国やネイティブ使用者自体には本来関心がなく
そもそもその時々の状況で最もコストパフォーマンスの高いやり方で
欲する情報が得られるのであれば、どこの国の言葉を経由して
情報を得ても構わない。辞書とはこの場合一つのITに過ぎず、
データベースを作成する要領で機械的に作られ、利用されるものでしかない。

私の立場もどちらかと言えばこれに近いので、2さんの挙げた1〜6に即して答えるとすれば、

1. 通常の読解に支障を来さぬ位の語数は欲しい。
2.. 大意が掴めれば良いので変に詳しい記述は要らない。
3. 学習する気はないので学習用の配慮は無用。
4. 言語の選択肢は多いに越したことはないが、手広くやるのは面倒。
5. 3に同じで不要
6. ちょっと魅力的かも

ってとこかな。
尤も変にスレの方向性なんて定めなくとも、その時その時で利用できるものを
互いにアトランダムに利用し合えば良いだけだと思ってたんですが、
何か好き勝手な事やって却って混乱させてしまったかも知れませんね。

取り合えず亀レスですがやりたいことを整理せよとの事なので。
これで答えになったでしょうか?


446 :名無しさん@3周年:04/08/26 03:07
>>444
単に数字を曜日に直すのが面倒臭かっただけ。w

447 :名無しさん@3周年:04/08/28 23:40
以下のファイルを2号館にアップしました。

 cjk2ch_20040828_utf8.pdic.zip
 kj2ch_kango_20080828_utf8.pdic.zip
 xcedict_2ch_20040828_utf8.pdic.zip

以上3点は以前のファイルに cedict をマージしたもの。

 engdict2cjk_20080828.zip

上の3点に含まれない単語を engdict から抜き出したもの。

engdict の方は付属語付のものは全て抜き出されてしまっているので、
単語数を17万語中半分弱しか減らせず、かなり鬱なのですが、
取り合えず固有語(非漢語)候補としてアップして置きます。

残りのものは 全て cjk2ch の方にマージ済みなので、
kjdict_kango と併せて来週中には削除しようと思っています。
必要な方はダウンロードの方、お早めに。

今後は漢語中心の共通辞書に日韓(越?)固有の補助辞書を配し
それぞれのターゲットに合わせてデータを相互変換できるような事が
出来るようにして行くと嬉しいかも知れません。(XML化が必要?)

何れにしろスクリプトの切り貼りで対応出来る分は
私のスキルの範囲では大概やり尽くしたようなので、
後は地道にマニュアル入力になるのかな?


448 :447:04/08/28 23:46
追伸

上で使った engdict は以下のサイトで配布しているPDIC版です。

http://www.interq.or.jp/earth/tanpopo/chi/chinesedic/cedictpdic.htm

449 :2:04/08/31 21:40
>>445
ずっとほったらかしですみません。別件で忙しくて、なかなか考える気力が
起きないので。

> 尤も変にスレの方向性なんて定めなくとも、その時その時で利用できるものを

いえ、スレの方向性を決めようということではなくて、興味の対象はwikiサイトの
構造のほうです。将来的に興味が多少広がっても、しばらく構造はいじらないで
済むようにするため、多少広めにトピックスを拾っておいて、それらをカテゴライズして
wikiサイトの構造をきめたらどうかなと思って。
 あのサイトは445さんが申し込んだので基本的には445さんがやりたいことをやったら
よいと思うのですが、でも、いろいろ興味を持った人がやってきて、それぞれが
ある種の活動をやっていて、総体としてものすごく価値のあるコンテンツが溜まってくと
面白いでしょ。

(1)PDICを使って○○語の辞書を作るプロジェクト
   ○○は沢山あるし、企画倒れになるプロジェクトも沢山あって、ゴミが沢山できそう
(2)データ倉庫
   色々な観点のデータがありそう。どんな具合に整理したらよいのかな?
(3)新しい試み
   例えば、なにか思いついたらここで始めて、起動にのったら表に出す。
   でも、この下にカテゴリーを沢山つくったら、表からは何をやってるか
   見えなくなりそう。
(4)(嫌がるかもしれないけど)辞書データ保守用のBBS
(5)データを使って何か面白いことをする場所
(6)データ配信などの規則を議論する場所((3)とどう違うのか?)
(7)FAQ
こんなことをやりつつ分かりやすくかつ長期にわたって構造に手入れしないで
すむサイトにするにはどうすればよいかなって思ってたんです。

考え出すと大変そうなので、当面、今のままでよいのですけど。
長文、スマソ。

450 :2:04/08/31 21:42
単語集つくってくれた

    128さ〜ん、

連絡ください。はやく単語集をPDDで配信したいよー。

詳細は >>442

451 :名無しさん@3周年:04/09/03 21:33
>>425>>428 を参考に少し手を加えてみました。
kj2000も混ぜてあります。(単純に一緒にしてソートしただけ。)
http://slo2.s76.xrea.com/index.php?plugin=attach&openfile=kjdict%2B2000_20040903_utf8.pdic.zip&refer=FrontPage

未だ若干分けきれてないものも見受けられるけれど、
来週中辺りを目処に漢語と非漢語を分別して、cjk2ch の方にマージしようと思います。

その後は

 1. engdict ローカライズ(韓英化&日本語化) (→ cjk2ch の韓国語サブセットの作成)
 2. edict の国語辞典化 (→ 同、日本語サブセットの作成)
 3. 朗道辞典のテキスト(PDIC)化 (→ 同、基本辞書の充実)

辺りを狙ってみようかと。


452 :名無しさん@3周年:04/09/03 21:47
ところでテスト用辞書の方、
webブラウザからの書き込みは取り合えず何とかなっているみたいですが、
PDICからはアクセス出来ているのでしょうか?

私の所ではPDICの方の設定で躓いていて、(辞書共有の設定をしようとするとPDICがフリーズする。)
ちゃんと動いているかどうか実は確認できてなかったりします。
何にしてもそろそろテスト段階から実用化に着手したいと思うのですが。

453 :名無しさん@3周年:04/09/03 22:02
>>449
wiki って奴は公開した瞬間から開設者の手を離れていくものだと思います。
何しろ開設者である管理人とそうでない一般ユーザとの間での権能の差は
実質的には皆無なのですから。

この事は一般ユーザーの側の書き込みに関しても言えます。
書き込んだ瞬間から、その書き込みは書き手の手を離れて
誰もが編集可能な公開のデータとなる訳です。

他人が一生懸命書いたものだろうと気に入らなければ削除されて多いに結構。
そうやって互いに弄くっているうちに何れ収まるところに収まるに相違ありません。(希望的観測?)
そんな訳でやりたい事がありましたらどんどん勝手にページを弄くって下さいまし。


454 :名無しさん@3周年:04/09/03 22:15
>>450 128さんはもうこのスレを見てないと思う。
ていうかこの手の場所で参加者の継続的なアクセスを期待するのは無謀では?
そもそも匿名掲示板で変に厳密な著作権表示を求めても意味はないでしょう。
万一の場合はすぐ削除する。その場合はダウンロードしたり、改変再配布され方も
速やかに当該ファイルを削除されたい、といった旨を明記した上でアップしておき、
後は使用者側の責任で自由に使って貰えばそれでよいのでは?
Stardict の辞書や Mueller 辞書の第24版(第24版は権利関係が不明らしい)も
そういう形式で配布されてるんだけれど。

455 :2:04/09/04 10:09
>>454

そうなんですよね。つくづく、最初にデータの扱いを決めておけばよかったと
思うんですが、あの時はあの時で、どうすればよいかよく分からなかったし。
でも、今は、完全にPDDにするか、GPLが簡単なチョイスとしてあるということが
分かったので、次回からはその点は大丈夫そう(もしそんな機会があればの話ですが。

128 さんも、もしかしたら夏休みでどっかにいってたということも考えられるので、あと
1週間ほど待ってみようと思います。今でも、>>454 の観点では、みなさん、own risk で
なんでもやれる訳ですし。

どうしても連絡がとれなかったら128さんのやった部分は再度こちらで
やり直そうかなと考え始めています。せっかくやってくれた128さんには
悪いと思いますが。

456 :2:04/09/04 10:30
ということで、


  *    **    **
 **   *  *  *  *
  *      *  *  *
  *     *    **
  *    *    *  *
  *   *     *  *
 ***  ****   **  さん


韓国語単語集のPDDとしての公開に関して連絡ください
くわしくは、>>399-400 をご参照ください。
(ずれてないかな?)

457 :2:04/09/04 10:34
ずれてたのでもう一度


  *    **    **
 **   *  * *  *
  *      *  *  *
  *     *    **
  *    *    *  *
  *   *     *  *
 *** ****  **  さん


韓国語単語集のPDDとしての公開に関して連絡ください
くわしくは、>>399-400 をご参照ください。

458 :名無しさん@3周年:04/09/06 22:04
以下のファイルをアップしました。

 kj2ch_20040906_utf8.pdic.zip
 kj2ch_app_20040906_utf8.pdic.zip
 unihan2ch_20040906_utf8.pdic.zip
 jr-edict_20040906_utf8.pdic.zip

kj2ch は今までアップされた韓国語関連のファイルを漢語と非漢語に纏めたもの。
kj2ch_app はそのバク有の補遺です。(バクフィクス用の辞書をその内稼動させる予定。)
unihan2ch は cjk2ch のマイナーチェンジ。CJK だけが漢字を使う訳ではねえべって訳でリネーム。
既に何が何だか分からなくなった方もいるだろうけれど、下の系統図(?)で解るかしら?
(なお、上記以外の韓国語関連ファイルは2号館から全て削除しました。)

 kj2ch_hikango + kjdict+2000_kango ← kjdict + kj2000
 kj2ch_kango + kj2ch_kango_app ← cedict + xdict + kjdict+2000_kango
 unihan2ch ← unihan.txt + kj2ch_kango + kj2ch_kango_app
 kj2ch_hikango_app (+ bug) ← engdict -unihan2ch
 kj2ch(stable) ← kj2ch_kango + kj2ch_hikango
 kj2ch_app(unstable) ← kj2ch_kango_app + kj2ch_hikango_app

jr-edict は和露辞典です。↓で拾ってPDIC化してみました。
http://www.jardic.com/download/download_e.htm

459 :hyam:04/09/07 00:59
>>458
>  kj2ch_hikango
今、改めて見てみると、へんてこな語をいっぱい入れているなぁ... :-)

最近、ちょっと
>>19
> 孤立語じゃなかったら、動詞の活用・名詞形容詞等の屈折も。
> 韓国語の語尾なら、何類であるかも重要だ。
この事を考えています。
活用形を手で入力するのは大変なので、
原形と活用のタイプを与えると様々な活用を自動生成する
スクリプトを(あえて)フルスクラッチで書いています。
ものになるかどうかわからないけど、文法の勉強になって、
なんか楽しんでいます。

460 :hyam:04/09/07 01:10
>>458
あ、細かいことですみませんが、
kj2ch_kango の中にkjdictの漢字語を含んでいるならば
readmeにFreeWnnのCopyrightも入れておいていただけないでしょうか。
kj_dictのsrcの下のhword.uの先頭にCopyrightがあります。m(__)m

461 :名無しさん@3周年:04/09/07 20:58
>>459
素晴らしいですね。正直無駄にファイルが大きくなるから、
訳を付すのは単語の原型のみにして欲しいものだ
と思っていたんで、その手のスクリプトは大歓迎です。
使い方次第で単語の活用形のリンク処理(例えばPDIC形式なら"<→単語の原型>")
なんかも自動で出来るようになるかな?

また、Ispell の辞書が活用語に全て活用形を指示する記号を加え、
活用形を定義した別ファイルを用いて同じような事をやっているから、
完成の暁にはIspell用の韓国語活用形定義ファイルとしても流用できそうです。

>>460
直しておきました。確認されたし。

462 :hyam:04/09/08 00:53
>>461
確認しました。ありがとうございます。

>訳を付すのは単語の原型のみにして欲しいものだ
今、中途半端に活用形や熟語が入っているんですよね。
ここら辺の整理をしなければ。

>使い方次第で単語の活用形のリンク処理
これはやりたいんですが...
・データ上で表現形式。
see also http://hyam.hp.infoseek.co.jp/kj_dict/verb.html
・.NETのFORM上でどうリンクジャンプを実現するかわかっていない。 (^^;;
あたりで悩んでいます。

463 :名無しさん@3周年:04/09/08 21:45
kj2ch_hikango_app のデバッグ用辞書(가 行)を設置しました。
http://slo2.s76.xrea.com/dict/kj2ch_app/

30分程試しに作業して見た結果が下の通り。
http://slo2.s76.xrea.com/dict/kj2ch_app/update.txt

hikanngo と言いつつ実は漢語だらけだったというのが笑えるけど、
どうも韓国語って奴はそういう言葉なのかな。(店も本来[仮家]だそうだし。)


464 :2:04/09/09 00:18
そうか「店」は「仮家」なのか。。。 変なところに感激してたりして。


465 :hyam:04/09/09 00:52
ちょっと話に着いていけていないかも。

> kj2ch_hikango_app のデバッグ用辞書(가 行)を設置しました。
これは、辞書サーバのテスト用に가行のデータを登録された、
という事ですよね。

>>二号館だし、目立つのは男の改造計画だけで十分かと。
「男の改造計画」の意味がいまごろわかった。 :-O

466 :2:04/09/09 22:49
僕はもっとついていけてないかも。

> 「男の改造計画」の意味がいまごろわかった。 :-O
まだ分からない。

ところで明日からちょっと長期に不在になりますので、復帰するのは9月22日
くらいかと思います。それからkj2000 の完全フリー公開の手続きを行います。

これまでに128さんが、ここを覗いてくれて、許可してくれれば嬉しいのですが、
そうでなければ kh と th の項目は代替品でやります。

467 :2:04/09/09 22:50
と、言うことで最後の呼びかけをさせてください。

  *    **    **
 **   *  * *  *
  *      *  *  *
  *     *    **
  *    *    *  *
  *   *     *  *
 *** ****  **  さん


韓国語単語集のPDDとしての公開に関して連絡ください
くわしくは、>>399-400 をご参照ください。


468 :2:04/09/09 22:52
age 忘れ。

469 :名無しさん@3周年:04/09/10 00:48
>>465
テストじゃなくて本番のつもりだったんですが、
どうも拾い物のPDIC用 engdic、切り分けがあまり上手くないんで
自前で再変換してアップし直しました。
それに伴い kj2ch_hikango_app を engdic2kj2ch_app にリネーム。(ちっとも非漢語じゃないんだもの。)
全部で8万単語(活用語尾の違いを除けばもっと減るでしょうけれど)程あるんで
これを用いて語彙を増やそうって訳です。


470 :age:04/09/15 12:15:14
外来語のスレってどこにあるかご存知の方、教えてください。。

471 :2:04/09/20 11:27:45
そろそろkj2000をPDDにしてアップデートする作業をしたいと思います。
結局、128番さんとは連絡が取れませんでしたので、その代わりに
kh と th の項には、例のSFから集めた語を私が処理した語を入れます。
128番さんからこのスレに連絡がありしだい、彼(彼女?)の語をマージすることに
しましょう。配布に関する扱いを最初に決めておかなかった不手際、すみませんでした。

472 :2:04/09/20 11:52:52
韓国語の単語集 kj2000 を正式にPDDとして配布するようにし、

http://www.wikiroom.com/slo2/

にアップロードしました。128番さんとは連絡が取れないため、khとthの部分は
例のSFから収集した語を代わりに入れています。結果として128番さん収集の語の
一部が落ちました。V0005との違いは、

(1)正式にPDDになったこと
(2)語彙が多少増えたこと 2581語 --> 2645語
(3)漢字語の分別を少しだけ進めたこと

です。

とりあえず、PDDにしたので、あとは誰がどうしようと構いません。
私自身も多少見直し、更新などを行うかもしれません。

皆様、どうもお疲れ様でした。

473 :傍観者:04/09/20 11:56:49
乙ディス!!

474 :瀕死の重病人27:04/09/21 20:02:23
2さん、皆さん、お久し振りです。なしのつぶてで申し訳ありませんでした。
2さん、本当にご苦労様でした。
いろいろ提案したり手直しを手伝いたい気持ちは山々なのですが、病状が急激に
悪化し、今はそれが出来ません。
回復して車椅子が新しく買えたら、また情報収集してお手伝いが出来るかも
しれません。このまま死んだら・・・協力出来なくてごめんなさい。
こんな私を見捨てないで参加させて下さり、ありがとうございました。
                            埼玉県志木市より
                              A.A.O.    


475 :2:04/09/21 20:45:27
なんかとても大変なことになってるようで、お見舞い申し上げます。

27さんがやってくれた母音の部分は量も多く、固有の語が沢山あり、単語集の中で
良い部分になってると思いますよ。

状況はよく分かりませんが、なんにしても身体にお気をつけて。

476 :2:04/09/21 21:06:33
私の最後の奉公として、成果物(単語集)の宣伝に行ってきます。
マルチポストは嫌がられるからどこかひとつのスレだけ狙い撃ちしよ。
でもどれにしようかな? 韓国語関係のスレはどれも荒れてるから。。。



477 :瀕死の重病人27:04/09/22 23:59:38
ありがとうございます                                                                                                         

478 :hyam:04/09/23 01:05:13
>>472
>韓国語の単語集 kj2000 を正式にPDDとして配布するようにし、
お疲れ様でした。

仕事でちょっと横浜に行っており今日帰ってきたところ。
ふぅ、疲れたのです。 :-)

でも、今、五体満足ならそれだけでも感謝しなければ
いけないなぁ、と思います。
27さん、ご自愛下さい。


479 :2:04/09/23 09:51:32
>>478
どうも。
私としては、あとは、128さんが復帰して、「PDDで良いよ」と
言ってくれたら、彼が集めた語を含めるくらいが残った仕事かと思っています。

一応、kj_dict に取り入れるにも権利的な不安はなくなったかなと思います。
正しい訳語がふってあるかどうかという信頼性の問題は依然としてありますが。
この手の仕事って、time consuming ですね。

480 :hyam:04/09/23 16:48:38
>>479
>一応、kj_dict に取り入れるにも権利的な不安はなくなったかなと思います。
お心遣いありがとうございます。 m(__)m
週末あたり、ちょっとその辺を考えてみます。
# Vectorの方もそろそろversion upしないと。

>この手の仕事って、time consuming ですね。
時間かかってもいいから
お互いにゆっくりと成長していきましょう。

481 :名無しさん@3周年:04/10/11 22:37:22
test

482 :名無しさん@3周年:04/10/19 01:34:09
せっかく作った kj2000を pocketpc で持ち歩こうと思って、
フォント入りでPDFにするために、お安い「いきなりPDF」で試したんだけど
文字化けでダメでした。kj2000に限らず、韓国語の入ったのはダメでした。
ここらあたりの情報知ってる人います?

まあ、私はとりあえず別のソフト(Primo PDF)でPDF化したので、よいのは
良いのですが、今後のことも思って(Primo PDF はPDFを作成するたびに
宣伝がでるし)。

483 :128:04/10/20 21:49:57
128です。435みました。気付かずにいましたがふと見たらこんな事に。
お待たせしましてすみませんでした。いくらでもなんでもいいです。使ってください。
レスを全部見ていませんが、そういう事で良いですね。
またここ覗きますので

484 :2:04/10/21 21:17:25
>>483
最初に聞かずにすみませんでした。せっかくデータを提供していただいたのに。
それではkj2000に128さんの部分を加えてアップロードします。

485 :2:04/10/21 21:42:26
kj2000を更新した ver 00.08 を
http://www.wikiroom.com/slo2/
にアップロードしておきました。違いは
 ・2678語になったこと(v00.07は2645語)。
 ・readme.txt の貢献者に 128 さんを加えたこと。
です。これで私としては心残りもなくなりましたのでとっても嬉しいです。

486 :128:04/10/22 06:43:05
どうもお疲れ様です。

487 :2:04/10/22 20:21:01
>>486
どうも。皆様のおかげです。
kj2000 は、せっかく作ったんだから、少しだけ広めようと思います。
少しは役に立ちますよね?

2ch で下手に宣伝すると叩かれるだけなので、やり方を考えないと。

「新たな付加価値がついたのでダウンロードしてください。」だったらいいのかな?
「pdfにしたので、PocketPC 等に入れてで持ち歩いてください」とか。
「基本語に*をつけたので、勉強の補助に使ってください」とか。

488 :2:04/10/22 21:17:13
>>487

ということで、韓国語単語集 kj2000 を pdf にして、

http://www.wikiroom.com/slo2/

に置きました。PDA なんかに入れて持ち歩いてみてください。

とりあえずA4版で最後に readme.doc を入れておきました。
どんな形で整形するのが使いやすいかノウハウが溜まったら
宣伝にでもいきましょう。

489 :2:04/10/28 22:33:05
2ch辞書開発スレ@外国語板支援ページのリンク集から
たどったのでみんな知ってるんだと思いますけど、
フリーの辞書集に感激したので貼っておきます。

Free dictionaries project - use/create free dictionaries
http://www.fdicts.com/

490 :hyam:04/10/31 00:39:37
> Free dictionaries project - use/create free dictionaries
世界にはいろいろな辞書を作っている人がいる。
でも、やっぱり英語中心だなぁ。

491 :名無しさん@3周年:04/11/01 16:06:43
皆様はじめまして。このスレが立った頃に覗いたことがあったのですが、最初皆さんが何をされようとしているのか理解できませんでした。
最近自分専用の辞書が作れればいいなあ、と思って調べていたところPdicなる物を知り、やがてここに辿り着きました。
そしてwikiも拝見しました。ナント皆さんは素晴らしい事をされているのでしょう!神のようです。
PC音痴の私はお手伝いできませんが、陰ながら応援し、成功をお祈りします。

楽々韓国語付属の朝鮮語辞典が欲しくて買いましたが、発音記号が無くフォントも独自の物を使用していて、はっきり言ってクソでした。
見皆さんの辞書の方が100倍素晴らしい!

ロボワードもありますが、こちらの方はどうなのでしょうか?体験版を使用してみましたが、体験版なので制限が多いのですが、翻訳機能などもあり便利だとは思います。
ただ辞書形式がPdicと異なりますよね。変換できるのでしょうか?



492 :2:04/11/01 20:48:17
このスレ立てた2です。私が一番なにやってるか分からない人だったりして。

もともとの私の目的は、人間が気軽に扱えるサイズの単語データを分担して
楽に作ることでした。2000語〜3000語くらいなら、
 ・全部見て憶えたい単語だけ別に集めて、
 ・暗記用に気軽に持ち歩ける単語集として印刷したり、
 ・PDF にしてポケットPCにいれて持ち歩いたり、
 ・自分で例文作って、学習したり、
 ・それを人のために提供して喜んでもらったり、
   ...
などをする気になるでしょ。
結果的には、思惑通りには行かないことがわかったり、思惑以外のことが
達成されたりでした。まあ、参加者で作るスレなんで、みんなで決めて
いけばよいのですが。

でも、内容的には情報技術関係のことが多く、外国語板のスレとしてはあまりふさわしく
ないかもしれません。もし、この類のスレの需要があり、「その2」を立てることになったときは
もう少し役割をきちんと考えないといけないように思います。ここはそのための実験スレですね。

493 :2:04/11/01 21:03:17
で、ひーひー言いながらやっとできたのが韓国語の単語集だけというのは、
もともとのスレの意図が、ここで複数の言語の単語集ができることなので
少しさびしいなと思っています。

それで、ドイツ語にでも手を出そうかなと思い始めています。

私の目的が
 ・人間が簡単に扱うことができるサイズのデータ集の作成
 ・色々な言語でごくごく簡単な部分は意思疎通を図れる程度の学習
  (英語以外で相手の国の言葉でしゃべって意表をつくのは楽しい)
なので、私が絡む部分は本格的な辞書にはならないのですが。

494 :2:04/11/01 21:09:48
で、長々とすみませんでした。

だれかドイツ語で比較的最近の文章(できれば1960年以後)がフリーで多量に
あるとこ知りませんか?
使われている単語の頻度データを作ってアップロードしようと思います。
こういう頭使わないでプログラムにデータくわせるだけって仕事は大すき。

ドイツ語は韓国語と違ってデータをダウンロードできるフリーな辞書が
ある程度あるので、基本的な単語集は工夫すれば楽にできるのではないかと
思うのですが。

495 :2:04/11/01 21:14:29
>>491
ロボワードのことをお聞きでしたね。商用なのでそれなりに使えるのじゃないでしょうか?
私自身はあまり知らないのですが、使ってる人から情報を得られるかもしれませんので、
どういうことを知りたいか詳しく書かれたらよいかと思います。
・発音記号やフォントはしっかりしているか?
・翻訳の精度のほうはどうか?
とかですか?

496 :2:04/11/01 21:20:52
質問があります。

2ch辞書開発スレ@外国語板支援ページ-2号館
http://slo2.s76.xrea.com/
から辿れる辞書
http://slo2.s76.xrea.com/dict/kj2ch_app/

   kj2ch 補遺(登録数: 80849)
   単語を入力してください。
   検索語[                ]

は、登録数:80849 と書いてある割には、なにもヒットしないのですが、
これは試みに作ったサイトで80849語はいっていないからなんでしょうか?(80849語は、表示のミス?)
それとも私の操作が悪いんでしょうか?

せっかくなんで、kj2000 なり kj_dict のデータをいれたらよいのでしょうか?

なにも分かってなくてすみません。

497 :2:04/11/01 21:24:58
>>494
> だれかドイツ語で比較的最近の文章(できれば1960年以後)がフリーで多量に
> あるとこ知りませんか?

わがまま言ってすみませんが、こまごまとした文章をつなぎ合わせないでよい
テキストデータがあったら教えてください。新聞のデータは本当に最近ので
いいんですが、単語数の使用頻度を調べるために、かなりの回数カット&ペーストが
必要になり疲れてしまいます。それとできれば GNU関連の文書でないほうがいいです。

498 :名無しさん@3周年:04/11/01 21:27:28
あと2つで500。

499 :名無しさん@3周年:04/11/01 22:21:27
一番いいのは小説がテキストデータ化されてるといいんですがね。所謂地の文と会話体が入ってますから

500 :名無しさん@3周年:04/11/01 22:34:05
500

501 :名無しさん@3周年:04/11/01 22:40:10
映画のスクリプトでもいいんだけど、ドイツ語読めないので
そこにたどり着けない。鬱。

大体、ドイツの有名な映画って何があるんだっけ?

501。

502 :名無しさん@3周年:04/11/01 22:45:40
http://www.japan-art-design.de/film/
http://www.kamogamo.com/jp/deutsch/film/filmTR.html

503 :2:04/11/01 22:54:25
Danke! >> 502

英語 --> ドイツ語で
 Movie --> Film
 Transcript(or script) --> Abschrift
らしいので、それを手がかりに検索してみる。

504 :2:04/11/01 22:58:17
ドイツのテレビ番組のスクリプトサイトを見つけた。
http://www.tv-scripte.de/

505 :名無しさん@3周年:04/11/01 23:01:28
折れはニュース記事のテキスト部分だけを自動的に折れ宛てにメールする
プログラムを作ってcronで定期実行してるよ。496の鯖ってcronは使える?
まあcronでなくてもコマンドを定期実行できる仕組みがあればいいんだけど。
メールは読まなくてもたまってくから放っておけばコーパスもどきができるよ(w

折れのバヤイ、某国営サイトの某語のニュース記事が一年分とすこしたまった。
さっき頻度をカウントしてみたら総単語数は859,142ワードだった。
時事ニュースの頻出語で、なおかつ初級の単語帳に載っていないものを
拾って暗記したいなーと思っているけど、いまだ手つかず。
屈折語なんで、記事からの単語の切り出しが思いのほか厄介。まだ完璧には程遠い。
それでも頻度情報が付いた単語リストを眺めていると得るものがあるね。

ニュース記事のページから本当に必要なテキスト部分だけを取り出すには
ニュースサイトごとにダウンローダを自作するのが結局一番効率がいい。
wget、lynx、w3m などの既存のツールを組み合わせて使うのも手だけどノイズが増える。
HTTPでページをダウソしてHTMLパーザで欲しい範囲のテキストだけ切り出すのがお勧め。
スクリプト言語で書けば大したコード量にはならない(むしろサーバ側の
ページレイアウトの変更に合わせてスクリプトを書き換える手間の方が大きい)。

以上、参考までに。

506 :名無しさん@3周年:04/11/01 23:02:39
Akte X - Die unheimlichen Falle des FBI
↑X-fileワロタ

507 :2:04/11/01 23:36:37
テレビ番組用スクリプトの中に「バフィ・ザ・バンパイア・スレイヤ」の
スクリプトのドイツ語版があったので、そのNo.1 - No.5 の頻度データを
第2別館
http://slo2.s76.xrea.com/index.php?FrontPage
に german-words-in-buffy1to5.zip という名前でアップロードしました。

活用や大文字・小文字の違いでも違う単語としてカウントしてあるので
あまり高級なものとは言えませんが、どんな語をカバーすればよいのかの
参考程度にはなるでしょう。

直接の URL は、
http://slo2.s76.xrea.com/index.php?plugin=attach&openfile=german-words-in-buffy1to5.zip&refer=FrontPage
↑です。

508 :2:04/11/01 23:56:46
>>508
>↑X-fileワロタ

そこミステリー番組のところ、上から
Akte X - Die unheimlichen Fälle des FBI (Xファイル)
Angel - Jäger der Finsternis (???知らない???)
Buffy - Im Bann der Dämonen (バフィ・ザ・バンパイア・スレイヤ)
Charmed - Zauberhafte Hexen (チャームド魔女?)
Roswell (ロズウェル)
Smallville (小さな村?)

で、アメリカのTVプログラムばっかりですね。

509 :名無しさん@3周年:04/11/02 01:30:07
>>508
チャームドNHK教育で放送してたな?っていうかまだしてんのか?

510 :実は独語にも手を染めている27:04/11/03 07:16:21
ドイツ語の単語集、何冊買って挫折したことか・・・
なかなか良い物がないので、完成すると嬉しいです。
でも、PDAとかまだ持ってません。

511 :2:04/11/03 08:48:23
ドイツ語については、すでに大きな辞書から基本語彙だけの辞書まで
インターネット上に沢山あるようですから、それらを探してきたり、
使い方を考えたりするほうが生産的でしょう。自分達で苦労して1から
つくるよりは。

それが「辞書開発スレッド」の趣旨と合うかどうかは問題ですが。

512 :2:04/11/03 09:15:31
最近、市販のドイツ語単語集をパラパラと見ているのですが。
ドイツ語から英語に引き継いだ単語以外にも類似性が見て取れることがあります。
例えば、
  fahren (乗り物で)行く、(乗り物を)走らせる
は、英語の中に直接対応する語はないと思うのですが、ラテン語の
語根 -fer- = carry と同じ先祖を持っていそうな気がします。
(英語の中では、transfer, infer, refer, suffer, differ, offer, ...)。
こんなのも含めると、案外、基本語彙だけは簡単に覚えられるんじゃないかと
思うこの頃。これも「辞書開発スレッド」の話題かと言われると、違うような。
雑談ですね。


513 :2:04/11/03 10:22:18
単語集を見ながら気づいたことを書くと( / の後ろね)

tragen = 持ち運ぶ / ラテン語の語根 -tract- = 引く ど同語源?
auf = over / over や up と母音、子音の並びが同系統ですね
aus = out / ほかにも沢山あるけど s <-> t がしばしば対応するんですね
an- = to / ラテン語の接頭語 ad- = toward と同系統かな?
ab- = off / 英語でも ab- ですが、音の並びを考えると ab- over, up, off, of全部
   もともと同じかもしれませんね(かなり電波かな?)
bewegen = move / 英語のbe-の接頭語はドイツ語の方言の時に発達したもの?
    weg は way ですね(下記参照)。運ぶのようなイメージですかね。
gegen = ...に対して、向かって / against と関係ある?
Kopf = 頭 / cap = 帽子, capital = 大文字, capture 捕まえる ときっと同語源ですね。

g --> y (英語の半母音 y は、g から変化したものがある)
 Tag --> day
 Wagen 車, Weg 道, weg 離れて --> way と関係
 legen 横たえる --> lay
辞書を見ながら想像していると結構楽しい。

fangen = 捕まえる、つかむ は、私はすぐ連想するものが
ないのですが、Finger (指。英語でも finger) と関係ある?


514 :2:04/11/03 14:49:46
さっき本屋に行ったら
 ドイツ語語源小事典、宮下忠雄著、同学社、2,940円
というのを見つけて、つい買ってしまった。

fahren はやはり印欧祖語の *por- =行く から来ていて、fuehren = 導く は、
fahren の使役形ということだそうです(ue は u ウムラウトのつもり)。

この本は基本的なドイツ語 2250 語だから、1語あたり、1.3円。
これを高いと思うか、安いと思うか。

515 :2:04/11/03 14:53:07
ゴメン。「じてん」の変換を間違えた。
ただしくは、
  ドイツ語語源小辞典, 宮下忠雄著, 同学社, 2,940円
でした。

516 :27:04/11/03 22:59:38
「ドイツ語語源小辞典」下宮著
 10年前から愛用しています。

517 :hyam:04/11/04 02:21:12
>>511
>それが「辞書開発スレッド」の趣旨と合うかどうかは問題ですが。
前に出た「・人間が簡単に扱うことができるサイズのデータ集の作成」
でいいんじゃないですか。

>ドイツ語については、すでに大きな辞書から基本語彙だけの辞書まで
ドイツ語と日本語を話す者から
以下のサイトを教えてもらいました。
http://www.wadoku.de/
http://bunmei7.hus.osaka-u.ac.jp/wadoku-jiten.htm


518 :名無しさん@3周年:04/11/05 03:22:24
ttp://ja.wiktionary.org/

519 :2:04/11/07 10:16:47
とらぬタヌキの皮算用

文章から単語を切り出して単語集(訳付き)を作る方法を一緒に考えて貝ませんか?

目的としては、その言語の入門者が最初の1000〜3000語くらいを覚える役に立てる
こととしておきます。
 私も今回のドイツ語に関してできてるわけじゃないので、「こうすればできそうだ」、
「これをやってみたらこんな結果になった」ということを書いておきます。良い方法、
良いツール、よいコミュニティ(または、人的つながり)などに関して知恵を出し合えればと
思います。

520 :2:04/11/07 10:21:58
用意するもの
(1)対象の言語で書かれた多量の文章
(2)単語分割ツール(語尾を標準形に直してくれるなどの機能があれば嬉しいが、なければ区切り記号で分割)
(3)作成する単語集のイメージ
(4)データの一部を使ってよい別の辞書
(5)有志
(6)できあがったものの配布の規約

521 :2:04/11/07 10:47:00
で、(1)〜(2)でやってみた結果を書きます。
項目(1)は例の http://www.tv-scripte.de/ にあったバンパイヤスレイヤー バフィーの
第1話〜第5話のスクリプトで合計 510KB(utf16 ですから、半分にして
約25万文字)。
単純に空白文字と区切り文字で分割して、語ごとの頻度データにしたものが
http://slo2.s76.xrea.com/index.php?plugin=attach&openfile=german-words-in-buffy1to5.zip&refer=FrontPage
で、
 ・全部で 6253 単語
 ・2回以上現れた単語は、2627 単語
大文字・小文字の違いも区別しているので(ドイツ語の時は下手に同一視できない)、
それらをまとめると1000〜2000単語に減ると思う。語の頻度データは下のようなもの。
右側の数が出現回数です。
Bucher : 23
hinein : 23
Gott : 23
Leute : 23
kannst : 23
lacht : 23
hinterher : 22
beginnt : 22
Arm : 22

522 :2:04/11/07 10:58:46
2回以上現れた2627 単語の1/3くらいに重要単語のマークをつけるとして
2627/3 は 約900だから頻度データから900番目あたりの様子をみると、
 893 wußte : 6
 894 Magen : 6
 895 genug : 6
 896 Achso : 5
 897 Busfahrer : 5
6以上に重要語マークをつければ約1/3に重要語マークがつく。

523 :2:04/11/07 11:04:27
もし、頻度6以上の単語を知っていたら、バフィーのスクリプトを
読むのにどのくらいの頻度で辞書を引かなければならないのか
だれか計算してくれるとありがたい(頻度データから)。

524 :2:04/11/07 11:06:21
項目(3)の「作成する単語集のイメージ」は
アルファベティカルオーダーで
見出し語 /// 重要度 訳語(性、品詞などを含む)
でよいかと。

525 :2:04/11/07 11:11:54
項目(4)の「データの一部を使ってよい別の辞書」を探して
・辞書引き&データ作成のスクリプトかなんかで、素単語集を作成し
・うまく引けなかったところ、語尾変化などで同一視されなかった単語の処理
などを人手かあるいはとてもうまい方法でやって配布して終わりですね。

ここで作成する場合、(5)はGPLか、あるいは前回韓国語の単語集でやった
権利の完全放棄だと思う。

526 :2:04/11/07 11:13:35
>>525
特にここらあたりから私の手にあまるので、皆さんのお知恵を拝借したいですね。

527 :名無しさん@3周年:04/12/16 07:42:32
このスレを辞書作成(単語集作成)のノウハウ集にするためには
辞書のデータ形式(どんな項目があるかなどの情報)も集めてきたほうが
よいのかな?

528 :名無しさん@3周年:05/02/14 21:29:45
問題先送りsage

529 :名無しさん@3周年:05/03/12 20:31:45
とうとう100円ショップに韓日辞書が並ぶようになりましたね。
今日、買ってきたんですが、2004年11月30日、初版発行なので、
このスレを始めたときはなかったわけですが。
収録語異数は、4000語くらいかと思います。基礎的な単語の記憶用には
いいかも。ただ、もう少し活字を小さくしてくれると、携帯しやすいんだけど。

530 :名無しさん@3周年:2005/04/04(月) 13:58:33
"フリーの日韓辞書・韓日辞書を作る試み"の中の人はここを見ているのかな。
いつも使わせてもらってて感謝してます。

ところで、最近のKJ_form2についてなのだけど、翻訳不能の部分をカタカナに変換するのは果たして如何かと…。
以前のようにそのままハングルのままで表示してくれた方が、その後で自分で調べる時に都合が良いのですが。
カタカナで「アJヒョッタ」とか「イルサムゴ」とか出されてもワケがわからない上に、
原文からその箇所を探し出さねばならず、却って手間がかかるようになってしまったのですが・・・。

それと配布されてるアーカイブですが、バージョンか日付入りのファイル名にした方が良いかと。
ダウンローダで落としているので上書きしてしまい、以前の物に戻したくても・・・。

531 :hyam:2005/04/05(火) 02:35:19
> 翻訳不能の部分をカタカナに変換するのは果たして如何かと…。
> カタカナで「アJヒョッタ」とか「イルサムゴ」とか出されてもワケがわからない上に、

わははは... (^^;
全くもってそのとおり。

何か切り替えスイッチでも考えます。
# カタカタ変換を単にやってみたかったんですよ。

ファイル名の件もちょっと考えます。
# こちらのビルド環境の関係上、ちょいと細工が必要で
# すぐの対応は難しいかもしれませんが。

貴重なご意見、ありがとうございます。

532 :名無しさん@3周年:2005/04/24(日) 12:12:32
kj2000ですが、個人的にいくつか気がついた誤りを修正したので
次の版をアップロードしようと思うのですが、この際、もう少し
修正しておこうと思いました。
一部の見出しを機械翻訳にかけてうまく翻訳できなかったものを
あげますので、これは正しい、これは○○の間違いなど、心当たりが
あったら教えてください。


533 :名無しさん@3周年:2005/04/24(日) 12:13:43
これは正しい、これは○○の間違いなど、心当たりが
あったら教えてください。

아루만지다 /// 軽く撫でる、 さする、 いたわる
어세다 /// 頑丈だ、 強情だ、 固い
얻이맞다 /// 殴られる
얼떨하다 /// めんくらう、 頭がふらつく
얽하다 /// 互いに絡み合う
에우다 /// 包囲する、 迂回する、 記録から消す
에푸수수하다 /// 乱雑だ
엔간찮다 /// 並大抵ではない
여묵 /// どんなにか、 さぞかし
연뿌리 /// レンコン
연생이 /// ぐうたら、 がらくた
연월 /// 世の中が平和な様子
열을받다 /// 頭に来る、 むかつく
염러없다 /// 心配いらない
염서 /// 恋文
예라 /// 止めろ、 止めよう
오막실이 /// あばら屋(暮らし)
오바이트하다 /// 酔ったりして吐く
오순도순 /// 仲睦まじく
오줌 /// 小便
오직 /// ひたすら、 ひとえに
오톨오톨 /// 凸凹な
온 /// 全...
올 /// 布目、 糸すじ
올랑올랑 /// ドキドキと
요렇다 /// こうだ、 この様だ


534 :名無しさん@3周年:2005/04/24(日) 12:14:35
これは正しい、これは○○の間違いなど、心当たりが
あったら教えてください。 (その2)

우가지다 /// 生い茂る
울력 /// 連帯の力、 連帯による仕事
울릉대다 /// 脅す
원수 /// 仇
월 /// 文章
육통터지다 /// 達成一歩前でしくじる
으례 /// いつも、 決まって、 当然
으르르 /// ぶるぶると
을씨뎐스럽다 /// 薄ら寒い、 わびしい
의젓이 /// 立派に、 堂々と
의초로이 /// (きょうだい、 夫婦が)睦まじく
이내 /// すぐ、 ずっと
이드거니 /// たっぷりと
이드르르 /// つやつやな
이랑 /// 畝(うね)
이러다 /// こうする、 この様にする
이왕 /// 以前、 どうせ
이키나 /// あっ、 おっと
익살스레 /// 滑稽に
인성만성 /// わいわいと、 がやがやと
인절미 /// 一種のきな粉餅
일떠니다 /// 決起する
일어니다 /// 起床する、 起き上がる、 発生する
임자 /// あんた、 君
임자 /// 持ち主


535 :名無しさん@3周年:2005/04/24(日) 13:06:34
일어니다 --> 일어나다 /// 起床する

だろうね。

536 :名無しさん@3周年:2005/06/05(日) 18:23:15
http://www.wikiroom.com/slo2/ って、管理者用のパスワードが
ないとアップロードできなくなったんでしょうか?

> Wiki クローンにおけるクロスサイトスクリプティングの脆弱性のため添付機能を制限します

kj2000 をアップデートしておこうかと思って、ふるいの消しちゃったんですが、
アップロードできませんでした。

と、sage で書いておいてレスが付くまで悠久の時間を楽しむ。

537 :名無しさん@3周年:2005/11/06(日) 06:24:01
とりあえず、保守

538 :名無しさん@3周年:2005/11/16(水) 21:57:24
ここはまだ命をながらえてるみたいなので、kj2000のアップデートをしておきました。
http://www.wikiroom.com/slo2/

アップロードのときエラーが起きたけど、データはダウンロードできたので、
大丈夫でしょう。たぶん。

539 :名無しさん@3周年:2006/01/31(火) 22:51:39
/

540 :夏か・・・:2006/07/26(水) 10:02:14

                     /⌒彡:::
                   /冫、 )::: モウ…夏カ…
                  __| `  /:::
                 / 丶'  ヽ:::
                / ヽ    / /:::
               / /へ ヘ/ /:::
               / \ ヾミ  /|:::
              (__/| \___ノ/:::
                 /    /:::
                 / y   ):::
                / /  /:::
               /  /::::
              /  /:::::
             (  く::::::::
              |\  ヽ:::::
                |  .|\ \ :::::
          \    .|  .i::: \ ⌒i::
          \   | /::::   ヽ 〈::
              \ | i::::::   (__ノ:
              __ノ  ):::::
            (_,,/\


541 :名無しさん@3周年:2007/02/19(月) 21:40:03
sage

542 :名無しさん@3周年:2007/02/19(月) 22:23:30
sega

265 KB
■ このスレッドは過去ログ倉庫に格納されています

★スマホ版★ 掲示板に戻る 全部 前100 次100 最新50

read.cgi ver 05.02.02 2014/06/23 Mango Mangüé ★
FOX ★ DSO(Dynamic Shared Object)